Société et territoires Temps de lecture 3 min
OpenMinTed : une plateforme d’outils informatiques pour extraire et exploiter les informations de la littérature scientifique
L’équipe Bibliome-MaIAGE et la Délégation Information Scientifique et Technique (DIST) de l’Inra contribuent au projet européen d’infrastructure OpenMinTeD dont l’objectif est de mettre en place une plateforme informatique en ligne, encourageant et facilitant l’utilisation des technologies de fouille de textes (text and data mining : TDM) pour la recherche.
Publié le 02 mars 2018

Face au déluge de connaissances scientifiques publiées, les chercheurs ont de plus en plus besoin d’outils pour les aider à analyser rapidement les textes et en extraire des données précises. Les technologies de fouille de texte, ou text-mining, ont été développées pour répondre à cette attente. Mais les dispositifs mis en place ont été conçus en prenant en compte les spécificités des domaines de recherche, des types de texte à traiter ou de l’analyse souhaitée, résultant en un paysage fragmenté de solutions de text-mining incompatibles.
Créer une plateforme de collaboration et de partage de connaissances sur le text-mining
L’objectif du projet européen OpenMinTeD, financé dans le cadre du programme Horizon 2020, est la création d’une plateforme de collaboration et de partage de connaissances sur le text-mining au service des scientifiques de tout domaine. L’Inra, avec l’équipe Bibliome-MaIAGE et la DIST, est impliqué dans le projet aux côtés de 16 autres partenaires académiques dont les contributions sont coordonnées par l’Athena Research and Innovation Centre (ARC). Le consortium travaille à l’intégration de ressources (littérature scientifique et ressources d’annotation) et de composants logiciels de text-mining, facilitant leur réutilisation, en les rendant interopérables. La contribution de l’Inra à OpenMinTeD consiste à apporter et intégrer les technologies Alvis développées par l’équipe Bibliome depuis de nombreuses années. La conception de la plateforme étant guidée par des cas d’usage, cette contribution s’inscrit plus largement dans la conception et la réalisation d’applications innovantes dans les domaines de l’agriculture et de l’alimentation.
Avec les unités Inra en microbiologie des aliments et la plateforme bioinformatique Migale, l’équipe Bibliome-MaIAGE et la DIST ont ainsi mis en place l’application "Florilège". Son objectif est de rassembler dans une représentation unifiée l’information publique (issue des bases de données et des articles scientifiques) qui concerne la flore positive des aliments (transformation, biopréservation, probiotique). Deux autres cas d’usage ont été développés par Bibliome-MaIAGE et la DIST. Le premier a été conçu en collaboration avec l’Unité de Recherche Génomique Info (URGI) au sein de l’application "WheatIS", un système d’information intégré sur les phénotypes et génotypes du blé. Le second, construit avec l’Institute of Plant Sciences Paris-Saclay sur l’application "SeeDev", intègre les données de la base de génomes de plantes « FLAGdb++ » avec les régulations impliquées dans le développement de la graine d’Arabidopsis thaliana,extraites à partir de publications scientifiques. Cela permet aux chercheurs d’obtenir non seulement des informations sur l’activité des gènes pendant le développement de la graine (leurs interactions ou les protéines qu’ils produisent par exemple) mais aussi d’avoir accès aux textes scientifiques qui décrivent cette activité. Chacun de ces services innovants intègre dans un ensemble unifié et simple d’accès, des données expérimentales, des données expertes et les données extraites en masse par OpenMinTeD à partir des textes.
La dernière réunion du consortium OpenMinTeD s’est déroulée du 12 au 14 février 2018 au centre de recherche Inra Ile-de-France - Jouy-en-Josas. Les partenaires, rejoints par les communautés Open Access fournissant des contenus et les communautés informatiques de text-mining, achèvent l’intégration de leurs applications et leurs composants à la plateforme, qui sera officiellement lancée le 24 mai 2018 à Bruxelles.
L’équipe Bibliome de l'unité de recherche MaIAGE
La littérature scientifique constitue un gisement de connaissances scientifiques de grande valeur, mais largement inexploité parce qu’uniquement sous forme textuelle. La croissance très rapide du volume de publications sous forme d'articles ou de bases de données à un niveau mondial rend impossible une veille scientifique systématique. Il est nécessaire de doter les chercheurs d’outils semi-automatiques pour sélectionner, extraire et formaliser ces connaissances, qui seront ensuite confrontées et intégrées avec des connaissances d’autres sources et domaines dans un objectif de découverte et de modélisation de connaissance.
L’équipe de recherche Bibliome en collaboration avec d’autres laboratoires a pour objectif de développer de nouvelles méthodes et technologies, intégrées dans la Suite Alvis et appliquées à différentes questions en Sciences de la Vie. Ces méthodes identifient automatiquement des connaissances fines dans de larges corpus de documents de genres divers et les mettent en relation faisant appel à la linguistique computationnelle et à l’apprentissage automatique.