5 min

Exploiter et partager les données scientifiques, moteur de la recherche

INRAE a construit un plan « Données pour la science » (2022-2024), afin de mieux utiliser et partager les données scientifiques grâce au développement du numérique. Ce plan implique une transformation systémique des pratiques et mobilise l’ensemble de l’Institut, pour favoriser une science plus ouverte, interdisciplinaire et prédictive. Interview de deux acteurs clés de cette évolution, Michaël Chelle, chargé de mission « numérique » auprès de Carole Caranta (directrice générale déléguée Science et Innovation) et Hadi Quesneville, administrateur des données, algorithmes et codes.

Publié le 09 février 2023

illustration Exploiter et partager les données scientifiques, moteur de la recherche
© INRAE

Par leur multiplication et leur puissance descriptive, les données sont aujourd’hui plus que jamais un « matériau » de base de la recherche, qu’il faut collecter, stocker, analyser et rendre accessible. C’est même un carburant essentiel qui alimente le moteur de la recherche en permettant de poser de nouvelles questions. Sous leurs différentes formes (tableaux, images, codes informatiques, etc.), les données sont des produits de tous les champs de la recherche : expérimentation, observation, ressources biologiques, enquêtes en sciences sociales, etc. Leur traitement et leur analyse constitue un champ de recherche en soi, qui donne lieu à l’apparition de nouvelles compétences et métiers : les data managers et les data scientists.

Hadi Quesneville est administrateur des données, algorithmes et codes.

Qu’est-ce que le cycle de la donnée ?

Hadi Quesneville : Le cycle de la donnée décrit l’ensemble des traitements appliqués aux données, depuis leur production jusqu’à leur archivage. Il comporte trois opérations principales : collecter, analyser, partager, avec des étapes intermédiaires (voir l’infographie ci-dessous). Mais avant de collecter des données, il est devenu indispensable de prévoir leur devenir : sur quels espaces elles seront stockées, comment elles seront partagées, selon leur nature, en tenant compte de la réglementation, avec sécurité et responsabilité. Cette étape de planification est aujourd’hui demandée lors du dépôt des projets de recherche auprès de l’Agence nationale de la recherche ou de l’Europe. Ensuite, la phase d’analyse des données est évidemment essentielle car elle permet de les interpréter et d’en extraire de nouvelles connaissances. Elle est précédée d’une étape d’acquisition et de curation. Enfin, le cycle se referme par le partage des données, qui favorise leur réutilisation pour de nouveaux questionnements, en les associant à d’autres données, elles-mêmes inscrites dans de nouveaux cycles, et ainsi de suite… Les données peuvent être aussi compilées dans des archives, comme par exemple les séries temporelles enregistrées sur le changement climatique depuis les années 50, qui offre une vision du phénomène sur le long terme.

Michaël Chelle est chargé de mission Numérique.

Michaël Chelle : J’ajouterais qu’avant de s’engager dans un projet de recherche, il faut prendre soin d’explorer l’ensemble des données existant sur le sujet, afin de ne pas faire de doublons, ce qui représenterait un gaspillage d’énergie et de moyens. La fouille des entrepôts de données (scraping) est d’ailleurs devenue une compétence essentielle du métier de data scientist, compétence sur laquelle INRAE met particulièrement l’accent : il ne suffit pas de produire des données, il faut aussi savoir découvrir et valoriser celles des autres !

 

Quelle est l’ambition du plan Données pour la science d’INRAE ?

M. C. : On pourrait résumer cette ambition en disant qu’il s’agit de transformer les pratiques et les usages du numérique de chaque scientifique, ingénieur et technicien, afin d’exploiter de manière plus approfondie et systématique le capital des données, notamment par des approches intégratives et prédictives. Cela implique un changement de culture, à accompagner dans quatre dimensions complémentaires : la science, l’ingénierie, les compétences et le partenariat.  Un exemple est l’acquisition dans les unités de recherche de nouvelles compétences de data scientist et data manager, en leur proposant à INRAE ou chez nos partenaires, les infrastructures nécessaires à la gestion et au traitement des données, à INRAE ou chez nos partenaires. Un autre exemple est la sensibilisation aux principes FAIR1, qui indiquent comment produire des données reproductibles et réutilisables, et la mise à disposition de services pour les appliquer aux données que nous produisons. C’est aussi s’approprier les méthodes les plus récentes de fouille et d’analyse des données, entre autres par la modélisation et l’intelligence artificielle. Pour l’instant, à INRAE, les pratiques et les compétences sont diverses. Des profils de data scientist/manager existent dans certains départements scientifiques, comme celui de Mathématiques numériques, et au sein des plateformes technologiques qui génèrent une grande quantité de données. Ce sont des profils assez récents, une évolution des métiers à la croisée des statistiques et de l’informatique. L’objectif du plan Données pour la science est de diffuser ces pratiques et développer les compétences autour de la donnée. Cela implique tout l’Institut : les départements scientifiques bien sûr, mais aussi les ressources humaines, la formation permanente, la Direction pour la science ouverte (DipSO) et la Direction des systèmes d’information (DSI). 

H. Q. : L’ambition du plan Données pour la science se traduit en six objectifs. Concrètement, INRAE a mis en place plusieurs dispositifs pour les atteindre. En ce qui concerne la gouvernance des données, c’est-à-dire la manière de les partager, nous avons créé un réseau de référents stratégiques de départements, que j’anime, et un deuxième réseau de référents opérationnels, en proximité des scientifiques2. Nous conseillons les scientifiques par rapport à la sensibilité de certaines données ou par rapport à la propriété intellectuelle, dans le respect de la réglementation et en accord avec le cadre contractuel. En ce qui concerne la formation des scientifiques, il existe d’ores et déjà des formations pour les référents évoqués précédemment, ainsi que pour les data manager. Le plan national de formation qui est en cours de construction à INRAE devra permettre à l’ensemble des scientifiques de gagner en compétences.

M. C. : Nous œuvrons aussi pour le développement du numérique afin de mettre à disposition des scientifiques et des techniciens des outils performants d’accès et de saisies des données, des services de calcul, etc., à travers notamment des structures spécialisées appelées e-infrastructures. Les e-infrastructures permettent de rassembler et de partager les données, souvent de manière thématique. Certaines d’entre elles font partie intégrante des infrastructures de recherche d’INRAE, ensembles d’équipements pour produire et gérer les données dans différents domaines, par exemple l’étude des génomes, l’observation de la biodiversité ou des flux atmosphériques, etc. Les infrastructures de recherche et les e-infrastructures d’INRAE sont nombreuses à être insérées dans des infrastructures nationales et/ou européennes, ce qui permet entre autres d’assurer l’interconnexion des données issues d’un ensemble plus important.

 

Quel est le lien avec le plan Science ouverte d’INRAE ?

Les données obtenues au sein de l’Institut ont une importance stratégique et économique car elles peuvent éclairer les décisions des entreprises et des gouvernements

H. Q. : Le plan Données pour la science tire profit de la science des données et de leur partage, et trace une trajectoire d’évolution des services numériques pour les scientifiques ; c’est un des piliers de la politique Science ouverte d’INRAE qui est plus large en allant de la diffusion des connaissances, méthodes et produits jusqu'à l'ouverture des processus de recherche à la société. Cette politique a pour objectif de partager ce bien commun qu’est la connaissance pour progresser dans la compréhension du monde. Les questions traitées par INRAE sont centrales pour la société : changement climatique, agriculture et alimentation durables, biodiversité, etc. C’est pourquoi les données obtenues au sein de l’Institut ont une importance stratégique et économique car elles peuvent éclairer les décisions des entreprises et des gouvernements. Bien les exploiter et les partager constitue donc un enjeu majeur.

 

M. C. : De façon globale, la politique science ouverte d’INRAE est ambitieuse. INRAE est précurseur dans le domaine, comme cela a été souligné dans le rapport d’évaluation HCERES de l’Institut portant sur la période 2016-2020. Nous sommes le premier institut à avoir créé une direction dédiée, intégrant toutes les dimensions de la science ouverte3, et nommé un administrateur des données, algorithmes et codes en la personne d’Hadi Quesneville. INRAE se démarque aussi par sa vision intégrative et systémique : le plan Données pour la science ne s’attache pas seulement à l’aspect scientifique ou technologique du traitement sensu lato des données, mais aussi aux ressources humaines, à la formation ainsi qu’au partage des outils avec nos partenaires académiques, dans le cadre d’une stratégie partenariale plus large coordonnée par l’Institut.

 

1. FAIR : Facile à trouver, Accessible, Interopérable, Réutilisable. Les données et les codes sources doivent être suffisamment documentés et contextualisés pour être accessibles et réutilisables.
2.  Le réseau des référents opérationnels est animé conjointement par la Direction pour la science ouverte et les référents stratégiques des départements.
3. La Direction pour la science ouverte (DipSO).

 

Plan donnees pour la science.pdfpdf - 343.46 KB

Pascale MollierRédactrice

Contacts

Hadi QuesnevilleAdministrateur des données algorithmes et codes à INRAE

En savoir plus

Hadi Quesneville, l’art des données

Big data, open science, open data… En sciences, comme dans notre quotidien, les données prennent une importance croissante. Hadi Quesneville figure parmi les premiers administrateurs des données nommés par les instituts de recherche en France. Un métier nouveau, qu’il nous fait découvrir en nous sensibilisant aux nouveaux enjeux de la science ouverte.

18 décembre 2020

Esther Dzalé, ouvrir les sciences pour un monde meilleur

Spécialiste de la gestion des données scientifiques, Esther Dzalé met ses compétences en informatique au service du partage de la science. Responsable du pôle Numérique pour la science à la Direction pour la science ouverte d’INRAE, son parcours et son investissement sont aujourd’hui récompensés par le Laurier 2021 Appui à la recherche.

24 novembre 2021

Société et territoires

Big Data for the Greater Good

PARUTION - La croissance explosive des données et les avancées en matière d'analyse du Big Data ont créé une nouvelle frontière pour l'innovation, la concurrence, la productivité et le bien-être dans presque tous les secteurs de notre société, ainsi qu'une source d'immense valeur économique et sociétale.

07 janvier 2020