3 min

Recherche Data Gouv, les données en commun

Le 8 juillet 2022, le ministère de l’Enseignement supérieur et de la Recherche lance la plateforme Recherche Data Gouv qui permettra à tous les établissements d’enseignement supérieur et de recherche de déposer et de partager des jeux de données scientifiques validés. INRAE, reconnu pour son expertise dans la gestion des données, a développé la partie technique de l’entrepôt ainsi que le catalogue associé.

Publié le 08 juillet 2022

illustration Recherche Data Gouv, les données en commun
© AdobeStock

Partager les données scientifiques est un enjeu fort pour la recherche. En témoigne le coût d’une mauvaise gestion des données de la recherche, estimé à 3 milliards d’euros à l’échelle de la France selon un rapport de la Commission européenne1. Un coût qui serait dû aux pertes de temps, à la non-optimisation des coûts de stockage, aux frais de licence ou encore aux problèmes de redondance des travaux recherche. Ce même rapport estime à 16 milliards d’euros la perte de potentiel d’innovation dans le secteur économique au niveau européen. Face à ces constats et dans la dynamique du mouvement Open Data, il devient primordial de travailler au partage des données de façon à ce qu’elles soient accessibles, reproductibles, réutilisables et interopérables (principe FAIR). C’est tout l’objectif de la plateforme Recherche Data Gouv.

INRAE, une expertise reconnue dans la gestion de données scientifiques

Dès 2009, INRAE a mené une réflexion interne sur la gestion et le partage des données. Faut-il partager les données de la recherche ? Quand ? Comment ? À quelles conditions ? Un chantier « Gestion et partage des données » a été lancé en 2013 en associant nos partenaires du Cirad et de l’IRD. Ces réflexions ont abouti en 2016 au projet de création d’un lieu de dépôt et de partage des données scientifiques de l’établissement sous la houlette d’Esther Dzalé, responsable du pôle Numérique pour la science à la direction pour la Science ouverte. Data INRAE voit le jour en 2018, mobilisant 70 personnes. « Aujourd’hui, Data INRAE est l’entrepôt institutionnel qui héberge le plus grand nombre de jeux de données en France, dans toutes les disciplines, mais aussi le plus utilisé en nombre de téléchargements. C’est aussi l’entrepôt qui semblait le plus avancé en terme d’usages et de mise en œuvre », précise Esther Dzalé. Une expertise qui a conduit le ministère de l’Enseignement supérieur et de la Recherche à confier à INRAE le développement technique de la plateforme Recherche Data Gouv.


« Ce projet a été initié à un moment où plusieurs établissements d’enseignement supérieur et de recherche commençaient à développer leur propre entrepôt de données ou à l’envisager. Nous étions d’ailleurs beaucoup sollicités pour partager notre retour d’expérience sur notre entrepôt, Data INRAE. Ce projet national est pour nous une opportunité de mutualiser les infrastructures et le développement associé, ou la production d’outils tels que les guides, chartes, etc. et de mettre l’accent sur l’accompagnement des scientifiques et des utilisateurs sur l’ensemble du cycle de la donnée. Le fait d’avoir désormais un seul socle commun d’outils va favoriser l’adoption de pratiques communes en particulier sur le dépôt et la publication des données. Cela facilitera également les opportunités de découvrir les données des autres établissements et ainsi de favoriser leur réutilisation par un large panel d’acteurs. Ce projet fait sens et je suis fière de pouvoir y contribuer. »

Data INRAE pour modèle

Data INRAE c’est 80 000 jeux de données et 100 000 téléchargements

La plate-forme Recherche Data Gouv est composée de 5 modules. Le développement de  2 modules a été confié à INRAE : 

  • l’entrepôt, qui correspond à l’outil dans lequel les scientifiques vont pouvoir déposer et publier leurs jeux de données ;
  • le catalogue, qui permet de signaler les données quand elles sont gérées ailleurs (entrepôts thématiques nationaux ou internationaux), de sorte à faciliter leur découverte.

Techniquement, l’équipe projet s’est appuyée sur la technologie utilisée pour Data INRAE. « On a travaillé principalement à l’ouverture aux partenaires, pour qu’ils puissent gérer leur propre espace au sein de l’entrepôt en se connectant avec leurs identifiants d’établissement. On a également travaillé pour sécuriser davantage l’infrastructure et la rendre plus adaptée à la multiplicité des acteurs : rajout du stockage, augmentation de la capacité des serveurs par exemple » explique Esther Dzalé. L’équipe Entrepôt-Catalogue Recherche Data Gouv a également développé un portail web qui permettra de communiquer sur l’ensemble des 5 modules. « Dans le portail web, nous avons prévu une section pour éditorialiser des jeux de données. Il s’agit de mettre en avant des jeux de données, avec un narratif associé qui permet de rendre compte de leur importance, du potentiel de leur utilisation, et d’expliquer le contexte dans lequel ces données ont été produites et les objectifs initiaux auxquels elles répondent. »

Accès au portail

Et demain ?

Le projet ne s’arrête pas là, bien au contraire. Les équipes du projet vont, en plus de la gestion et de l’exploitation de l’entrepôt et du portail Recherche Data Gouv, poursuivre les développements de la partie catalogue de façon plus approfondie et proposer de nouvelles fonctionnalités pour l’entrepôt. « Nous allons aussi travailler sur l’évolution de l’architecture technique pour la moderniser davantage et répondre aux objectifs finaux en terme de niveau de service. L’enjeu est aussi de préparer l’après : quel modèle économique ? quelle organisation et quelle gouvernance cibles ? » conclut Esther Dzalé.

Le Printemps de la donnée

INRAE a organisé, en mai 2022, la première édition du Printemps de la donnée. Il s’agit de mettre en lumière des initiatives locales autour de la gestion et du partage de la donnée : des formations, du développement d’outils, etc. Les objectifs sont de favoriser des retours d’expériences croisés, capitaliser sur les connaissances mobilisées ou produites lors de l’évènement, de créer une émulation nationale et un rendez-vous régulier autour de la gestion et du partage de la donnée.
En savoir plus

La science ouverte à INRAE

 

1European Commission Directorate-General for Research and Innovation. Cost of not having FAIR research data. Cost-benefit analysis for FAIR research data. 2019.
http://publications.europa.eu/resource/cellar/d375368c-1a0a-11e9-8d04-01aa75ed71a1.0001.01/DOC_1v

ELODIE REGNIER Rédactrice

Contacts

Esther DzaléResponsable du pôle Numérique pour la science de la DipSO

En savoir plus

Odile Hologne, ambassadrice d’une science ouverte

Odile Hologne, responsable de la Direction pour la science ouverte (DipSO) d’INRAE, est animée depuis le début de sa carrière par la volonté de diffuser les connaissances au sein et en dehors de la sphère scientifique. Les moyens pour y parvenir ? Les nouvelles technologies de l’information…et une grande force de conviction !

19 décembre 2019

Hadi Quesneville, l’art des données

Big data, open science, open data… En sciences, comme dans notre quotidien, les données prennent une importance croissante. Hadi Quesneville figure parmi les premiers administrateurs des données nommés par les instituts de recherche en France. Un métier nouveau, qu’il nous fait découvrir en nous sensibilisant aux nouveaux enjeux de la science ouverte.

18 décembre 2020

Esther Dzalé, l'algorithme de sa vie

À la Délégation à l’information scientifique et technique d'INRAE, Esther Dzalé Yeumo se passionne pour les données. Pour elle, l’ère des Big data, de l’Open science, dessine les contours d’une fabuleuse opportunité pour la recherche : « C’est une chance de connecter les connaissances, de faire avancer les découvertes ! » L’ingénieuse informaticienne donne le rythme, pour permettre à la science d’aller plus vite.

20 décembre 2019