3 min
Recherche Data Gouv, les données en commun
Le 8 juillet 2022, le ministère de l’Enseignement supérieur et de la Recherche lance la plateforme Recherche Data Gouv qui permettra à tous les établissements d’enseignement supérieur et de recherche de déposer et de partager des jeux de données scientifiques validés. INRAE, reconnu pour son expertise dans la gestion des données, a développé la partie technique de l’entrepôt ainsi que le catalogue associé.
Publié le 08 juillet 2022
Partager les données scientifiques est un enjeu fort pour la recherche. En témoigne le coût d’une mauvaise gestion des données de la recherche, estimé à 3 milliards d’euros à l’échelle de la France selon un rapport de la Commission européenne1. Un coût qui serait dû aux pertes de temps, à la non-optimisation des coûts de stockage, aux frais de licence ou encore aux problèmes de redondance des travaux recherche. Ce même rapport estime à 16 milliards d’euros la perte de potentiel d’innovation dans le secteur économique au niveau européen. Face à ces constats et dans la dynamique du mouvement Open Data, il devient primordial de travailler au partage des données de façon à ce qu’elles soient accessibles, reproductibles, réutilisables et interopérables (principe FAIR). C’est tout l’objectif de la plateforme Recherche Data Gouv.
INRAE, une expertise reconnue dans la gestion de données scientifiques
Dès 2009, INRAE a mené une réflexion interne sur la gestion et le partage des données. Faut-il partager les données de la recherche ? Quand ? Comment ? À quelles conditions ? Un chantier « Gestion et partage des données » a été lancé en 2013 en associant nos partenaires du Cirad et de l’IRD. Ces réflexions ont abouti en 2016 au projet de création d’un lieu de dépôt et de partage des données scientifiques de l’établissement sous la houlette d’Esther Dzalé, responsable du pôle Numérique pour la science à la direction pour la Science ouverte. Data INRAE voit le jour en 2018, mobilisant 70 personnes. « Aujourd’hui, Data INRAE est l’entrepôt institutionnel qui héberge le plus grand nombre de jeux de données en France, dans toutes les disciplines, mais aussi le plus utilisé en nombre de téléchargements. C’est aussi l’entrepôt qui semblait le plus avancé en terme d’usages et de mise en œuvre », précise Esther Dzalé. Une expertise qui a conduit le ministère de l’Enseignement supérieur et de la Recherche à confier à INRAE le développement technique de la plateforme Recherche Data Gouv.
Spécialiste de la gestion des données scientifiques, Esther Dzalé met ses compétences en informatique au service du partage de la science. Responsable du pôle Numérique pour la science à la Direction pour la science ouverte d’INRAE, son parcours et son investissement ont été récompensés par un Laurier en 2021.
« Ce projet a été initié à un moment où plusieurs établissements d’enseignement supérieur et de recherche commençaient à développer leur propre entrepôt de données ou à l’envisager. Nous étions d’ailleurs beaucoup sollicités pour partager notre retour d’expérience sur notre entrepôt, Data INRAE. Ce projet national est pour nous une opportunité de mutualiser les infrastructures et le développement associé, ou la production d’outils tels que les guides, chartes, etc. et de mettre l’accent sur l’accompagnement des scientifiques et des utilisateurs sur l’ensemble du cycle de la donnée. Le fait d’avoir désormais un seul socle commun d’outils va favoriser l’adoption de pratiques communes en particulier sur le dépôt et la publication des données. Cela facilitera également les opportunités de découvrir les données des autres établissements et ainsi de favoriser leur réutilisation par un large panel d’acteurs. Ce projet fait sens et je suis fière de pouvoir y contribuer. »
INRAE renforce son engagement dans l’ouverture des sciences en présentant en octobre 2021 une politique de science ouverte ambitieuse accompagnée d’un plan d’actions pour accélérer la transition vers des sciences plus accessibles à tous.
Data INRAE pour modèle
Data INRAE c’est 80 000 jeux de données et 100 000 téléchargements
La plate-forme Recherche Data Gouv est composée de 5 modules. Le développement de 2 modules a été confié à INRAE :
- l’entrepôt, qui correspond à l’outil dans lequel les scientifiques vont pouvoir déposer et publier leurs jeux de données ;
- le catalogue, qui permet de signaler les données quand elles sont gérées ailleurs (entrepôts thématiques nationaux ou internationaux), de sorte à faciliter leur découverte.
Techniquement, l’équipe projet s’est appuyée sur la technologie utilisée pour Data INRAE. « On a travaillé principalement à l’ouverture aux partenaires, pour qu’ils puissent gérer leur propre espace au sein de l’entrepôt en se connectant avec leurs identifiants d’établissement. On a également travaillé pour sécuriser davantage l’infrastructure et la rendre plus adaptée à la multiplicité des acteurs : rajout du stockage, augmentation de la capacité des serveurs par exemple » explique Esther Dzalé. L’équipe Entrepôt-Catalogue Recherche Data Gouv a également développé un portail web qui permettra de communiquer sur l’ensemble des 5 modules. « Dans le portail web, nous avons prévu une section pour éditorialiser des jeux de données. Il s’agit de mettre en avant des jeux de données, avec un narratif associé qui permet de rendre compte de leur importance, du potentiel de leur utilisation, et d’expliquer le contexte dans lequel ces données ont été produites et les objectifs initiaux auxquels elles répondent. »
L'entrepôt pluridisciplinaire dont le développement a été confié à INRAE associé à 7 autres établissements – Université de Grenoble Alpes, Université de Lille, Université de Lorraine, Université Paris Cité, Université Paris Nanterre, Université de Strasbourg et le CNRS –, est une solution souveraine pour le partage et l’ouverture des données de la recherche.
Et demain ?
Le projet ne s’arrête pas là, bien au contraire. Les équipes du projet vont, en plus de la gestion et de l’exploitation de l’entrepôt et du portail Recherche Data Gouv, poursuivre les développements de la partie catalogue de façon plus approfondie et proposer de nouvelles fonctionnalités pour l’entrepôt. « Nous allons aussi travailler sur l’évolution de l’architecture technique pour la moderniser davantage et répondre aux objectifs finaux en terme de niveau de service. L’enjeu est aussi de préparer l’après : quel modèle économique ? quelle organisation et quelle gouvernance cibles ? » conclut Esther Dzalé.
Le Printemps de la donnée
INRAE a organisé, en mai 2022, la première édition du Printemps de la donnée. Il s’agit de mettre en lumière des initiatives locales autour de la gestion et du partage de la donnée : des formations, du développement d’outils, etc. Les objectifs sont de favoriser des retours d’expériences croisés, capitaliser sur les connaissances mobilisées ou produites lors de l’évènement, de créer une émulation nationale et un rendez-vous régulier autour de la gestion et du partage de la donnée.
En savoir plus
1European Commission Directorate-General for Research and Innovation. Cost of not having FAIR research data. Cost-benefit analysis for FAIR research data. 2019.
http://publications.europa.eu/resource/cellar/d375368c-1a0a-11e9-8d04-01aa75ed71a1.0001.01/DOC_1v