IA générative : une nouvelle étape franchie dans la simulation de données génétiques

Des chercheurs INRAE et partenaires publient dans la revue GigaScience une étude montrant que des modèles d’intelligence artificielle générative (IAg) peuvent reproduire fidèlement les structures de données génomiques complexes, s’affranchissant des risques liés au partage de données réelles sensibles. Ces travaux ouvrent de nouvelles perspectives pour la recherche en génétique humaine et animale, notamment pour l’étude des liens entre génome et caractéristiques biologiques, en conciliant ouverture des données et respect de leur confidentialité.

Publié le 19 juin 2026

© INRAE

Générer des génomes artificiels à partir de données réelles

La génétique moderne repose aujourd’hui sur d’immenses bases de données contenant des informations issues du séquençage et du génotypage de l’ADN. Ces ressources sont essentielles pour comprendre les liens entre génome et caractères biologiques (les phénotypes), mais leur utilisation reste limitée par plusieurs contraintes : leur coût de production et de stockage, les difficultés d’accès aux données et les enjeux de confidentialité associés.

Pour répondre à ces défis, les chercheurs ont exploré l’utilisation de modèles d’IAg capables d’apprendre à partir de données réelles afin de produire des données synthétiques statistiquement proches des originales. L’étude porte ainsi sur la simulation de génotypes, c’est-à-dire les variations génétiques existant à différents endroits du génome.

Un changement d’échelle en génomique

Les approches d’IA appliquées à la génomique se limitaient jusqu’ici à des données partielles, comme les niveaux d’expression des gènes ou la structure de segments restreints du génome. Les chercheurs ont ici franchi une nouvelle étape en simulant des génotypes sur plusieurs chromosomes, jusqu’à l’échelle quasi complète du génome.

Ils ont utilisé plusieurs familles de modèles d’IAg déjà largement employées dans d’autres domaines, comme les simulations d’images ou de texte : autoencodeurs variationnels (VAE), modèles de diffusion (DM), réseaux antagonistes génératifs (GAN) et une version améliorée de ceux-ci, appelée WGAN. Contrairement aux approches classiques de simulation, qui nécessitent de définir à l’avance des hypothèses biologiques ou des paramètres statistiques complexes, ces modèles d’IAg apprennent automatiquement les structures génétiques présentes dans les données.

Les modèles ont été entraînés et testés sur des jeux de données de grande ampleur, incluant tous les chromosomes bovins (hors chromosomes sexuels et mitochondrial) et plusieurs chromosomes humains. Les chercheurs ont évalué ces approches sur deux grands jeux de données, comprenant plus de 93 000 vaches Holstein génotypées sur plus de 50 000 marqueurs génétiques et plus de 291 000 humains issus de la base de données UK Biobank.

Dans le cas des bovins, les chercheurs ont évalué si les données simulées permettent de retrouver les liens connus entre variations du génome et teneur en matière grasse du lait, un caractère important pour la filière laitière. Pour les données humaines, ils se sont notamment intéressés aux liens avec la taille.

Préserver les relations biologiques essentielles

Les résultats montrent que certains modèles, en particulier les WGAN, reproduisent avec une forte fidélité plusieurs caractéristiques majeures des données génétiques réelles et conservent des relations biologiquement pertinentes entre génome et phénotype. Cette capacité à préserver des relations biologiques complexes constitue un point clé pour l’usage scientifique de ces données.
Les chercheurs montrent également qu’une analyse des associations entre variants génétiques associés au phénotype laitier (GWAS), réalisée soit sur les données réelles soit sur les données artificielles, donne des résultats très semblables.

Perspectives : vers une génétique augmentée par les données synthétiques

L’utilisation de données synthétiques ouvre des perspectives concrètes :

  • lever les contraintes d’accès à des données génétiques sensibles ou coûteuse à produire ;
  • garantir la confidentialité des données individuelles tout en conservant des propriétés statistiques utiles ;
  • disposer de volumes massifs de données pour entraîner et tester de nouveaux modèles.

Les auteurs soulignent toutefois que plusieurs défis restent à relever, notamment pour mieux reproduire les variants génétiques rares ou prendre en compte la diversité des populations.

En combinant robustesse méthodologique et enjeux éthiques, cette avancée illustre le potentiel de l’intelligence artificielle générative comme levier structurant pour la recherche en génétique.

Référence :  Sihan Xie, Thierry Tribout, Didier Boichard, Blaise Hanczar, Julien Chiquet, Eric Barrey, Learning inherent genetic patterns and trait associations with deep generative models for discrete genotype simulation, GigaScience, Volume 15, 2026, giag044, https://doi.org/10.1093/gigascience/giag044

L’ensemble du code développé dans le cadre de cette étude est accessible (publié en open source) dans une démarche de science ouverte, favorisant la reproductibilité et les futurs développements dans ce domaine.
 

Contacts

Eric Barrey

Directeur de recherche

UMR GABI

Julien Chiquet

Directeur de recherche

UMR MIA Paris-Saclay

Blaise Hanczar

Professeur des Universités

Laboratoire IBISC, Université d’Évry Paris-Saclay

Les centres

En savoir plus

Bioéconomie

Isoler nos habitats grâce aux déchets agricoles

Pour un habitat durable, une bonne isolation thermique est indispensable car elle permet de réduire la consommation énergétique. L’objectif, rappelé dans le volet 2 de la loi sur la transition énergétique, est de rénover 400 000 bâtiments par an d’ici 2020. Pour relever ce défi, l’une des solutions est d’utiliser des biomatériaux isolants issus de déchets de l’agriculture. Parmi les sous-produits agricoles, le tournesol pourrait être un bon candidat.

17 décembre 2019

Changement climatique et risques

Risque avalanche : comment s’en protéger et aménager le territoire ?

Depuis les années 2000, en France, aucune victime n’est à déplorer dans les zones urbanisées et aménagées, concernées par le risque d’avalanches. Un chiffre qui peut s’expliquer par une meilleure gestion du risque sur le territoire. Les travaux menés à INRAE apportent leur pierre à l’édifice. Ils contribuent en effet à mieux évaluer le risque, notamment par des études statistiques de l’activité avalancheuse ou des études sur la vulnérabilité des constructions. Mais aussi à mieux s’en protéger, grâce à l’expertise développée sur les ouvrages de protection.

18 décembre 2019