IA générative : une nouvelle étape franchie dans la simulation de données génétiques
Des chercheurs INRAE et partenaires publient dans la revue GigaScience une étude montrant que des modèles d’intelligence artificielle générative (IAg) peuvent reproduire fidèlement les structures de données génomiques complexes, s’affranchissant des risques liés au partage de données réelles sensibles. Ces travaux ouvrent de nouvelles perspectives pour la recherche en génétique humaine et animale, notamment pour l’étude des liens entre génome et caractéristiques biologiques, en conciliant ouverture des données et respect de leur confidentialité.
Publié le 19 juin 2026
Générer des génomes artificiels à partir de données réelles
La génétique moderne repose aujourd’hui sur d’immenses bases de données contenant des informations issues du séquençage et du génotypage de l’ADN. Ces ressources sont essentielles pour comprendre les liens entre génome et caractères biologiques (les phénotypes), mais leur utilisation reste limitée par plusieurs contraintes : leur coût de production et de stockage, les difficultés d’accès aux données et les enjeux de confidentialité associés.
Pour répondre à ces défis, les chercheurs ont exploré l’utilisation de modèles d’IAg capables d’apprendre à partir de données réelles afin de produire des données synthétiques statistiquement proches des originales. L’étude porte ainsi sur la simulation de génotypes, c’est-à-dire les variations génétiques existant à différents endroits du génome.
Un changement d’échelle en génomique
Les approches d’IA appliquées à la génomique se limitaient jusqu’ici à des données partielles, comme les niveaux d’expression des gènes ou la structure de segments restreints du génome. Les chercheurs ont ici franchi une nouvelle étape en simulant des génotypes sur plusieurs chromosomes, jusqu’à l’échelle quasi complète du génome.
Ils ont utilisé plusieurs familles de modèles d’IAg déjà largement employées dans d’autres domaines, comme les simulations d’images ou de texte : autoencodeurs variationnels (VAE), modèles de diffusion (DM), réseaux antagonistes génératifs (GAN) et une version améliorée de ceux-ci, appelée WGAN. Contrairement aux approches classiques de simulation, qui nécessitent de définir à l’avance des hypothèses biologiques ou des paramètres statistiques complexes, ces modèles d’IAg apprennent automatiquement les structures génétiques présentes dans les données.
Les modèles ont été entraînés et testés sur des jeux de données de grande ampleur, incluant tous les chromosomes bovins (hors chromosomes sexuels et mitochondrial) et plusieurs chromosomes humains. Les chercheurs ont évalué ces approches sur deux grands jeux de données, comprenant plus de 93 000 vaches Holstein génotypées sur plus de 50 000 marqueurs génétiques et plus de 291 000 humains issus de la base de données UK Biobank.
Dans le cas des bovins, les chercheurs ont évalué si les données simulées permettent de retrouver les liens connus entre variations du génome et teneur en matière grasse du lait, un caractère important pour la filière laitière. Pour les données humaines, ils se sont notamment intéressés aux liens avec la taille.
Préserver les relations biologiques essentielles
Les résultats montrent que certains modèles, en particulier les WGAN, reproduisent avec une forte fidélité plusieurs caractéristiques majeures des données génétiques réelles et conservent des relations biologiquement pertinentes entre génome et phénotype. Cette capacité à préserver des relations biologiques complexes constitue un point clé pour l’usage scientifique de ces données.
Les chercheurs montrent également qu’une analyse des associations entre variants génétiques associés au phénotype laitier (GWAS), réalisée soit sur les données réelles soit sur les données artificielles, donne des résultats très semblables.
Perspectives : vers une génétique augmentée par les données synthétiques
L’utilisation de données synthétiques ouvre des perspectives concrètes :
- lever les contraintes d’accès à des données génétiques sensibles ou coûteuse à produire ;
- garantir la confidentialité des données individuelles tout en conservant des propriétés statistiques utiles ;
- disposer de volumes massifs de données pour entraîner et tester de nouveaux modèles.
Les auteurs soulignent toutefois que plusieurs défis restent à relever, notamment pour mieux reproduire les variants génétiques rares ou prendre en compte la diversité des populations.
En combinant robustesse méthodologique et enjeux éthiques, cette avancée illustre le potentiel de l’intelligence artificielle générative comme levier structurant pour la recherche en génétique.
Référence : Sihan Xie, Thierry Tribout, Didier Boichard, Blaise Hanczar, Julien Chiquet, Eric Barrey, Learning inherent genetic patterns and trait associations with deep generative models for discrete genotype simulation, GigaScience, Volume 15, 2026, giag044, https://doi.org/10.1093/gigascience/giag044
L’ensemble du code développé dans le cadre de cette étude est accessible (publié en open source) dans une démarche de science ouverte, favorisant la reproductibilité et les futurs développements dans ce domaine.