Avancée majeure en biologie : une IA générative hybride conçoit de nouvelles molécules

COMMUNIQUÉ DE PRESSE - Prédire la structure des protéines, en créer de nouvelles. Le design des protéines est un domaine de recherche en pleine révolution grâce aux possibilités offertes par l’IA, avec en ligne de mire la conception de nouvelles protéines et enzymes avec des applications directes en santé et en environnement. Retour sur ces avancées par des chercheurs en mathématiques d’INRAE qui ont développé une IA combinant apprentissage et raisonnement. Cette IA hybride est ainsi capable de concevoir des protéines selon des règles apprises par apprentissage profond, mais aussi issues de la physique ou explicitées par les designers. Des résultats qui contribuent au panorama des méthodes de design de protéines présentées dans la revue Nature Reviews Methods Primers.

Publié le 03 mars 2025

© INRAE - Bertrand Nicolas

Les protéines jouent un rôle central dans le développement et le fonctionnement des êtres vivants. Chimiquement, une protéine déroulée ressemble à un collier de perles, chaque perle étant un acide aminé (il en existe 20 différents dans le vivant). En fonction du type et du nombre d’acides aminés, la protéine acquiert une forme spécifique dans l’espace. Ce phénome de « repliement » détermine la fonction de la protéine, comme le transport de molécules dans le sang, la digestion enzymatique, la réception et transmission de signaux. Au final, notre organisme rassemble près de 20 000 types de protéines différents. Le passage d’une séquence d’acides aminés à une forme 3D est un phénomène très complexe, et sa compréhension constitue un enjeu de recherche important, notamment pour mieux étudier certaines maladies causées par un mauvais repliement des protéines, dont des maladies neurodégénératives comme Alzheimer et Parkinson.

Actuellement, un domaine en recherche progresse à une vitesse phénoménale : le design de protéines par ordinateur, mis récemment en avant par le prix Nobel de chimie 2024. La capacité de concevoir des protéines totalement nouvelles, pour un objectif bien précis, ouvre en effet des possibilités révolutionnaires dans le domaine de la santé et de l’environnement.

INRAE, au travers d’une collaboration durable entre chercheurs en intelligence artificielle et modélisateurs moléculaires[1], a contribué à ces avancées au travers de méthodes de design basées sur une intelligence artificielle hybride, mêlant apprentissage et raisonnement, déjà mise en œuvre pour concevoir différentes nouvelles protéines, fonctionnelles, et caractérisées expérimentalement.

Historiquement, la physique avait permis de réduire, de façon partiellement satisfaisante, le problème de design de protéines à une problématique mathématique d’optimisation difficile. Mais l’IA a bousculé cette approche. La composition chimique d’une protéine étant définie par un texte simple (sa séquence) qui définit aussi sa forme 3D finale, les IA génératives du langage naturel (ChatGPT, Gemini ou Llama) ont été immédiatement adaptées au langage des séquences de protéines naturelles et celles ciblées sur la génération d’images en 2D (DALL-E, Midjourney ou Flux) étendues pareillement pour générer de nouvelles structures de protéines. La difficulté principale est de guider ces IA pour créer la protéine qui a les capacités souhaitées.

Une IA hybride capable d’apprendre à jouer à des jeux logiques comme le sudoku par la simple observation de grilles résolues

Les méthodes développées par les chercheurs d’INRAE combinent pour cela 2 familles d’outils IA : l’apprentissage profond et le raisonnement automatique.

L’apprentissage profond est utilisé pour extraire les règles qui régissent la conception de protéines, en exploitant les séquences et structures de protéines naturelles, accumulées depuis des décennies par les biophysiciens dans la Protein Data Bank. Le raisonnement automatique est utilisé pour sa capacité à combiner ces règles apprises avec des lois fondamentales de la physique ou des directives du concepteur, pour identifier, très rapidement, les différentes protéines qui répondent à ces exigences parmi l’univers exponentiel des protéines possibles.

L’ensemble forme une IA générative, dite neuro-symbolique, capable de concevoir des protéines respectant précisément les consignes des designers. Les chercheurs ont montré que cette architecture est aussi capable d’apprendre à jouer parfaitement à des jeux logiques, tels que le sudoku, sans qu’on en explicite les règles, juste en observant des grilles résolues.

Ces méthodes démocratisent considérablement la capacité de concevoir de nouvelles protéines, même si la maitrise du design est un chemin qui nécessite encore de nombreuses recherches.


[1] Notamment à travers l’implication dans les projets de l’ANITI (Artificial and Natural Intelligence Toulouse Institute).

Référence

Albanese K.I., Barbe S., Tagami S. et al. (2025). Computational Protein Design. Nature Reviews Methods Primers, DOI : https://doi.org/10.1038/s43586-025-00383-1    

En savoir plus

Agroécologie

L’intelligence artificielle au service de la sélection génétique des animaux d’élevage

Deux laboratoires du centre INRAE Occitanie-Toulouse, Génétique et physiologie des systèmes d’élevage (Genphyse - INRAE/INP ENSAT/ENVT) et Mathématiques et informatique appliquées Toulouse (MIAT - INRAE), ont mis au point un projet interdisciplinaire original associant intelligence artificielle et génétique moléculaire pour prédire l’impact des variabilités génétiques.

03 janvier 2024

Changement climatique et risques

L’intelligence artificielle aide les scientifiques à mieux prévoir l’évolution des glaciers face au changement climatique

Les glaciers perdent actuellement une grande partie de leur masse à cause du changement climatique produit par les activités humaines. Il est extrêmement important de bien comprendre les processus physiques liés à ces changements régionaux et globaux, afin d’anticiper les futures évolutions possibles des glaciers et leurs impacts sur l’élévation au niveau des mers, la ressource en eau et les écosystèmes. Pour faire face à ces questions, les modèles numériques permettent aux scientifiques de simuler, de façon simplifiée, l’évolution des glaciers pour des régions entières ou sur l’ensemble de la planète, que ce soit pour des périodes passées ou futures.

23 janvier 2022

Biodiversité

L’apport de l’IA pour identifier les abeilles exposées aux pesticides

COMMUNIQUÉ DE PRESSE - Des chercheurs d’INRAE et de l’université de Mexico ont utilisé les données d’activité de vol d’abeilles mellifères et un modèle d’intelligence artificielle afin de concevoir un outil performant de toxicovigilance. Les résultats de cette étude publiée dans la revue Ecological Informatics permettraient d’alerter sur les risques dus à l’exposition aux pesticides neurotoxiques de populations d’abeilles mellifères.

09 juillet 2024