Bioéconomie 2 min
Deep learning : du sudoku au design de protéines
Des scientifiques des laboratoires Mathématiques et informatique appliquées Toulouse (MIAT) et Toulouse biotechnology institute (TBI) du centre INRAE Occitanie-Toulouse ont développé une méthode hybride d’apprentissage par intelligence artificielle (IA) pour résoudre des casse-têtes difficiles et ainsi concevoir de nouvelles protéines.
Publié le 27 juin 2023
Les modèles de langue d’intelligence artificielle (IA) impressionnent par leur capacité à répondre de manière cohérente et structurée. Mais lorsqu’il s’agit de raisonner et de faire preuve de logique, ils sont encore limités. Ainsi, lorsqu’on demande à ChatGPT de résoudre une grille du célèbre puzzle sudoku, les solutions proposées ne respectent pas les règles et modifient même parfois les nombres originaux de la grille.
Cette difficulté de raisonnement logique n'est pas spécifique aux modèles de langage mais est commune à la plupart des réseaux de neurones. Ils sont très efficaces pour extraire des informations à partir de données, mais beaucoup moins pour raisonner à partir de celles-ci. Mais combinée à des méthodes de raisonnement automatique, une IA générale devrait être capable à la fois d'apprendre et de raisonner, comme le cerveau humain.
Apprendre à jouer au sudoku
Pour le raisonnement automatique, la résolution de grilles de sudoku, même très difficiles, est une tâche triviale lorsque les règles sont données. Mais lorsqu’il faut au préalable les apprendre, il s'agit d'un processus en deux étapes. D'abord, l'IA doit déduire les règles en observant des exemples de puzzles terminés, puis elle doit utiliser ces règles pour remplir de nouveaux puzzles. Les scientifiques des laboratoires Mathématiques et informatique appliquées Toulouse (MIAT) et Toulouse biotechnology institute (TBI) ont donc combiné deux types d’IA pour apprendre à jouer au sudoku : un réseau de neurones pour apprendre les règles à partir d'exemples, et un « prouveur » pour appliquer ces règles à la résolution de nouvelles énigmes.
Leur méthode hybride apprend vite (en 15 minutes !) et est minimaliste : elle ne nécessite que 200 exemples de grilles complètes, soit une fraction de ce qu'exigent les autres approches. De plus, elle est transparente : la décision prise par le prouveur peut être comprise en analysant les règles qui ont été apprises. Cette « fenêtre » sur le processus en permet un meilleur contrôle et une meilleure compréhension.
Du sudoku au design de protéines
Les protéines sont des macromolécules essentielles à toute forme de vie, car elles remplissent de nombreuses fonctions biologiques et biochimiques dans tous les organismes vivants. La conception de nouvelles protéines a des applications dans les domaines de la santé et de la chimie verte, entre autres.
À partir de la preuve de principe obtenue sur la résolution de grilles de sudoku, les scientifiques ont exploité son analogie avec le design de protéines. Vu comme un « casse-tête » où il est question de placer des atomes dans l’espace, l’apprentissage de modèles de protéines conduit à apprendre ses « règles du jeu » qui peuvent ensuite être utilisées par des outils de raisonnement automatique pour concevoir de nouvelles protéines.
Ces recherches combinent la reconnaissance intuitive de l'apprentissage profond avec la logique méticuleuse du raisonnement automatisé. En plus de sa rapidité et sa transparence, le véritable atout de la méthode développée est sa capacité à modéliser des problèmes variés, allant de la résolution de sudoku à des problématiques réelles comme le design de nouvelles protéines.
Références :
Article AIhub Bridging the gap between learning and reasoning
Defresne M., Barbe S., Schiex T. et al. Scalable Coupling of Deep Learning with Logical Reasoning. Proceedings of the Thirty-second International International Joint Conference on Artificial Intelligence, IJCAI’2023. https://arxiv.org/abs/2305.07617