Changement climatique et risques 3 min
Des modèles de calcul plus performants au service de la recherche agronomique
Des scientifiques des centres INRAE Occitanie-Toulouse et Versailles-Grignon Paris ont mis au point ELSA, une nouvelle méthode d’extraction de la connaissance à partir de nombreuses données observées. Cette méthode a déjà fait ses preuves pour accompagner les généticiens à trouver les futures variétés de tournesol plus résistantes à la sécheresse.
Publié le 07 avril 2022
Généralisés dans les années 80, les réseaux bayésiens sont des modèles graphiques probabilistes simples, couramment utilisés en classification, ainsi qu'en informatique dans le domaine du machine learning de l'intelligence artificielle. Ce sont à la fois des modèles de représentation des connaissances ; des « machines à calculer » des probabilités conditionnelles mais aussi des systèmes d’aide à la décision. L’apprentissage automatique d’un réseau bayésien à partir d’observations de variables aléatoires permet d’extraire de la connaissance à partir des données.
Jusque dans les années 2000, les méthodes utilisées étaient limitées à une trentaine de variables. Ces dix dernières années, d’importants progrès ont été obtenus grâce à la programmation linéaire en nombres entiers et à la construction optimale de coupes, repoussant la limite à une centaine de variables.
Plus vite, plus performant
Des scientifiques des laboratoires Mathématiques et Informatique Appliquées de Toulouse (MIAT) du centre INRAE Occitanie-Toulouse et Mathématiques et Informatique Appliquées (MIA) du centre Versailles-Grignon Paris ont élaboré une nouvelle méthode à l’efficacité renforcée pour un temps de calcul plus court. Appelée ELSA, pour Exact Learning of bayesian network Structure using Acyclicity reasoning, cette méthode reprend l’idée des coupes en l’intégrant dans CPBayes, un outil de programmation par contraintes dédié à ce problème d’apprentissage.
« Par une autre approche, nous avons développé une méthode de calcul de bonne qualité mais surtout bien plus rapide, explique Simon de Givry, chargé de recherche au laboratoire MIAT. Sur un jeu de test composé d’une quarantaine de problèmes, ayant au plus 500 variables aléatoires et sur le même temps imparti de 90 heures, ELSA en résout 23 à l’optimum, alors que la méthode GOBNILP n’en résout que 9 et CPBayes seulement 4 ».
Parmi les perspectives d’amélioration de travaux, il est envisagé d’utiliser des diagrammes de décisions pour manipuler plus efficacement des très grands domaines de valeurs. Ce qui permettrait d’accélérer encore les opérations réalisées par ELSA.
Un des outils pour concevoir les futures variétés de tournesol
Dans le cadre du programme Sunrise, des études ont été menées par le Laboratoire des Interactions Plantes-Microorganismes-Environnement (LIPME) pour identifier des gènes d’intérêt pour la tolérance à la sécheresse et modéliser les caractéristiques agronomiques de futures variétés de tournesol, portant ces gènes. La méthode ELSA a contribué à mieux comprendre les bases génétiques et moléculaires contrôlant la physiologie et le développement de la plante pour prédire les caractéristiques des hybrides.
Référence complète de la publication
Fulya Trösser, Simon de Givry, and George Katsirelos
Improved acyclicity reasoning for bayesian network structure learning with constraint programming
In Proc. of IJCAI-21, Montreal, Canada, 2021