Cette thèse propose d'exploiter les méthodes d'intelligence artificielle, en particulier les modèles de langage, appliquées aux graphes de pan-génome. En représentant leur contenu sous forme de séquences de phrases, où chaque mot correspond à une unité fonctionnelle codée par une famille de gènes, cette approche ouvre de nouvelles perspectives pour révéler des motifs complexes grâce à l'apprentissage sur des ensembles de données à grande échelle. Cela permettra de prédire des annotations manquantes ou incertaines, offrant ainsi des informations sur la fonction des gènes et les processus biologiques non caractérisés. Les principaux objectifs de ce travail seront de :
Construire un jeu de données de graphes de pan-génome annotés à différents niveaux fonctionnels, servant de base pour l'entraînement et la validation des modèles.
Évaluer différentes méthodes d'apprentissage automatique, y compris les modèles de langage, afin d'identifier les approches les plus performantes.
Appliquer la méthode développée à l'identification de nouveaux systèmes biologiques, tels que des voies métaboliques, des systèmes macromoléculaires ou de défense.