Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

 

PERINELLE Naïa

Type
Stagiaire
Sujet
Benchmark et applications de modèles de fondation en pangénomique bactérienne
Date de début
Date de fin
Encadrant(s)
Guillaume Gautreau, Thomas Lacroix, Hélène Chiapello
Equipe(s)
StatInfOmics
Année de soutenance (pour les thèses ou les stages)
2025
Ecole/université (pour les thèses et les stages)
Université Paris Saclay
Niveau/diplôme (pour les stages)
M2
Description/résumé

L’intelligence artificielle (IA) et les grands modèles de language (Large Language Models, LLM) révolutionnent de nombreux domaines scientifiques grâce à leurs capacités avancées d’analyse, de prédiction et de génération. Ces modèles, appliqués au traitement du langage, repoussent désormais les limites de la génomique en intégrant des séquences d'ADN, d'ARN et de protéine avec une grande résolution. Ces modèles, récemment rendus disponibles semblent capables d’effectuer des tâches telles que la prédiction fonctionnelle ou la génération de séquences plausibles, ouvrant ainsi de nouvelles perspectives pour analyser et représenter la diversité génomique à une échelle sans précédent. Ce stage a pour objectif d’explorer les applications de ces modèles en pangénomique bactérienne. 

Objectifs : Le ou la stagiaire prendra en main les modèles de référence dans ce domaine afin d’en évaluer les caractéristiques et performances générales. Par la suite, il ou elle explorera un ou plusieurs des trois sous-sujets suivants, en fonction de ses capacités et de ses intérêts scientifiques :
- Analyse de la persistance des gènes : utiliser ces modèles pour détecter les gènes conservés au sein de différentes espèces bactériennes.

- Normalisation de la diversité pangénomique : développer des méthodes pour représenter la diversité des pangénomes de manière standardisée, en faisant abstraction du nombre de génomes et de la qualité du séquençage/assemblage dans l’ensemble de pré-entraînement.

- Étude d’association pangénomique : explorer la possibilité d’utiliser ces modèles pour associer des variants pangénomiques à des phénotypes d’intérêt (comme l’antibiorésistance), notamment via l’approche In Context Learning.


Méthodes et outils :
- Utilisation des modèles DNABERT2, HyenaDNA et Evo.
- Accès à un cluster de calcul GPU.
- Utilisation de PyTorch, Git et HuggingFace.