Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

DIALLO Mamadou Aliou

Type
Stagiaire
Sujet
Exploration du pangénome pour délimiter automatiquement les éléments mobiles ICE et IME
Date de début
Date de fin
Encadrant(s)
Thomas Lacroix, Guillaume Gautreau, Hélène Chiapello
Equipe(s)
StatInfOmics
Contrat de recherche
SE labo
Année de soutenance (pour les thèses ou les stages)
2026
Ecole/université (pour les thèses et les stages)
Université de Bordeaux
Niveau/diplôme (pour les stages)
Master 2
Description/résumé

Contexte scientifique :

Les éléments intégratifs et conjugatifs (ICE) et les éléments intégratifs et mobilisables (IME) contribuent au transfert horizontal de gènes chez les bactéries. Détecter et annoter ces éléments mobiles dans les chromosomes est difficile car leur intégration peut donner lieu à des structures complexes (accrétion, matriochka). DynAMic et MaIAGE ont développé ICEscreen, un outil de détection des ICE et des IME dans les génomes de Bacillota [1]. ICEscreen détecte les protéines signatures et les assemble en structures, mais la recherche des limites d’intégration reste un défi et la communauté scientifique bénéficierait d’une approche automatique et générique. La délimitation des ICE et des IME permettrait ensuite l’annotation fonctionnelle des gènes cargo qu’ils portent (par exemple résistance aux antibiotiques). Comme les ICE et les IME se transfèrent horizontalement et ciblent parfois spécifiquement des gènes conservés pour leur intégration, nous souhaitons exploiter le pangénome pour faciliter leur délimitation automatique. PPanGGOLiN [2] est un outil de construction de pangénomes qui partitionne les familles de gènes en différentes catégories de prévalence. Pour évaluer les différentes approches, le jeu de référence Firmidata [3] est utilisé.

• [1] Lao J. et al. ICEscreen: a tool to detect Firmicute ICEs and IMEs, isolated or enclosed in composite structures. NAR Genomics and Bioinformatics, Volume 4, Issue 4, December 2022, lqac079, https://doi.org/10.1093/nargab/lqac079

• [2] Gautreau G. et al. PPanGGOLiN: Depicting microbial diversity via a partitioned pangenome graph. PLOS Computational Biology, 16(3), 2020: e1007732. doi: 10.1371/ journal.pcbi.1007732

• [3] Guédon G. et al. FirmiData: a set of 40 genomes of Firmicutes with a curated annotation of ICEs and IMEs. BMC Res Notes. 2022 May 10;15(1):157. doi: 10.1186/ s13104-022-06036-w. PMID: 35538580; PMCID: PMC9092696

 

Objectifs :

L'objectif final de ce projet est l'intégration d'un module de délimitation automatique des ICE et IME dans ICEscreen (https://icescreen.migale.inrae.fr/ ; https://forgemia.inra.fr/ices_imes_analysis/icescreen). Ce stage vise en particulier à utiliser le partitionnement du pangénome pour approcher les limites des éléments ICE et IME. Un travail préliminaire d'exploration des différents paramètres de création du pangénome montre des résultats préliminaires très encourageants. Les paramètres explorés sont le niveau taxonomique et le nombre de génomes pour la création du pangénome, et les pourcentages minimum d'identité et de seuil de couverture pour le clustering des gènes du pangénome. Des résultats positifs surprenants ont été identifiés pour certains pangenomes "haute et basse définition". La première partie du stage consistera à valider, comprendre et définir la meilleure combinaison de paramètres à intégrer dans un module de délimitation automatique des ICE et IME. Ce travail nécessitera la caractérisation des clusters protéiques pangénomiques associés aux CDS détectés en bordure des partitions persistantes/non persistantes : annotation fonctionnelle, degré de conservation, et connectivité dans le graphe de pangénome. La deuxième partie du stage se focalisera sur la détection des séquences répétées directes (Direct Repeat). Ces DR sont une signature de l'intégration d'un élément dans le génome via une intégrase et permettent la délimitation précise à l'échelle nucléotidiques. La recherche de DR est infructueuse si elle est réalisée dans une séquence nucléotidique de la taille de la totalité d'un ICE ou d'un IME. Les DR sont des petites séquences parfois dégénérées et cette recherche engendre beaucoup de faux positifs. L'utilisation du pangenome permet de réduire les zones de recherches autour des seuls régions de transition des partitions persistantes/non persistantes. Le deuxième objectif du stage sera d'utiliser et d'optimiser les paramètres d'un outil de comparaison de séquences (par exemple Blast) pour trouver les DR dans les zones de transition de partitions persistantes/non persistantes. La suite du stage consistera à définir et à implémenter la meilleure stratégie pour approximer les limites des éléments ICE et IME dans l'outil ICEscreen. L'exploration de modèle IA est en cours de réflexion et pourra également être intégrer à ce stage si cette méthodologie s'avère pertinente.