Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

 

ALI Hanine

Type
Stagiaire
Sujet
Amélioration des analyses pangénomique par la fusion d'outils graphiques
Date de début
Date de fin
Encadrant(s)
Guillaume Gautreau, Camille Marchet
Equipe(s)
StatInfOmics
Année de soutenance (pour les thèses ou les stages)
2025
Ecole/université (pour les thèses et les stages)
Université Paris Cité
Niveau/diplôme (pour les stages)
M2
Description/résumé

Contexte :

Avec l'approche pangénomique, la génomique comparative microbienne se base sur une approche ensembliste pour mettre en évidence les éléments stables et variables entre les génomes d'une unité taxonomique particulière. PPanGGOLiN (https://github.com/labgem/PPanGGOLiN) est un outil bioinformatique conçu pour l'analyse et l'exploration du pangenome dans les génomes microbiens. Le pangenome englobe l'ensemble des gènes trouvés dans un groupe d'organismes apparentés que ce soit les gènes de base partagés par tous les membres et les gènes accessoires présents seulement chez certains. Cet outil est de plus en plus largement adopté par les chercheurs en génomique microbienne cherchant à caractériser la diversité génénomique au sein des espèces microbiennes. PPanGGOLiN aide en particulier à tracer la conservation de la synténie des gènes dans les génomes, et à examiner les implications fonctionnelles des variations dans la partie accessoire. Pour ce faire, PPanGGOLiN visualise le pangenome sous forme de graphe, où les nœuds représentent des familles de gènes et les arêtes décrivent le contexte génomique de ces gènes à travers différents génomes.

Proposition de sujet de stage

Notre projet vise à étendre les capacités de PPanGGOLiN en développant un nouvel outil qui ajoute une nouvelle couche de résolution à l'analyse. Tandis que PPanGGOLiN fournit une perspective globale du pangenome au niveau des gènes, nous visons à introduire un graphe local qui relie chaque famille de gènes à un graphe plus détaillé, représentant les variantes au sein de la famille. Cela inclurait également une représentation similaire des régions intergéniques. Pour atteindre cet objectif, nous proposons d'utiliser le modèle de graphe de de Bruijn de Vizitig (https://gitlab.inria.fr/pydisk/examples/vizitig) — un outil qui traite les graphes de de Bruijn d'individus uniques ou multiples dans des bases de données avec des annotations. Vizitig permet la manipulation et la visualisation des graphes, y compris la sélection de sous-graphes basés sur des requêtes relationnelles, la coloration de graphes et l'exportation. Le projet impliquera des développements spécifiques pour intégrer les capacités de Vizitig avec PPanGGOLiN, en se concentrant sur le chargement et la mise en évidence d'une famille de gènes donnée. Un défi crucial sera de permettre l'exploration de ces données génomiques à différentes échelles, allant de la vue panchromosomique (Fig 2., Gautreau et al., 2020) jusqu'au niveau du nucléotide. L'objectif idéal irait jusqu'à l'étape d'aligner les lectures issues des technologies de séquençage longue lecture sur le graphe pour identifier les différents variants d'un métagénome (gènes et nucléotide).