Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

BRUYERE Emeline

Type
Sujet
Construction, caractérisation et visualisation de pangénomes bactériens à différentes échelles évolutives
Date de début
Date de fin
Encadrant(s)
Guillaume Gautreau, Romane Junker, Sandra Dérozier, Hélène Chiapello
Equipe(s)
Description/résumé

Construction, caractérisation et visualisation de pangénomes bactériens à différentes échelles évolutives

Avec l’approche pangénomique, la génomique comparative microbienne change d’échelle en adoptant une approche ensembliste afin de mettre en évidence les parties communes et les différences entre les génomes d’un même groupe taxonomique. Cependant, cette approche souffre toujours de plusieurs limites. D’une part, elle est sensible au niveau taxonomique de la comparaison induisant une forte variabilité sur l’analyse, que ce soit en termes d’identité de séquence, de caractéristiques de partitionnement et de conservation de la synténie. D’autre part, la pangénomique est aussi sensible à la qualité des assemblages (notamment d’origine métagénomique) qui influence les méthodologies de création des familles de gènes homologues et la détection du phénomène de pseudogénisation.

Ce stage vise donc à améliorer ces aspects en proposant un workflow bioinformatique de construction et de caractérisation de pangénomes bactériens avec 3 objectifs principaux :

(i) ajuster et affiner les méthodes de construction de familles de gènes homologues selon l’échelle évolutive du jeu de données considéré et en analysant systématiquement l'évolution de la conservation des synténies à travers la taxonomie ;

 (ii) surmonter les défis liés à la qualité variable des données, en particulier dans l’objectif d’intégrer des données résultant d’assemblages métagénomiques (MAGs) dans la construction d’un pangénome bactérien ;

(iii) proposer des visualisations avancées des pangénomes construits, tenant compte des caractéristiques du graphe de pangénome et de l'analyse de l'organisation spatiale des génomes.

Ce travail sera accompagné d’une réflexion sur les métriques de caractérisation de pangénomes adaptées aux échelles évolutives considérées et aux caractéristiques du jeu de données traité en terme de qualité et représentativité. En fonction de l’avancement du stage, un quatrième aspect concernera l’ajout et l’amélioration d’un workflow existant de détection des pseudogènes en se basant sur les propriétés du jeu de données traité.

Année de soutenance (pour les thèses ou les stages)
2024
Ecole/université (pour les thèses et les stages)
Université Paris-Saclay
Niveau/diplôme (pour les stages)
M2