Construction, caractérisation et visualisation de pangénomes bactériens à différentes échelles évolutives
Avec l’approche pangénomique, la génomique comparative microbienne change d’échelle en adoptant une approche ensembliste afin de mettre en évidence les parties communes et les différences entre les génomes d’un même groupe taxonomique. Cependant, cette approche souffre toujours de plusieurs limites. D’une part, elle est sensible au niveau taxonomique de la comparaison induisant une forte variabilité sur l’analyse, que ce soit en termes d’identité de séquence, de caractéristiques de partitionnement et de conservation de la synténie. D’autre part, la pangénomique est aussi sensible à la qualité des assemblages (notamment d’origine métagénomique) qui influence les méthodologies de création des familles de gènes homologues et la détection du phénomène de pseudogénisation.
Ce stage vise donc à améliorer ces aspects en proposant un workflow bioinformatique de construction et de caractérisation de pangénomes bactériens avec 3 objectifs principaux :
(i) ajuster et affiner les méthodes de construction de familles de gènes homologues selon l’échelle évolutive du jeu de données considéré et en analysant systématiquement l'évolution de la conservation des synténies à travers la taxonomie ;
(ii) surmonter les défis liés à la qualité variable des données, en particulier dans l’objectif d’intégrer des données résultant d’assemblages métagénomiques (MAGs) dans la construction d’un pangénome bactérien ;
(iii) proposer des visualisations avancées des pangénomes construits, tenant compte des caractéristiques du graphe de pangénome et de l'analyse de l'organisation spatiale des génomes.
Ce travail sera accompagné d’une réflexion sur les métriques de caractérisation de pangénomes adaptées aux échelles évolutives considérées et aux caractéristiques du jeu de données traité en terme de qualité et représentativité. En fonction de l’avancement du stage, un quatrième aspect concernera l’ajout et l’amélioration d’un workflow existant de détection des pseudogènes en se basant sur les propriétés du jeu de données traité.