Contexte :
Les écosystèmes microbiens complexes sont composés d'un grand nombre de micro-organismes. Les méthodes de séquençage métagénomique combinées à des analyses taxonomiques permettent d’identifier les espèces présentes dans ces écosystèmes. Des méthodes plus récentes d’analyse de données de séquençage shotgun permettent de viser une caractérisation plus précise, au niveau sous-espèce (lignée). Cela pose des défis méthodologiques en raison de la courte taille des reads issus du séquençage shotgun, de la faible abondance de certaines espèces, et du mélange possible de plusieurs lignées (pour une même espèce) dans les échantillons. Ces méthodes sont utiles pour comparer des échantillons et pour identifier des flux de micro-organismes entre écosystèmes de façon plus fine.
Dans cet objectif, un outil a été développé dans l'équipe, basé sur l'alignement des reads métagénomiques sur un catalogue de génomes de référence, puis sur le calcul des fréquences nucléotidiques à chaque position de l’alignement. Une ou plusieurs lignées par échantillon peuvent être alignées sur ces génomes. L'étape suivante consiste à identifier les polymorphismes nucléotidiques intra- et inter-échantillons des différents écosystèmes puis à calculer des mesures de diversité intra-échantillon et des distances inter-échantillons.
Cet outil a été développé pour des génomes bactériens et nous souhaiterions l’adapter à des génomes de levures, ainsi que l’étendre pour une modélisation plus fine des flux bactériens. Les analyses et développements méthodologiques se feront sur des échantillons d’écosystèmes autour de la production de fromage et de vin, deux projets en cours dans l’équipe, en collaboration avec les centres INRAE de Clermont-Aurillac, Bordeaux et Montpellier.
Missions :
Prendre en main l’outil développé pour analyser les flux de micro-organismes le long d’une chaîne agro-alimentaire (scripts bash, workflow snakemake et python, cluster de calcul) et analyser les résultats obtenus (scripts R, rstudio, git).
Adapter le pipeline à l’analyse des génomes de levures : création de jeux de données tests, modification du code (scripts python, bash, git).
Possible développement méthodologique et statistique sur l’inférence de flux bactériens
Compétences :
R, python, bash