Contexte
Le Grand Défi Ferments du Futur s'inscrit dans la stratégie nationale d'accélération « alimentation durable et favorable à la santé » du Programme d'investissements d'avenir 4 (PIA4). Il vise à réunir acteurs publics et privés autour d'un même objectif : faire des ferments et de la fermentation un axe clé pour accompagner la transition vers l'alimentation du futur. En effet, les ferments présentent de très nombreux atouts, par les bénéfices qu'ils procurent en terme de sécurité des aliments, de qualité sensorielle, d'impact nutritionnel et sur la santé, de durabilité. Plus précisément, ce Grand Défi va permettre d'explorer 4 axes scientifiques majeurs : 1) interactions microbiote alimentaire / matrices alimentaires, 2) interactions microbiote alimentaire / microbiote de l'hôte, 3) procédés de fermentation innovants, 4) science des données et automatisation pour explorer la biodiversité.
Dans le cadre de Ferments du Futur, la plateforme de bioinformatique Migale (unité MaIAGE, INRAE, Jouy-en-Josas) est impliquée dans la coordination et le développement d’un entrepôt de données visant à rassembler l’ensemble des données sur les souches microbiennes pouvant être utilisées en consortia à des fins de fermentation. Ces données ont en effet vocation à alimenter les modèles prédictifs et méthodes d’apprentissage qui seront développés dans le Grand Défi pour proposer de nouveaux ferments. Elles seront de natures variées (génomiques, métaboliques, phénotypiques, propriétés physico-chimiques, etc..) et devront satisfaire aux propriétés FAIR (accessibles, requétables etc.).
Objectifs et missions
Le stage proposé vise à identifier et implémenter un premier pipeline d’analyse de données génomiques. Nous partirons de quelques jeux de données disponibles dans la littérature et/ou dans les banques de données publiques (dont les centres de ressources biologiques INRAE sur les levures et les bactéries d’intérêt agro-alimentaire) et proposerons un pipeline d’analyse automatisé permettant de passer de séquences brutes issues des séquenceurs NGS à la reconstruction des potentialités métaboliques de la bactérie étudiée. Ce pipeline devra également s’attacher à identifier et intégrer des outils d’intérêt concernant l’utilisation de la souche dans des procédés agro-alimentaires : voies métaboliques d’intérêt pour la fermentation, présence de familles de gènes spécifiques, etc.
De nombreux outils et pipelines existent déjà pour automatiser l’assemblage et l’annotation de génomes bactériens. MaIAGE possède également un expertise avancée sur ces sujets. Les outils des reconstruction de voies métaboliques sont moins nombreux et beaucoup moins fiable, dès que l’on s’éloigne des espèces modèles bien décrites.
Le stage consistera en :
- La prise en main, comparaison et sélection des outils permettant de faire l’assemblage et l’annotation automatique de génomes bactériens
- L’étude comparative des outils de reconstruction de voies métaboliques, la sélection d’un ou plusieurs outils
- Le chaînage des outils sélectionnées sous la forme d’un pipeline bioinformatique
- L’application de ce pipeline à des espèces d’intérêt pour le projet
Outils et langages
Outils classique d’analyse de données NGS :
- Contrôle qualité et nettoyage : fastqc, fastp,…
- Assemblage : SPades, Unicylcer, Tricycler, …
- Annotation : Prokka, Bakta, ...
- Reconstruction de voies métaboliques : PathwayTools, metag2metabo…
Langages :
- Python
- Snakemake