HAK Fiona

Type

Stagiaire

Sujet

Développement d’un pipeline d’analyse de données génomiques pour la reconstruction des potentialités métaboliques de bactéries pressenties pour jouer un rôle dans la fermentation

Date de début

mar 02/05/2023 - 12:00

Date de fin

ven 25/08/2023 - 12:00

Encadrant(s)

V. Loux, S. Schbath

Equipe(s)

Migale

Année de soutenance (pour les thèses ou les stages)

2023

Ecole/université (pour les thèses et les stages)

Université Paris-Saclay

Niveau/diplôme (pour les stages)

Master 1

Description/résumé

Contexte

Le Grand Défi Ferments du Futur s'inscrit dans la stratégie nationale d'accélération « alimentation durable et favorable à la santé » du Programme d'investissements d'avenir 4 (PIA4). Il vise à réunir acteurs publics et privés autour d'un même objectif : faire des ferments et de la fermentation un axe clé pour accompagner la transition vers l'alimentation du futur. En effet, les ferments présentent de très nombreux atouts, par les bénéfices qu'ils procurent en terme de sécurité des aliments, de qualité sensorielle, d'impact nutritionnel et sur la santé, de durabilité. Plus précisément, ce Grand Défi va permettre d'explorer 4 axes scientifiques majeurs : 1) interactions microbiote alimentaire / matrices alimentaires, 2) interactions microbiote alimentaire / microbiote de l'hôte, 3) procédés de fermentation innovants, 4) science des données et automatisation pour explorer la biodiversité.

Dans le cadre de Ferments du Futur, la plateforme de bioinformatique Migale (unité MaIAGE, INRAE, Jouy-en-Josas) est impliquée dans la coordination et le développement d’un entrepôt de données visant à rassembler l’ensemble des données sur les souches microbiennes pouvant être utilisées en consortia à des fins de fermentation. Ces données ont en effet vocation à alimenter les modèles prédictifs et méthodes d’apprentissage qui seront développés dans le Grand Défi pour proposer de nouveaux ferments. Elles seront de natures variées (génomiques, métaboliques, phénotypiques, propriétés physico-chimiques, etc..) et devront satisfaire aux propriétés FAIR (accessibles, requétables etc.).

Objectifs et missions

Le stage proposé vise à identifier et implémenter un premier pipeline d’analyse de données génomiques. Nous partirons de quelques jeux de données disponibles dans la littérature et/ou dans les banques de données publiques (dont les centres de ressources biologiques INRAE sur les levures et les bactéries d’intérêt agro-alimentaire) et proposerons un pipeline d’analyse automatisé permettant de passer de séquences brutes issues des séquenceurs NGS à la reconstruction des potentialités métaboliques de la bactérie étudiée. Ce pipeline devra également s’attacher à identifier et intégrer des outils d’intérêt concernant l’utilisation de la souche dans des procédés agro-alimentaires : voies métaboliques d’intérêt pour la fermentation, présence de familles de gènes spécifiques, etc.

De nombreux outils et pipelines existent déjà pour automatiser l’assemblage et l’annotation de génomes bactériens. MaIAGE possède également un expertise avancée sur ces sujets. Les outils des reconstruction de voies métaboliques sont moins nombreux et beaucoup moins fiable, dès que l’on s’éloigne des espèces modèles bien décrites.

Le stage consistera en :

La prise en main, comparaison et sélection des outils permettant de faire l’assemblage et l’annotation automatique de génomes bactériens
L’étude comparative des outils de reconstruction de voies métaboliques, la sélection d’un ou plusieurs outils
Le chaînage des outils sélectionnées sous la forme d’un pipeline bioinformatique
L’application de ce pipeline à des espèces d’intérêt pour le projet

Outils et langages

Outils classique d’analyse de données NGS :

Contrôle qualité et nettoyage : fastqc, fastp,…
Assemblage : SPades, Unicylcer, Tricycler, …
Annotation : Prokka, Bakta, ...
Reconstruction de voies métaboliques : PathwayTools, metag2metabo…

Langages :

Python
Snakemake

Mathématiques et Informatique Appliquéesdu Génome à l'Environnement

Mathématiques et Informatique Appliquées
du Génome à l'Environnement