Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

 

HAK Fiona

Type
Stagiaire
Sujet
Développement d’un pipeline d’analyse de données génomiques pour la reconstruction des potentialités métaboliques de bactéries pressenties pour jouer un rôle dans la fermentation
Date de début
Date de fin
Encadrant(s)
V. Loux, S. Schbath
Equipe(s)
Migale
Année de soutenance (pour les thèses ou les stages)
2023
Ecole/université (pour les thèses et les stages)
Université Paris-Saclay
Niveau/diplôme (pour les stages)
Master 1
Description/résumé

Contexte 

Le Grand Défi Ferments du Futur s'inscrit dans la stratégie nationale d'accélération « alimentation durable et favorable à la santé » du Programme d'investissements d'avenir 4 (PIA4). Il vise à réunir acteurs publics et privés autour d'un même objectif : faire des ferments et de la fermentation un axe clé pour accompagner la transition vers l'alimentation du futur. En effet, les ferments présentent de très nombreux atouts, par les bénéfices qu'ils procurent en terme de sécurité des aliments, de qualité sensorielle, d'impact nutritionnel et sur la santé, de durabilité. Plus précisément, ce Grand Défi va permettre d'explorer 4 axes scientifiques majeurs : 1) interactions microbiote alimentaire / matrices alimentaires, 2) interactions microbiote alimentaire / microbiote de l'hôte, 3) procédés de fermentation innovants, 4) science des données et automatisation pour explorer la biodiversité. 

Dans le cadre de Ferments du Futur, la plateforme de bioinformatique Migale (unité MaIAGE, INRAE, Jouy-en-Josas) est impliquée dans la coordination et le développement d’un entrepôt de données visant à rassembler l’ensemble des données sur les souches microbiennes pouvant être utilisées en consortia à des fins de fermentation. Ces données ont en effet vocation à alimenter les modèles prédictifs et méthodes d’apprentissage qui seront développés dans le Grand Défi pour proposer de nouveaux ferments. Elles seront de natures variées (génomiques, métaboliques, phénotypiques, propriétés physico-chimiques, etc..) et devront satisfaire aux propriétés FAIR (accessibles, requétables etc.). 

Objectifs et missions 

Le stage proposé vise à identifier et implémenter un premier pipeline d’analyse de données génomiques. Nous partirons de quelques jeux de données disponibles dans la littérature et/ou dans les banques de données publiques (dont les centres de ressources biologiques INRAE sur les levures et les bactéries d’intérêt agro-alimentaire) et proposerons un pipeline d’analyse automatisé permettant de passer de séquences brutes issues des séquenceurs NGS à la reconstruction des potentialités métaboliques de la bactérie étudiée. Ce pipeline devra également s’attacher à identifier et intégrer des outils d’intérêt concernant l’utilisation de la souche dans des procédés agro-alimentaires : voies métaboliques d’intérêt pour la fermentation, présence de familles de gènes spécifiques, etc. 

De nombreux outils et pipelines existent déjà pour automatiser l’assemblage et l’annotation de génomes bactériens. MaIAGE possède également un expertise avancée sur ces sujets. Les outils des reconstruction de voies métaboliques sont moins nombreux et beaucoup moins fiable, dès que l’on s’éloigne des espèces modèles bien décrites. 

Le stage consistera en : 

  • La prise en main, comparaison et sélection des outils permettant de faire l’assemblage et l’annotation automatique de génomes bactériens
  • L’étude comparative des outils de reconstruction de voies métaboliques, la sélection d’un ou plusieurs outils
  • Le chaînage des outils sélectionnées sous la forme d’un pipeline bioinformatique
  • L’application de ce pipeline à des espèces d’intérêt pour le projet 

Outils et langages 

Outils classique d’analyse de données NGS : 

  • Contrôle qualité et nettoyage : fastqc, fastp,… 
  • Assemblage : SPades, Unicylcer, Tricycler, … 
  • Annotation : Prokka, Bakta, ...
  • Reconstruction de voies métaboliques : PathwayTools, metag2metabo…

Langages : 

  • Python 
  • Snakemake