ContexteÂ
Le Grand DĂ©fi Ferments du Futur s'inscrit dans la stratĂ©gie nationale d'accĂ©lĂ©ration « alimentation durable et favorable Ă la santĂ© » du Programme d'investissements d'avenir 4 (PIA4). Il vise Ă rĂ©unir acteurs publics et privĂ©s autour d'un mĂŞme objectif : faire des ferments et de la fermentation un axe clĂ© pour accompagner la transition vers l'alimentation du futur. En effet, les ferments prĂ©sentent de très nombreux atouts, par les bĂ©nĂ©fices qu'ils procurent en terme de sĂ©curitĂ© des aliments, de qualitĂ© sensorielle, d'impact nutritionnel et sur la santĂ©, de durabilitĂ©. Plus prĂ©cisĂ©ment, ce Grand DĂ©fi va permettre d'explorer 4 axes scientifiques majeurs : 1) interactions microbiote alimentaire / matrices alimentaires, 2) interactions microbiote alimentaire / microbiote de l'hĂ´te, 3) procĂ©dĂ©s de fermentation innovants, 4) science des donnĂ©es et automatisation pour explorer la biodiversitĂ©.Â
Dans le cadre de Ferments du Futur, la plateforme de bioinformatique Migale (unitĂ© MaIAGE, INRAE, Jouy-en-Josas) est impliquĂ©e dans la coordination et le dĂ©veloppement d’un entrepĂ´t de donnĂ©es visant Ă rassembler l’ensemble des donnĂ©es sur les souches microbiennes pouvant ĂŞtre utilisĂ©es en consortia Ă des fins de fermentation. Ces donnĂ©es ont en effet vocation Ă alimenter les modèles prĂ©dictifs et mĂ©thodes d’apprentissage qui seront dĂ©veloppĂ©s dans le Grand DĂ©fi pour proposer de nouveaux ferments. Elles seront de natures variĂ©es (gĂ©nomiques, mĂ©taboliques, phĂ©notypiques, propriĂ©tĂ©s physico-chimiques, etc..) et devront satisfaire aux propriĂ©tĂ©s FAIR (accessibles, requĂ©tables etc.).Â
Objectifs et missionsÂ
Le stage proposĂ© vise Ă identifier et implĂ©menter un premier pipeline d’analyse de donnĂ©es gĂ©nomiques. Nous partirons de quelques jeux de donnĂ©es disponibles dans la littĂ©rature et/ou dans les banques de donnĂ©es publiques (dont les centres de ressources biologiques INRAE sur les levures et les bactĂ©ries d’intĂ©rĂŞt agro-alimentaire) et proposerons un pipeline d’analyse automatisĂ© permettant de passer de sĂ©quences brutes issues des sĂ©quenceurs NGS Ă la reconstruction des potentialitĂ©s mĂ©taboliques de la bactĂ©rie Ă©tudiĂ©e. Ce pipeline devra Ă©galement s’attacher Ă identifier et intĂ©grer des outils d’intĂ©rĂŞt concernant l’utilisation de la souche dans des procĂ©dĂ©s agro-alimentaires : voies mĂ©taboliques d’intĂ©rĂŞt pour la fermentation, prĂ©sence de familles de gènes spĂ©cifiques, etc.Â
De nombreux outils et pipelines existent dĂ©jĂ pour automatiser l’assemblage et l’annotation de gĂ©nomes bactĂ©riens. MaIAGE possède Ă©galement un expertise avancĂ©e sur ces sujets. Les outils des reconstruction de voies mĂ©taboliques sont moins nombreux et beaucoup moins fiable, dès que l’on s’éloigne des espèces modèles bien dĂ©crites.Â
Le stage consistera en :Â
- La prise en main, comparaison et sélection des outils permettant de faire l’assemblage et l’annotation automatique de génomes bactériens
- L’étude comparative des outils de reconstruction de voies métaboliques, la sélection d’un ou plusieurs outils
- Le chaînage des outils sélectionnées sous la forme d’un pipeline bioinformatique
- L’application de ce pipeline Ă des espèces d’intĂ©rĂŞt pour le projetÂ
Outils et langagesÂ
Outils classique d’analyse de donnĂ©es NGS :Â
- ContrĂ´le qualitĂ© et nettoyage : fastqc, fastp,…Â
- Assemblage : SPades, Unicylcer, Tricycler, …Â
- Annotation : Prokka, Bakta, ...
- Reconstruction de voies métaboliques : PathwayTools, metag2metabo…
Langages :Â
- PythonÂ
- Snakemake