Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

Benchmark et développement d’un workflow d’identification et d’annotation de génomes de bactériophages.

Le projet PHAGOFROM a pour but d’aider les acteurs de la filière laitière à mieux appréhender les bactériophages et leur impact. Il s’agit de :

  • Mieux comprendre leurs effets sur l’économie et la qualité des fromages.

  • Créer une collection de phages pour mieux anticiper leur impact et proposer des solutions adaptées.

  • Développer des outils analytiques et informatiques dédiés pour les détecter et les étudier.

  • Identifier les réservoirs de ces virus, depuis la ferme jusqu’au produit fini.

  • In fine, apporter des leviers aux opérateurs pour leur permettre une meilleure maîtrise de ces phages, notamment grâce à la prise en compte de l’ensemble des composantes de l’agrobiodiversité. 

Le travail proposé ici s’inscrit dans le contexte de “développement d’outils analytiques” du projet.

Lors de ce stage de M2/ingé de 6 mois, une première phase sera consacrée à l’identification et la comparaison des outils d’identification et d’annotation de bactériophages. Ce travail sera mené en étroite collaboration avec les bioinformaticiens d’INRAE, partenaires du projet.

Une fois cette comparaison effectuée, un choix d’outils sera fait avec l’ensemble des partenaires pour construire et mettre à disposition un pipeline d’analyse enchainant les outils et facilitant leur utilisation par un public non expert.

Vous serez plus particulièrement en charge de :

  1. Veille bibliographique

  • Effectuer une revue de la littérature sur les méthodes d’identification et d’analyse des génomes de bactériophages

  • Prendre en main et monter en compétence le cadre de travail avec des outils tel que git (gestionnaire de versions) snakemake (gestionnaire de workflows), galaxy (interface web bioinfo), cluster de calculs, ...

  1. Sélection des outils

    • Construire un jeu de test permettant la comparaison des outils à partir de données déjà disponibles dans les banques de données de séquences génomiques

    • Réaliser un benchmark sur les outils identifiés dans l’étape précédente

    • Pour chaque outil, lister les conditions d’utilisations, entrée et sorties, et les paramètres clés 

    • Utiliser les résultats du benchmark pour proposer une liste d’outils d’intérêt aux partenaires et sélectionner ceux qui seront proposés dans le pipeline

  2. Développement du pipeline

  • Développer un pipeline snakemake et/ou Galaxy pour permettre l’utilisation par un public non-initié

  • Documenter les choix et préciser les paramètres d’intérêts

Au cours et à la fin de votre stage, vous devrez présenter vos résultats et recommandations de manière structurée, en mettant en avant les avantages et les limitations des outils étudiés. Vous veillerez à mettre en place une démarche de gestion de projet collaborative et rigoureuse pour travailler efficacement avec le reste de l’équipe. L’institut étant impliqué dans une démarche de science ouverte, tous les développements et résultats seront mis à disposition sous une licence ouverte pour favoriser les collaborations, promouvoir la transparence et le partage des connaissances. Ce stage vous offrira une opportunité d’explorer le domaine de l'écologie microbienne, en interface avec l’application de vos compétences en développement et data-science, dans un projet d’envergure. Lors de ce stage de M2/ingé de 6 mois, une première phase sera consacrée à l’identification et la comparaison des outils d’identification et d’annotation de bactériophages. Ce travail sera mené en étroite collaboration avec les bioinformaticiens d’INRAE, partenaires du projet.

Une fois cette comparaison effectuée, un choix d’outils sera fait avec l’ensemble des partenaires pour construire et mettre à disposition un pipeline d’analyse enchainant les outils et facilitant leur utilisation par un public non expert.

 

¡ Formation recommandée : M2 ou école d’ingénieur en bioinformatique, développement, data science, …

¡Connaissances souhaitées : analyse de données omiques, programmation Python, environnement Unix, Git, cluster de calcul, …

¡Aptitudes recherchées : Approche scientifique, Capacité d’analyse et de synthèse, Travail en équipe, Communication, …

 

 

Type
Stage
Durée
6 mois
Date de début
Date limite de candidature
Contact
Cédric MIDOUX, cedric.midoux@inrae.fr
Valentin LOUX, valentin.loux@inrae.fr
Eric DUGAT-BONY, eric.dugat-bony@inrae.fr