Stage de Master 2 en développement bioinformatique « Enrichissement et automatisation des sources utilisées de l’application Omnicrobe »

Durée
6 mois

Contexte :

L’unité Mathématiques et Informatique Appliquées du Génome à l’Environnement (MaIAGE)1 est située sur le centre INRAE2 de Jouy-en-Josas. Cette unité de recherche regroupe des mathématiciens, des informaticiens, des bioinformaticiens et des biologistes qui développent des méthodes pour répondre à des questions de biologie et agro-écologie, allant de l'échelle moléculaire à l'échelle du paysage en passant par l'étude d'individus, de populations ou d'écosystèmes. MaIAGE est structurée en cinq équipes dont l’équipe Acquisition et formalisation des connaissances à partir de textes (Bibliome)3, et l’équipe Bioinformatique et statistique des données “omiques” (StatInfOmics)4. et la plateforme bioinformatique Migale5. Bibliome développe des méthodes de traitement automatique des langues (TAL) et d'apprentissage automatique (ML) pour extraire des informations de textes par des ontologies dans le domaine de la biologie. StatInfOmics développe et met en œuvre des méthodes statistiques et bioinformatiques dédiées à l’analyse de données “omiques”. Migale fournit des services à la communauté des sciences de la vie. Cette proposition de stage s’inscrit dans un projet commun aux trois équipes.

Missions :

L’unité MaIAGE développe l’application Omnicrobe5 qui collecte et intègre des informations sur les habitats, les phénotypes et les usages des micro-organismes. Ces informations sont actuellement extraites automatiquement des sources d’information textuelles et des bases de données bioinformatiques suivantes : PubMed, GenBank, DSMZ, CIRM. Les informations sont ensuite traitées à l’aide de pipelines spécialisés d’analyse de données (traitement automatique des langues et apprentissage machine) avant d’être stockées dans une base de données centralisées et rendues disponibles via des interfaces web et programmatique (API). Le stage portera sur l’enrichissement et l’extension des sources de données de l’application Omnicrobe. Le travail consistera à étudier les sources de données potentielles (BioSample6, EPMC7, MIRRI8, GCM9, etc.) et ensuite en l’implémentation des solutions (pipelines) permettant d’automatiser la collecte et l’intégration des informations pertinentes provenant des sources sélectionnées vers la base de données d’Omnicrobe.

Profil du candidat :

Master 2 / dernière année d’école d’ingénieur en bio-informatique.

Compétences souhaitées :

  • Python

  • Snakemake

  • Des connaissances sur les banques de données bioinformatiques seraient un plus

Références :

1 Unité MaIAGE, https://maiage.inrae.fr/ 

2 INRAE, https://www.inrae.fr/ 

3 Equipe Bibliome, https://maiage.inrae.fr/fr/bibliome  

4 Equipe StatInfOmics, https://maiage.inrae.fr/fr/statinfomics 

5 Plateforme Migale, https://migale.inrae.fr 

6 Dérozier S et al. Omnicrobe, an open-access database of microbial habitats and phenotypes using a comprehensive text mining and data fusion approach. bioRxiv. 2022. DOI: https://doi.org/10.1101/2022.07.21.500958

7 https://www.ncbi.nlm.nih.gov/biosample/

8 http://europepmc.org/

9 https://webservices.bio-aware.com/mirri/index.html

10 https://gcm.wdcm.org/

En savoir plus
Contact
Mouhamadou Ba, mouhamadou.ba@inrae.fr
Robert Bossy, robert.bossy@inrae.fr