Contexte :
L’unité Mathématiques et Informatique Appliquées du Génome à l’Environnement (MaIAGE ; https://maiage.inrae.fr/) est située sur le centre INRAE (https://www.inrae.fr/) de Jouy-en-Josas. Cette unité de recherche regroupe des mathématiciens, des informaticiens, des bioinformaticiens et des biologistes qui développent des méthodes pour répondre à des questions de biologie et agro-écologie, allant de l'échelle moléculaire à celle du paysage en passant par l'étude d'individus, de populations ou d'écosystèmes. MaIAGE est structurée en cinq équipes dont l’équipe Bibliome (https://maiage.inrae.fr/fr/bibliome) qui développe des méthodes de traitement automatique des langues (TAL) et d'apprentissage automatique (ML) pour extraire des informations de textes par des ontologies dans le domaine de la biologie ; l’équipe StatInfOmics (https://maiage.inrae.fr/fr/statinfomics) qui développe et met en œuvre des méthodes statistiques et bioinformatiques dédiées à l’analyse de données “omiques” ; et la plateforme bioinformatique Migale (https://migale.inrae.fr) qui fournit des services à la communauté des sciences de la vie. Cette proposition de stage s’inscrit sur un projet commun aux trois équipes.
Missions :
L’unité MaIAGE développe l’application Omnicrobe (Dérozier S et al. PlosOne, 2023) qui rassemble des informations sur les habitats, les phénotypes et les usages des micro-organismes, extraites automatiquement de sources textuelles (PubMed, GenBank, DSMZ, Centres de Ressources Biologiques pour les microorganismes - CIRM). Omnicrobe forme un graphe de connaissances sur la biodiversité microbienne contenant plus d’un million de relations. Les données sont accessibles via une interface web (https://omnicrobe.migale.inrae.fr/) et une interface programmatique (API ; https://omnicrobe.migale.inrae.fr/api). Les données d’Omnicrobe sont actuellement structurées et stockées dans une base de données relationnelles PostgreSQL. Le ou la stagiaire aura pour mission d’évaluer la solution Neo4J (https://neo4j.com/fr/) afin de représenter les données sous forme de graphe. Il ou elle s’appuiera sur un jeu de données constitué d’un sous-ensemble des données Omnicrobe afin d’alimenter une base Neo4J et d’évaluer les fonctionnalités et les performances de la suite logicielle (conception, requêtage).
Compétences :
- Python
- Base de données