Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

Construction de banques de données de séquences pour l'assignation taxonomique et visualisation de leurs caractéristiques

Durée
6 mois
Date de début
Date limite de candidature

Contexte scientifique

Les récents progrès des technologies de séquençage ont permis des avancées importantes dans l’étude du rôle des communautés microbiennes. Les analyses de gènes marqueurs de ces communautés, tel que le gène de l’ARN ribosomique 16S chez les bactéries, permettent d’explorer cette diversité microbienne et mettent en évidence leur rôle au sein des environnements. Dans ce contexte, l’outil FROGS a été développé afin de pouvoir exécuter l’ensemble des étapes de traitement de ces données.

FROGS connait un succès important avec près de 500 citations de sa 1ère publication de 2017, plus de 13 500 téléchargements du logiciel dans le monde entier. Il est utilisable en ligne de commande et sous Galaxy. Sa facilité d'utilisation et ses résultats probants en font un outil très apprécié par la communauté francophone et internationale. À INRAE, 4 à 5 formations sont dispensées par an. Le groupe de développeurs est composé de 5 ingénieurs répartis sur trois centres INRAE.

Une des étapes de FROGS, l'assignation taxonomique, consiste à identifier les espèces composant le milieu étudié. Pour cela, l'outil se base sur des banques de données de séquences maintenues en interne.

L'outil FROGS met à disposition de sa communauté d'utilisateurs un nombre croissant de banques de données (http://genoweb.toulouse.inra.fr/frogs_databanks/assignation/). Néanmoins, sans connaissance préalable du contenu de la banque (espèces présentes, taille des séquences...), il est difficile pour l'utilisateur de faire le choix de la meilleure base de données parmi plusieurs qui lui paraissent intéressantes. Parallèlement, afin d'enrichir notre catalogue de banques de données, il est nécessaire de glaner des séquences spécifiques dans les banques de données publiques.


Les questions de nos utilisateurs auxquelles on souhaite répondre: Dans quelles banques se retrouve ma séquence d'intérêt? Et avec quelle affiliation? La banque que je souhaite utiliser a-t-elle des biais taxonomiques ? Quelle est la taille de la banque que j'utilise ? De combien de rangs taxonomiques sont composés les affiliations des séquences de cette base ? etc.


Objectif du stage

L’objectif de ce stage consiste

1. à créer un site web décrivant les banques de données mises à disposition dans FROGS en extrayant des informations pertinentes (taxonomies, caractéristiques des séquences...).

2. à développer des scripts permettant de créer des banques de données à partir de données publiques (Refseq, NCBI...).

Compétences

Python et/ou R, bash, développement web

Encadrement

Le stage se déroulera sur le site INRAE de Jouy-en-Josas, avec pour encadrant principal Olivier Rué, ingénieur bioinformaticien sur la plateforme Migale (https://migale.inrae.fr). Des points réguliers seront organisés avec les autres membres du groupe FROGS (en visio), ingénieurs à INRAE Toulouse, Jouy-en-Josas et Nancy.

Références

- Escudie F., et al. Bioinformatics, 2018. FROGS: Find, Rapidly, OTUs with Galaxy Solution. (https://doi.org/10.1093/bioinformatics/btx791)

- Bernard M., et al. Briefings in Bioinformatics, 2021. FROGS: a powerful tool to analyse the diversity of fungi with special management of internal transcribed spacers. (https://doi.org/10.1093/bib/bbab318)

 

Contact
Rué Olivier, olivier.rue@inrae.fr