Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

 

EPAIN Victor

Type
Doctorant.e
Sujet
Développement de méthodes efficaces, précises et conviviales pour corriger, assembler et aligner des lectures issues des technologies de séquençage 3e génération.
Date de début
Date de fin
Encadrant(s)
D Lavenier (INRIA)
Equipe(s)
StatInfOmics
Contrat de recherche
Bourse de thèse INRIA/INRAE
Ecole doctorale (pour les thèses)
ED601 MathSTIC
Directeur.trice (pour les thèses)
R. Andonov INRIA - J-F Gibrat INRAE
Date de soutenance (pour les thèses)
Ecole/université (pour les thèses et les stages)
Rennes 1
Description/résumé

Le développement d’algorithmes efficaces et parcimonieux en matière de ressources informatiques et leur implémentation sous forme de logiciels faciles à utiliser ont un très fort impact sur la communauté des sciences de la vie. Ces logiciels sont largement utilisés par de très nombreuses équipes de par le monde.

L’objectif de cette thèse est de se focaliser sur ces cas difficiles et de développer des algorithmes adaptés à cette complexité à la fois pour l’assemblage et pour l’alignement à partir de données de séquençage de 3génération. Une attention particulière sera portée au passage à l’échelle de ces logiciels lorsqu’on est amené à analyser des données génomiques eucaryotes.  En moyenne, il existe un facteur 1000 entre les longueurs des génomes de procaryotes et d’eucaryotes « caractéristiques », ce qui impose de très fortes contraintes sur le choix des algorithmes à implémenter tant en matière de vitesse d’exécution du programme que de mémoire vive utilisée. Il est vraisemblable qu’un travail important de parallélisation massive du code sera nécessaire pour obtenir de bonnes performances dans ce cas.