Le développement d’algorithmes efficaces et parcimonieux en matière de ressources informatiques et leur implémentation sous forme de logiciels faciles à utiliser ont un très fort impact sur la communauté des sciences de la vie. Ces logiciels sont largement utilisés par de très nombreuses équipes de par le monde.
L’objectif de cette thèse est de se focaliser sur ces cas difficiles et de développer des algorithmes adaptés à cette complexité à la fois pour l’assemblage et pour l’alignement à partir de données de séquençage de 3e génération. Une attention particulière sera portée au passage à l’échelle de ces logiciels lorsqu’on est amené à analyser des données génomiques eucaryotes. En moyenne, il existe un facteur 1000 entre les longueurs des génomes de procaryotes et d’eucaryotes « caractéristiques », ce qui impose de très fortes contraintes sur le choix des algorithmes à implémenter tant en matière de vitesse d’exécution du programme que de mémoire vive utilisée. Il est vraisemblable qu’un travail important de parallélisation massive du code sera nécessaire pour obtenir de bonnes performances dans ce cas.