AUBERT Julie

Sujet
Analyse statistique de données biologiques à haut débit
Date de début
Date de fin
Encadrant(s)
S. Robin (INRA, MIA-Paris)
Equipe(s)
Description/résumé

Les progrès technologiques des vingt dernières années ont permis l’avènement d'une biologie à haut-débit reposant sur l'obtention de données à grande échelle de façon automatique. Les statisticiens ont un rôle important à jouer dans la modélisation et l'analyse de ces données nombreuses, bruitées, parfois hétérogènes et recueillies à différentes échelles. Ce rôle peut être de plusieurs natures. Le statisticien peut proposer de nouveaux concepts ou méthodes inspirées par les questions posées par cette biologie. Il peut proposer une modélisation fine des phénomènes observés à l'aide de ces technologies. Et lorsque des méthodes existent et nécessitent seulement une adaptation, le rôle du statisticien peut être celui d'un expert, qui connaît les méthodes, leurs limites et avantages. Le travail présenté dans cette thèse se situe à l'interface entre mathématiques appliquées et biologie, et relève plutôt des deuxième et troisième type de rôles mentionnés.

Dans une première partie, j’introduis diffĂ©rentes mĂ©thodes dĂ©veloppĂ©es pour l'analyse de donnĂ©es biologiques Ă  haut dĂ©bit, basĂ©es sur des modèles Ă  variables latentes. Ces modèles permettent d'expliquer un phĂ©nomène observĂ© Ă  l'aide de variables cachĂ©es. Le modèle Ă  variables latentes le plus simple est le modèle de mĂ©lange. Les deux premières mĂ©thodes prĂ©sentĂ©es en sont des exemples: la première dans un contexte de tests multiples et la deuxième dans le cadre de la dĂ©finition d'un seuil d'hybridation pour des donnĂ©es issues de puces Ă  ADN. Je prĂ©sente Ă©galement un modèle de chaĂ®nes de Markov cachĂ©es couplĂ©es pour la dĂ©tection de variations du nombre de copies en gĂ©nomique prenant en compte de la dĂ©pendance entre les individus, due par exemple Ă  une proximitĂ© gĂ©nĂ©tique. Pour ce modèle, nous proposons une infĂ©rence approchĂ©e fondĂ©e sur une approximation variationnelle, l'infĂ©rence exacte ne pouvant pas ĂŞtre envisagĂ©e dès lors que le nombre d'individus augmente. Nous dĂ©finissons Ă©galement un modèle Ă  blocs latents modĂ©lisant une structure sous-jacente par bloc de lignes et colonnes adaptĂ©es Ă  des donnĂ©es de comptage issue de l'Ă©cologie microbienne. Les donnĂ©es issues de mĂ©ta-codebarres ou de mĂ©tagĂ©nomique correspondent Ă  l'abondance de chaque unitĂ© d'intĂ©rĂŞt (par exemple micro-organisme) d'une communautĂ© microbienne au sein d'environnement (rhizosphère de plante, tube digestif humain, ocĂ©an par exemple). Ces donnĂ©es ont la particularitĂ© de prĂ©senter une dispersion plus forte qu'attendue sous les modèles les plus classiques (on parle de sur-dispersion). La classification croisĂ©e est une façon d'Ă©tudier les interactions entre la structure des communautĂ©s microbiennes et les Ă©chantillons biologiques dont elles sont issues. Nous avons proposĂ© de modĂ©liser ce phĂ©nomène Ă  l'aide d'une distribution Poisson-Gamma et dĂ©veloppĂ© une autre approximation variationnelle pour ce modèle particulier ainsi qu'un critère de sĂ©lection de modèle. La flexibilitĂ© et la performance du modèle sont illustrĂ©es sur trois jeux de donnĂ©es rĂ©elles.

Une deuxième partie est consacrée à des travaux dédiés à l'analyse de données de transcriptomique issues des technologies de puce à ADN et de séquençage de l’ARN. La première section concerne la normalisation des données (détection et correction de biais techniques) et présente deux nouvelles méthodes que j’ai proposées avec mes co-auteurs et une comparaison de méthodes à laquelle j’ai contribuée. La deuxième section dédiée à la planification expérimentale présente une méthode pour analyser les dispositifs dit en dye-switch.

Dans une dernière partie, je montre à travers deux exemples de collaboration, issues respectivement d'une analyse de gènes différentiellement exprimés à partir de données issues de puces à ADN, et d'une analyse du traductome chez l'oursin à partir de données de séquençage de l'ARN, la façon dont les compétences statistiques sont mobilisées et la plus-value apportée par les statistiques aux projets de génomique.

Ecole doctorale (pour les thèses)
ED574 EDMH
Directeur.trice (pour les thèses)
S. Schbath (MaIAGE)
Année de soutenance (pour les thèses ou les stages)
2017
Date de soutenance (pour les thèses)
Ecole/université (pour les thèses et les stages)
Université Paris-Saclay