Liste thèses en cours

ALAMICHEL Louise : Bayesian nonparametric methods for complex genomic data - - Début de la thèse : 2021-10

The aim of this thesis is to develop and analyse Bayesian nonparametric models to explore diversity in metagenomic data. This involves 1) furthering the knowledge about the fundamental properties of existing Bayesian nonparametric processes, 2) using them as building blocks to develop flexible models for noisy and high-dimensional data and 3) designing efficient and scalable inference algorithms, via parallelisation, optimisation and/or careful approximations.

The conceptual framework of Bayesian nonparametric models is particularly well-suited to describe complex and noisy data such as metagenomic data. Such data represent a crucial tool to explore the diversity of environments, such as marine environments (with environmental DNA, Cowart et al., 2018), human body (Van Rossum et al., 2020), tumor diversity (Nik-Zainal et al., 2012) or virus strain diversity. They are inherently large dimensional, suffer from multiple sources of noise, exhibit a complex latent structure (clusters, tree, network) and present challenges for which Bayesian nonparametric approaches have been recognised as promising, e.g. Lee et al. (2015); Roth et al. (2014). Bayesian nonparametric approaches are particularly interesting for complex data because they naturally account for uncertainty about the precise data generating mechanism, allowing flexibility in crucial aspects such as the functional form of the dependence to covariates, the error model, or the size of the latent space. On top of this, the Bayesian framework allows carrying this uncertainty seamlessly into the estimation uncertainty or real-time prediction uncertainty.

Moreover, addressing concrete biological questions often stimulates the development of new Bayesian nonparametric processes, for instance because standard processes such as the Dirichlet process are sometimes too simplistic and fail to describe certain patterns in the data (such as power-law behaviours). Additional advances are stimulated by the computational challenges in dealing with large dimensional data, requiring the development of bespoke inference strategies. We envision several possible approaches: variational inference (Blei and Jordan, 2006) replaces costly Markov chain Monte Carlo sampling by a high-dimensional optimisation problem for which efficient algorithms such as stochastic gradient descent may be used. Approximate Bayesian computation (ABC) replaces unfeasible likelihood evaluations, which may occur when modelling data with complex latent discrete structures (e.g. trees), by a large number of simulations. We have used ABC in the context of Bayesian nonparametric models and of inverse problems respectively in Kon Kam King et al. (2019) and Forbes et al. (2021). An efficient implementation of approximate Bayesian computation strategies will entail particular efforts in parallelisation and high-performance computing. Finally, when possible, we will also investigate the possibility of analytical approximations of Bayesian nonparametric processes, for which finite-size and asymptotic approximations have been shown to give good results (Bystrova et al., 2021).

The main biological application which will be addressed in this thesis will be to describe the diversity observed in metagenomic data and its relation to covariates. The type of metagenomic data considered can include environmental DNA (eDNA), describing for instance how the composition of soil microbial communities relates to environmental pollution (Arbel et al., 2016), or shotgun metagenomic data characterising the microbial composition of several compartments (milk, air, grass, cheese) in an agroecological cheese production line (TANDEM project, see below). We have access to a couple of rich datasets to carry out this application: (i) the StatInfOmics team is involved in the project TANDEM, supported by the INRAE flagship project HOLOFLUX. This project aims to study bacterial fluxes inside agro-ecological systems for cheese production, from grazing material to cheese through cows and milk. This involvement will present multiple opportunities for tackling interesting biological questions, analyse original data and develop mature and practical methodology directly benefiting areas of interest to INRAE; (ii) eDNA data sampled at study sites in the northern French Alps thanks to collaborations of Daria Bystrova and Julyan Arbel with Wilfried Thuiller at LECA. This study sites belong to the long-term observatory ORCHAMP (https://orchamp.osug.fr/home), which aims to observe, understand and model biodiversity and ecosystem functioning over space and time.

References

Arbel, J. (2019). Bayesian Statistical Learning and Applications. HDR thesis, Universit ́e Grenoble-Alpes.
Arbel, J., Kon Kam King, G., Lijoi, A., Nieto-Barajas, L. E., and Pr ̈unster, I. (2021). BNPdensity: Bayesian
nonparametric mixture modeling in R. Australian & New Zealand Journal of Statistics, in press.
Arbel, J., Mengersen, K., and Rousseau, J. (2016). Bayesian nonparametric dependent model for par-
tially replicated data: The influence of fuel spills on species diversity. The Annals of Applied Statistics,
10(3):1496–1516.
Blei, D. M. and Jordan, M. I. (2006). Variational inference for Dirichlet process mixtures. Bayesian Analysis,
1(1).
Bystrova, D., Arbel, J., Kon Kam King, G., and Deslandes, F. (2021). Approximating the clusters’ prior dis-
tribution in Bayesian nonparametric models. In Third Symposium on Advances in Approximate Bayesian
Inference.
Cowart, D. A., Murphy, K. R., and Cheng, C.-H. C. (2018). Metagenomic sequencing of environmental DNA
reveals marine faunal assemblages from the West Antarctic Peninsula. Marine Genomics, 37:148–160.
Forbes, F., Nguyen, H. D., Nguyen, T. T., and Arbel, J. (2021). Approximate Bayesian computation with
surrogate posteriors. Submitted.
Kon Kam King, G., Arbel, J., and Pr ̈unster, I. (2017). Bayesian Statistics in Action, chapter A Bayesian non-
parametric approach to ecological risk assessment, pages 151–159. Springer Proceedings in Mathematics
& Statistics, Volume 194. Springer International Publishing, Editors: Raffaele Argiento et al.
Kon Kam King, G., Canale, A., and Ruggiero, M. (2019). Bayesian functional forecasting with locally-
autoregressive dependent processes. Bayesian Analysis, 14(4):1121–1141.
Lee, J., M ̈uller, P., Gulukota, K., and Ji, Y. (2015). A Bayesian feature allocation model for tumor hetero-
geneity. The Annals of Applied Statistics, 9(2):621–639.
Nik-Zainal, S., Van Loo, P., Wedge, D. C., Alexandrov, L. B., Greenman, C. D., Lau, K. W., Raine, K.,
Jones, D., Marshall, J., Ramakrishna, M., Shlien, A., Cooke, S. L., Hinton, J., Menzies, A., Stebbings,
L. A., Leroy, C., Jia, M., Rance, R., Mudie, L. J., Gamble, S. J., Stephens, P. J., McLaren, S., Tarpey,
P. S., Papaemmanuil, E., Davies, H. R., Varela, I., McBride, D. J., Bignell, G. R., Leung, K., Butler,
A. P., Teague, J. W., Martin, S., J ̈onsson, G., Mariani, O., Boyault, S., Miron, P., Fatima, A., Langerød,
A., Aparicio, S. A. J. R., Tutt, A., Sieuwerts, A. M., Borg, ̊A., Thomas, G., Salomon, A. V., Richardson,
A. L., Børresen-Dale, A.-L., Futreal, P. A., Stratton, M. R., and Campbell, P. J. (2012). The Life History
of 21 Breast Cancers. Cell, 149(5):994–1007.
Roth, A., Khattra, J., Yap, D., Wan, A., Laks, E., Biele, J., Ha, G., Aparicio, S., Bouchard-Côté, A.,
and Shah, S. P. (2014). PyClone: Statistical inference of clonal population structure in cancer. Nature
Methods, 11(4):396–398.
Van Rossum, T., Ferretti, P., Maistrenko, O. M., and Bork, P. (2020). Diversity within species: Interpreting
strains in microbiomes. Nature Reviews Microbiology, 18(9):491–506.

Directeur.trice : ARBEL Julyan, KON KAM KING Guillaume - Equipes : StatInfOmics

CARPENTIER Juliette : Le microbiote au cœur des interactions Brassica napus x Delia radicum - Écologie, Géosciences, Agronomie et Alimentation (EGAAL) - Début de la thèse : 2022-12
Directeur.trice : C. Mougel - Encadrant(s) : S. Derocles, M. Mariadassou - Equipes : StatInfOmics

GUÉRIN Cyprien : Conception et mise en œuvre d’un système modulaire de mini-bioréacteurs pour la culture continue de microorganismes - ED577 SDSV - Début de la thèse : 2019-10

Les systèmes de culture continue en bioréacteurs restent, malgré leur intérêt, peu utilisés dans les laboratoires de microbiologie. L’objectif de ce projet de thèse est de faciliter leur mise en œuvre en proposant un nouveau système modulaire de mini-bioréacteurs pilotés par ordinateur en s’appuyant sur les opportunités offertes par l’essor des technologies de fabrication numérique et des microcontrôleurs programmables. Les volumes de culture visés sont de l’ordre de 5 à 10 mL afin de permettre des plans d’expériences complexes pouvant impliquer de nombreux bioréacteurs (en parallèle, en cascade, avec suivi et contrôle en temps réel, ...). Comme preuves de concept, plusieurs applications chez la bactérie Gram-positive Bacillus subtilis sont envisagées aussi bien dans des contextes d’évolution expérimentale et dirigée que pour des études physiologiques s’appuyant sur de la comparaison de transcriptomes.

Directeur.trice : P. Nicolas - Encadrant(s) : M. Jules (Micalis) - Equipes : StatInfOmics

JUNKER Romane : Diversité génomique et fonctionnelle des communautés bactériennes associées aux produits végétaux fermentés : une approche interdisciplinaire incluant métagénomique et bioinformatique dans un contexte de recherche-action participative - SDSV - Début de la thèse : 2021-09

Le projet de thèse proposé s’inscrit dans une démarche interdisciplinaire et un contexte de sciences ouvertes et participatives. Il vise à concevoir et mettre en œuvre des approches bioinformatiques et numériques innovantes pour analyser, comparer, interpréter et diffuser des jeux de données de données (meta)génomiques d’écosystèmes alimentaires fermentaires. La thèse s’appuiera pour ce travail sur les données du projet de science participative FLEGME (2019-2022) qui a pour objectif (i) d’évaluer la diversité des écosystèmes microbiens associés aux légumes fermentés fournis par des citoyens- fermenteurs et (ii) de documenter l’impact des pratiques de transformation sur la composition de l’écosystème fermentaire à partir d’échantillons produits par des petites entreprises spécialisées. Une première partie de la thèse consistera à travailler sur la conception d’un workflow bioinformatique ouvert et reproductible permettant de décrire, comparer et représenter la diversité des espèces et souches microbiennes présentes dans les échantillons de microbiotes d’aliments fermentés du projet Flegme en utilisant des modes de représentations adaptés à différents publics cibles (scientifiques, citoyens, professionnels du secteur). Une deuxième partie de la thèse ciblera la constitution de jeux de données génomiques de référence sur des espèces clé de la fermentation végétale à partir de données publiques ou produites dans le cadre de la thèse. Ce travail, qui s’inscrit dans une démarche d’ouverture des données de la recherche, s'accompagnera d’une réflexion sur la publication des métadonnées associées à ces jeux de données. La troisième partie de la thèse s’appuiera sur les jeux de données construits précédemment pour caractériser le potentiel métabolique des microbiotes associés à des fermentations alimentaires en reliant les informations phylogénétiques, les données génomiques et les analyses de métabolites produites sur les échantillons du projet Flegme. Enfin, la dernière partie de la thèse sera consacrée à la mise en place d’une démarche générique pour travailler avec un public non spécialiste sur les modalités de diffusion des résultats des analyses de diversité microbienne et du potentiel métabolique associé obtenus dans le projet FLEGME, dans une démarche de médiation des sciences et un contexte de sciences participatives.

Directeur.trice : Hélène Chiapello, Stéphane Chaillou - Encadrant(s) : Hélène Chiapello, Stéphane Chaillou, Michel-Yves Mistou, Florence Valence-Bertel - Equipes : StatInfOmics

PASSERI Iacopo : Statistical analysis of methylation patterns from S. meliloti - University of Florence ComBo - Début de la thèse : 2024-03

The primary focus of our collaborative efforts will be on the statistical analysis of methylation data derived from Pac-Bio-sequenced DNA. The overarching goal is to develop a robust machine learning and statistical model that will pro-vide mathematical insights into the underlying biological processes reflected in the data.

More specifically the project will involve a comprehensive analysis of methylation data obtained through PacBio se-quencing technology. This cutting-edge technique offers a high-resolution view of DNA methylation patterns, provid-ing a wealth of information about epigenetic modifications. The ultimate objective is to unravel the intricate relation-ships between methylation patterns (i.e., methylation of DNA motifs) and biological processes in the symbiotic nitro-gen-fixing alphaproteobacterium Sinorhizobium meliloti. Strains of this species exhibit a multipartite genome struc-ture, comprising a chromosome, a chromid, and a megaplasmid: the pronounced genomic and phenotypic variation observed in these strains positions them as exemplary models for investigating evolutionary hypotheses concerning the interplay between epigenomic signatures, genome structure evolution, and phenotypic transitions. Moreover, since its capability of conducting symbiotic nitrogen fixation upon interacting with legume hosts such as the Medica-go plant, S. meliloti represents an element of strong interest for the agritech field and for green revolution technolo-gies applications.

1. Data Collection and Preprocessing:

Acquirement of PacBio sequencing data from S. meliloti.

Quality control and preprocessing steps to ensure data integrity.

2. Feature Selection and Extraction:

Implement quality control measures to eliminate noise and irrelevant information.

Develop methods for extracting meaningful features from the raw data.

Identify relevant features that contribute significantly to the methylation patterns (MeStudio software).

3. Model Development:

Utilize machine learning techniques to build a predictive model.

Implement statistical methods to quantify the relationships between methylation patterns and biological factors.

Validate and refine the model through iterative testing and optimization.

4. Mathematical Insight and Interpretation:

Derive mathematical insights from the developed model.

Interpret the findings in the context of biological processes and phenomena.

Collaborate closely with the scientific group to ensure the biological relevance of the mathematical insights.

5. Documentation and Reporting:

Maintain detailed documentation of the entire process, including methodologies and code.

Provide regular updates to the scientific group on progress, challenges, and potential solutions.

Generate a comprehensive final report summarizing the methodology, results, and implications of the study.

Directeur.trice : Alessio Mengoni - Encadrant(s) : G. Kon Kam King, G. Gautreau, H. Chiapelo - Equipes : StatInfOmics

PETY Solène : Méthodes hologénomiques pour prendre en compte le microbiote de l’hôte dans les évaluations génétiques - ED581 ABIES - Début de la thèse : 2023-11

Les animaux et leur microbiote forment un organisme composite, appelé holobionte, qui peut être considéré comme l'unité ultime sur laquelle agissent l'évolution et la sélection. Les gènes de l'hôte et l'environnement influent sur la colonisation, le développement et le fonctionnement des divers microbiotes, qui en retour contribuent à façonner les phénotypes de l'hôte. De plus le microbiote est également transmis de la mère au descendant (par exemple, lors de la mise-bas, de l’allaitement et des soins maternels chez les mammifères), ce dernier participe ainsi à la transmission non-génétique des phénotypes. Un enjeu majeur pour la sélection animale est donc le développement des approches hologénomiques intégratives capables d’analyser conjointement les ensembles de données génomiques de l'hôte et de son microbiote, ainsi que les phénotypes et les paramètres environnementaux dans lesquels évoluent les holobiontes. De telles méthodes sont prometteuses pour apporter une amélioration de la précision de prédiction et la compréhension des caractères impliqués dans l'adaptation des animaux aux systèmes de production agroécologique chez différentes espèces d'intérêt agronomique. Dans ce cadre, ce projet de thèse se focalise sur le développement, optimisation, et évaluation de méthodes intégratives permettant de prendre en compte simultanément la variabilité génomique et les indicateurs métagénomiques de l’hôte, ainsi que leur interaction. Ce projet contribuera à établir des lignes directrices claires pour la simulation de données hologénomiques réalistes, la construction de matrices de similarité basées sur le microbiote, et la combinaison optimale de données génomiques, microbiotes, et multi-omiques dans une grande variété de scenarios.

Directeur.trice : Andrea Rau - Encadrant(s) : Mahendra Mariadassou, Ingrid David - Equipes : StatInfOmics

Procope-Mamert Sylvain : Algorithmes d'inférence pour des modèles de Markov cachés hiérarchiques à observations non linéaires - applications à l'analyse de données omiques suivies au cours du temps. - ED574 EDMH - Début de la thèse : 2023-11

Les travaux conduits dans cette thèse porteront sur des modèles de Markov cachés hiérarchiques à observations non linéaires pour décrire les mécanismes sous-jacents à l’observation de séquences temporelles avec une dépendance spatiale. Ces modèles sont intéressants dans de nombreuses applications, notamment pour l’analyse de données omiques résolues en temps, qui présentent souvent une dépendance spatiale le long du génome. Estimer les paramètres qui régissent les dynamiques temporelles et reconstruire les états cachés du modèle sont des questions cruciales en pratique car elles permettent d’accéder à une meilleure compréhension des mécanismes physiques ou biologiques à l'oeuvre dans la génération des données. On s’intéressera plus spécifiquement au cas où les dynamiques temporelles observées sont non-linéaires et où les états cachés combinent des composantes discrètes et des composantes continues. Dans ce contexte peu abordé dans la littérature, la fonction de vraisemblance n’est pas classique et empêche l'utilisation des méthodes standard (Kalman/Baum-Welch). Dans cette thèse, on se propose de développer des algorithmes pour estimer les paramètres et reconstruire les états cachés à partir des séquences observées, en étudiant leurs propriétés théoriques et leur implémentation pratique. On se placera dans le cadre Bayésien qui permet une quantification naturelle de l'incertitude d'estimation.
Ces travaux sont notamment motivés par des données originales de transcriptomique suivie au cours du temps, collectées par des partenaires du projet et qui permettront une application directe des premiers travaux réalisés.

Directeur.trice : Nicolas CHOPIN, Maud DELATTRE et Guillaume KON KAM KING - Equipes : Dynenvie, Equipes : StatInfOmics

SAMSON Samantha : "Potentiation in silico de molécules hits sur la M-target" - ED577 SDSV - Début de la thèse : 2021-10

L'antibiorésistance est un problème de santé publique et de nouveaux médicaments sont nécessaires de toute urgence. Un défi majeur pour une conception efficace du médicament est de trouver la cible bactérienne appropriée. Dans cette optique, le projet de thèse de Samantha Samson se concentre sur Mfd -Mutation frequency decline- une cible protéique nouvelle et innovante que nous avons identifiée. Il vise à caractériser in silico les pharmacophores i.e le profil structure/fonction/activité des molécules prometteuses que nous avons validées in vitro. Il veut étendre leur spectre d'inhibition depuis les cibles de E. coli (Gram-) et B. cereus (Gram+) aux cibles du groupe ESKAPE, considérées comme pathogènes prioritaires par l'OMS. In fine, cette caractérisation mènera à potentialiser les molécules en candidats médicaments tout en élargissant leur spectre d'action sur des bactéries particulièrement résistances aux antibiotiques. La thèse se fera à MaIAGE, en biologie structurale moléculaire et computationnelle sous la direction de Gwenaëlle André. Par ailleurs, elle se fera en interaction constante avec les expériences in vitro et in vivo menées à Micalis dans l'équipe Pims dirigée par Nalini Rama Rao.

Directeur.trice : Gwenaëlle André - Encadrant(s) : Gwenaëlle André et Nalini Rama Rao - Equipes : StatInfOmics

Mathématiques et Informatique Appliquéesdu Génome à l'Environnement

Liste thèses en cours

Mathématiques et Informatique Appliquées
du Génome à l'Environnement