The aim of this thesis is to develop and analyse Bayesian nonparametric models to explore diversity in metagenomic data. This involves 1) furthering the knowledge about the fundamental properties of existing Bayesian nonparametric processes, 2) using them as building blocks to develop flexible models for noisy and high-dimensional data and 3) designing efficient and scalable inference algorithms, via parallelisation, optimisation and/or careful approximations.
The conceptual framework of Bayesian nonparametric models is particularly well-suited to describe complex and noisy data such as metagenomic data. Such data represent a crucial tool to explore the diversity of environments, such as marine environments (with environmental DNA, Cowart et al., 2018), human body (Van Rossum et al., 2020), tumor diversity (Nik-Zainal et al., 2012) or virus strain diversity. They are inherently large dimensional, suffer from multiple sources of noise, exhibit a complex latent structure (clusters, tree, network) and present challenges for which Bayesian nonparametric approaches have been recognised as promising, e.g. Lee et al. (2015); Roth et al. (2014). Bayesian nonparametric approaches are particularly interesting for complex data because they naturally account for uncertainty about the precise data generating mechanism, allowing flexibility in crucial aspects such as the functional form of the dependence to covariates, the error model, or the size of the latent space. On top of this, the Bayesian framework allows carrying this uncertainty seamlessly into the estimation uncertainty or real-time prediction uncertainty.
Moreover, addressing concrete biological questions often stimulates the development of new Bayesian nonparametric processes, for instance because standard processes such as the Dirichlet process are sometimes too simplistic and fail to describe certain patterns in the data (such as power-law behaviours). Additional advances are stimulated by the computational challenges in dealing with large dimensional data, requiring the development of bespoke inference strategies. We envision several possible approaches: variational inference (Blei and Jordan, 2006) replaces costly Markov chain Monte Carlo sampling by a high-dimensional optimisation problem for which efficient algorithms such as stochastic gradient descent may be used. Approximate Bayesian computation (ABC) replaces unfeasible likelihood evaluations, which may occur when modelling data with complex latent discrete structures (e.g. trees), by a large number of simulations. We have used ABC in the context of Bayesian nonparametric models and of inverse problems respectively in Kon Kam King et al. (2019) and Forbes et al. (2021). An efficient implementation of approximate Bayesian computation strategies will entail particular efforts in parallelisation and high-performance computing. Finally, when possible, we will also investigate the possibility of analytical approximations of Bayesian nonparametric processes, for which finite-size and asymptotic approximations have been shown to give good results (Bystrova et al., 2021).
The main biological application which will be addressed in this thesis will be to describe the diversity observed in metagenomic data and its relation to covariates. The type of metagenomic data considered can include environmental DNA (eDNA), describing for instance how the composition of soil microbial communities relates to environmental pollution (Arbel et al., 2016), or shotgun metagenomic data characterising the microbial composition of several compartments (milk, air, grass, cheese) in an agroecological cheese production line (TANDEM project, see below). We have access to a couple of rich datasets to carry out this application: (i) the StatInfOmics team is involved in the project TANDEM, supported by the INRAE flagship project HOLOFLUX. This project aims to study bacterial fluxes inside agro-ecological systems for cheese production, from grazing material to cheese through cows and milk. This involvement will present multiple opportunities for tackling interesting biological questions, analyse original data and develop mature and practical methodology directly benefiting areas of interest to INRAE; (ii) eDNA data sampled at study sites in the northern French Alps thanks to collaborations of Daria Bystrova and Julyan Arbel with Wilfried Thuiller at LECA. This study sites belong to the long-term observatory ORCHAMP (https://orchamp.osug.fr/home), which aims to observe, understand and model biodiversity and ecosystem functioning over space and time.
References
Arbel, J. (2019). Bayesian Statistical Learning and Applications. HDR thesis, Universit ́e Grenoble-Alpes.
Arbel, J., Kon Kam King, G., Lijoi, A., Nieto-Barajas, L. E., and Pr ̈unster, I. (2021). BNPdensity: Bayesian
nonparametric mixture modeling in R. Australian & New Zealand Journal of Statistics, in press.
Arbel, J., Mengersen, K., and Rousseau, J. (2016). Bayesian nonparametric dependent model for par-
tially replicated data: The influence of fuel spills on species diversity. The Annals of Applied Statistics,
10(3):1496–1516.
Blei, D. M. and Jordan, M. I. (2006). Variational inference for Dirichlet process mixtures. Bayesian Analysis,
1(1).
Bystrova, D., Arbel, J., Kon Kam King, G., and Deslandes, F. (2021). Approximating the clusters’ prior dis-
tribution in Bayesian nonparametric models. In Third Symposium on Advances in Approximate Bayesian
Inference.
Cowart, D. A., Murphy, K. R., and Cheng, C.-H. C. (2018). Metagenomic sequencing of environmental DNA
reveals marine faunal assemblages from the West Antarctic Peninsula. Marine Genomics, 37:148–160.
Forbes, F., Nguyen, H. D., Nguyen, T. T., and Arbel, J. (2021). Approximate Bayesian computation with
surrogate posteriors. Submitted.
Kon Kam King, G., Arbel, J., and Pr ̈unster, I. (2017). Bayesian Statistics in Action, chapter A Bayesian non-
parametric approach to ecological risk assessment, pages 151–159. Springer Proceedings in Mathematics
& Statistics, Volume 194. Springer International Publishing, Editors: Raffaele Argiento et al.
Kon Kam King, G., Canale, A., and Ruggiero, M. (2019). Bayesian functional forecasting with locally-
autoregressive dependent processes. Bayesian Analysis, 14(4):1121–1141.
Lee, J., M ̈uller, P., Gulukota, K., and Ji, Y. (2015). A Bayesian feature allocation model for tumor hetero-
geneity. The Annals of Applied Statistics, 9(2):621–639.
Nik-Zainal, S., Van Loo, P., Wedge, D. C., Alexandrov, L. B., Greenman, C. D., Lau, K. W., Raine, K.,
Jones, D., Marshall, J., Ramakrishna, M., Shlien, A., Cooke, S. L., Hinton, J., Menzies, A., Stebbings,
L. A., Leroy, C., Jia, M., Rance, R., Mudie, L. J., Gamble, S. J., Stephens, P. J., McLaren, S., Tarpey,
P. S., Papaemmanuil, E., Davies, H. R., Varela, I., McBride, D. J., Bignell, G. R., Leung, K., Butler,
A. P., Teague, J. W., Martin, S., J ̈onsson, G., Mariani, O., Boyault, S., Miron, P., Fatima, A., Langerød,
A., Aparicio, S. A. J. R., Tutt, A., Sieuwerts, A. M., Borg, ̊A., Thomas, G., Salomon, A. V., Richardson,
A. L., Børresen-Dale, A.-L., Futreal, P. A., Stratton, M. R., and Campbell, P. J. (2012). The Life History
of 21 Breast Cancers. Cell, 149(5):994–1007.
Roth, A., Khattra, J., Yap, D., Wan, A., Laks, E., Biele, J., Ha, G., Aparicio, S., Bouchard-Côté, A.,
and Shah, S. P. (2014). PyClone: Statistical inference of clonal population structure in cancer. Nature
Methods, 11(4):396–398.
Van Rossum, T., Ferretti, P., Maistrenko, O. M., and Bork, P. (2020). Diversity within species: Interpreting
strains in microbiomes. Nature Reviews Microbiology, 18(9):491–506.
Le développement d’algorithmes efficaces et parcimonieux en matière de ressources informatiques et leur implémentation sous forme de logiciels faciles à utiliser ont un très fort impact sur la communauté des sciences de la vie. Ces logiciels sont largement utilisés par de très nombreuses équipes de par le monde.
L’objectif de cette thèse est de se focaliser sur ces cas difficiles et de développer des algorithmes adaptés à cette complexité à la fois pour l’assemblage et pour l’alignement à partir de données de séquençage de 3e génération. Une attention particulière sera portée au passage à l’échelle de ces logiciels lorsqu’on est amené à analyser des données génomiques eucaryotes. En moyenne, il existe un facteur 1000 entre les longueurs des génomes de procaryotes et d’eucaryotes « caractéristiques », ce qui impose de très fortes contraintes sur le choix des algorithmes à implémenter tant en matière de vitesse d’exécution du programme que de mémoire vive utilisée. Il est vraisemblable qu’un travail important de parallélisation massive du code sera nécessaire pour obtenir de bonnes performances dans ce cas.
Directeur.trice : R. Andonov INRIA - J-F Gibrat INRAE - Encadrant(s) : D Lavenier (INRIA) - Equipes : StatInfOmicsLes systèmes de culture continue en bioréacteurs restent, malgré leur intérêt, peu utilisés dans les laboratoires de microbiologie. L’objectif de ce projet de thèse est de faciliter leur mise en œuvre en proposant un nouveau système modulaire de mini-bioréacteurs pilotés par ordinateur en s’appuyant sur les opportunités offertes par l’essor des technologies de fabrication numérique et des microcontrôleurs programmables. Les volumes de culture visés sont de l’ordre de 5 à 10 mL afin de permettre des plans d’expériences complexes pouvant impliquer de nombreux bioréacteurs (en parallèle, en cascade, avec suivi et contrôle en temps réel, ...). Comme preuves de concept, plusieurs applications chez la bactérie Gram-positive Bacillus subtilis sont envisagées aussi bien dans des contextes d’évolution expérimentale et dirigée que pour des études physiologiques s’appuyant sur de la comparaison de transcriptomes.
Directeur.trice : P. Nicolas - Encadrant(s) : M. Jules (Micalis) - Equipes : StatInfOmicsLe projet de thèse proposé s’inscrit dans une démarche interdisciplinaire et un contexte de sciences ouvertes et participatives. Il vise à concevoir et mettre en œuvre des approches bioinformatiques et numériques innovantes pour analyser, comparer, interpréter et diffuser des jeux de données de données (meta)génomiques d’écosystèmes alimentaires fermentaires. La thèse s’appuiera pour ce travail sur les données du projet de science participative FLEGME (2019-2022) qui a pour objectif (i) d’évaluer la diversité des écosystèmes microbiens associés aux légumes fermentés fournis par des citoyens- fermenteurs et (ii) de documenter l’impact des pratiques de transformation sur la composition de l’écosystème fermentaire à partir d’échantillons produits par des petites entreprises spécialisées. Une première partie de la thèse consistera à travailler sur la conception d’un workflow bioinformatique ouvert et reproductible permettant de décrire, comparer et représenter la diversité des espèces et souches microbiennes présentes dans les échantillons de microbiotes d’aliments fermentés du projet Flegme en utilisant des modes de représentations adaptés à différents publics cibles (scientifiques, citoyens, professionnels du secteur). Une deuxième partie de la thèse ciblera la constitution de jeux de données génomiques de référence sur des espèces clé de la fermentation végétale à partir de données publiques ou produites dans le cadre de la thèse. Ce travail, qui s’inscrit dans une démarche d’ouverture des données de la recherche, s'accompagnera d’une réflexion sur la publication des métadonnées associées à ces jeux de données. La troisième partie de la thèse s’appuiera sur les jeux de données construits précédemment pour caractériser le potentiel métabolique des microbiotes associés à des fermentations alimentaires en reliant les informations phylogénétiques, les données génomiques et les analyses de métabolites produites sur les échantillons du projet Flegme. Enfin, la dernière partie de la thèse sera consacrée à la mise en place d’une démarche générique pour travailler avec un public non spécialiste sur les modalités de diffusion des résultats des analyses de diversité microbienne et du potentiel métabolique associé obtenus dans le projet FLEGME, dans une démarche de médiation des sciences et un contexte de sciences participatives.
Directeur.trice : Hélène Chiapello, Stéphane Chaillou - Encadrant(s) : Hélène Chiapello, Stéphane Chaillou, Michel-Yves Mistou, Florence Valence-Bertel - Equipes : StatInfOmics
L'antibiorésistance est un problème de santé publique et de nouveaux médicaments sont nécessaires de toute urgence. Un défi majeur pour une conception efficace du médicament est de trouver la cible bactérienne appropriée. Dans cette optique, le projet de thèse de Samantha Samson se concentre sur Mfd -Mutation frequency decline- une cible protéique nouvelle et innovante que nous avons identifiée. Il vise à caractériser in silico les pharmacophores i.e le profil structure/fonction/activité des molécules prometteuses que nous avons validées in vitro. Il veut étendre leur spectre d'inhibition depuis les cibles de E. coli (Gram-) et B. cereus (Gram+) aux cibles du groupe ESKAPE, considérées comme pathogènes prioritaires par l'OMS. In fine, cette caractérisation mènera à potentialiser les molécules en candidats médicaments tout en élargissant leur spectre d'action sur des bactéries particulièrement résistances aux antibiotiques. La thèse se fera à MaIAGE, en biologie structurale moléculaire et computationnelle sous la direction de Gwenaëlle André. Par ailleurs, elle se fera en interaction constante avec les expériences in vitro et in vivo menées à Micalis dans l'équipe Pims dirigée par Nalini Rama Rao. |