Liste thĂšses en cours

: Bayesian nonparametric methods for complex genomic data - - DĂ©but de la thĂšse :

The aim of this thesis is to develop and analyse Bayesian nonparametric models to explore diversity in metagenomic data. This involves 1) furthering the knowledge about the fundamental properties of existing Bayesian nonparametric processes, 2) using them as building blocks to develop flexible models for noisy and high-dimensional data and 3) designing efficient and scalable inference algorithms, via parallelisation, optimisation and/or careful approximations.

The conceptual framework of Bayesian nonparametric models is particularly well-suited to describe complex and noisy data such as metagenomic data. Such data represent a crucial tool to explore the diversity of environments, such as marine environments (with environmental DNA, Cowart et al., 2018), human body (Van Rossum et al., 2020), tumor diversity (Nik-Zainal et al., 2012) or virus strain diversity. They are inherently large dimensional, suffer from multiple sources of noise, exhibit a complex latent structure (clusters, tree, network) and present challenges for which Bayesian nonparametric approaches have been recognised as promising, e.g. Lee et al. (2015); Roth et al. (2014). Bayesian nonparametric approaches are particularly interesting for complex data because they naturally account for uncertainty about the precise data generating mechanism, allowing flexibility in crucial aspects such as the functional form of the dependence to covariates, the error model, or the size of the latent space. On top of this, the Bayesian framework allows carrying this uncertainty seamlessly into the estimation uncertainty or real-time prediction uncertainty.

Moreover, addressing concrete biological questions often stimulates the development of new Bayesian nonparametric processes, for instance because standard processes such as the Dirichlet process are sometimes too simplistic and fail to describe certain patterns in the data (such as power-law behaviours). Additional advances are stimulated by the computational challenges in dealing with large dimensional data, requiring the development of bespoke inference strategies. We envision several possible approaches: variational inference (Blei and Jordan, 2006) replaces costly Markov chain Monte Carlo sampling by a high-dimensional optimisation problem for which efficient algorithms such as stochastic gradient descent may be used. Approximate Bayesian computation (ABC) replaces unfeasible likelihood evaluations, which may occur when modelling data with complex latent discrete structures (e.g. trees), by a large number of simulations. We have used ABC in the context of Bayesian nonparametric models and of inverse problems respectively in Kon Kam King et al. (2019) and Forbes et al. (2021). An efficient implementation of approximate Bayesian computation strategies will entail particular efforts in parallelisation and high-performance computing. Finally, when possible, we will also investigate the possibility of analytical approximations of Bayesian nonparametric processes, for which finite-size and asymptotic approximations have been shown to give good results (Bystrova et al., 2021).

The main biological application which will be addressed in this thesis will be to describe the diversity observed in metagenomic data and its relation to covariates. The type of metagenomic data considered can include environmental DNA (eDNA), describing for instance how the composition of soil microbial communities relates to environmental pollution (Arbel et al., 2016), or shotgun metagenomic data characterising the microbial composition of several compartments (milk, air, grass, cheese) in an agroecological cheese production line (TANDEM project, see below). We have access to a couple of rich datasets to carry out this application: (i) the StatInfOmics team is involved in the project TANDEM, supported by the INRAE flagship project HOLOFLUX. This project aims to study bacterial fluxes inside agro-ecological systems for cheese production, from grazing material to cheese through cows and milk. This involvement will present multiple opportunities for tackling interesting biological questions, analyse original data and develop mature and practical methodology directly benefiting areas of interest to INRAE; (ii) eDNA data sampled at study sites in the northern French Alps thanks to collaborations of Daria Bystrova and Julyan Arbel with Wilfried Thuiller at LECA. This study sites belong to the long-term observatory ORCHAMP (, which aims to observe, understand and model biodiversity and ecosystem functioning over space and time.



Arbel, J. (2019). Bayesian Statistical Learning and Applications. HDR thesis, Universit ́e Grenoble-Alpes.
Arbel, J., Kon Kam King, G., Lijoi, A., Nieto-Barajas, L. E., and Pr ̈unster, I. (2021). BNPdensity: Bayesian
nonparametric mixture modeling in R. Australian & New Zealand Journal of Statistics, in press.
Arbel, J., Mengersen, K., and Rousseau, J. (2016). Bayesian nonparametric dependent model for par-
tially replicated data: The influence of fuel spills on species diversity. The Annals of Applied Statistics,
Blei, D. M. and Jordan, M. I. (2006). Variational inference for Dirichlet process mixtures. Bayesian Analysis,
Bystrova, D., Arbel, J., Kon Kam King, G., and Deslandes, F. (2021). Approximating the clusters’ prior dis-
tribution in Bayesian nonparametric models. In Third Symposium on Advances in Approximate Bayesian
Cowart, D. A., Murphy, K. R., and Cheng, C.-H. C. (2018). Metagenomic sequencing of environmental DNA
reveals marine faunal assemblages from the West Antarctic Peninsula. Marine Genomics, 37:148–160.
Forbes, F., Nguyen, H. D., Nguyen, T. T., and Arbel, J. (2021). Approximate Bayesian computation with
surrogate posteriors. Submitted.
Kon Kam King, G., Arbel, J., and Pr ̈unster, I. (2017). Bayesian Statistics in Action, chapter A Bayesian non-
parametric approach to ecological risk assessment, pages 151–159. Springer Proceedings in Mathematics
& Statistics, Volume 194. Springer International Publishing, Editors: Raffaele Argiento et al.
Kon Kam King, G., Canale, A., and Ruggiero, M. (2019). Bayesian functional forecasting with locally-
autoregressive dependent processes. Bayesian Analysis, 14(4):1121–1141.
Lee, J., M ̈uller, P., Gulukota, K., and Ji, Y. (2015). A Bayesian feature allocation model for tumor hetero-
geneity. The Annals of Applied Statistics, 9(2):621–639.
Nik-Zainal, S., Van Loo, P., Wedge, D. C., Alexandrov, L. B., Greenman, C. D., Lau, K. W., Raine, K.,
Jones, D., Marshall, J., Ramakrishna, M., Shlien, A., Cooke, S. L., Hinton, J., Menzies, A., Stebbings,
L. A., Leroy, C., Jia, M., Rance, R., Mudie, L. J., Gamble, S. J., Stephens, P. J., McLaren, S., Tarpey,
P. S., Papaemmanuil, E., Davies, H. R., Varela, I., McBride, D. J., Bignell, G. R., Leung, K., Butler,
A. P., Teague, J. W., Martin, S., J ̈onsson, G., Mariani, O., Boyault, S., Miron, P., Fatima, A., LangerĂžd,
A., Aparicio, S. A. J. R., Tutt, A., Sieuwerts, A. M., Borg, ̊A., Thomas, G., Salomon, A. V., Richardson,
A. L., BĂžrresen-Dale, A.-L., Futreal, P. A., Stratton, M. R., and Campbell, P. J. (2012). The Life History
of 21 Breast Cancers. Cell, 149(5):994–1007.
Roth, A., Khattra, J., Yap, D., Wan, A., Laks, E., Biele, J., Ha, G., Aparicio, S., Bouchard-CÎté, A.,
and Shah, S. P. (2014). PyClone: Statistical inference of clonal population structure in cancer. Nature
Methods, 11(4):396–398.
Van Rossum, T., Ferretti, P., Maistrenko, O. M., and Bork, P. (2020). Diversity within species: Interpreting
strains in microbiomes. Nature Reviews Microbiology, 18(9):491–506.

Directeur.trice : ARBEL Julyan, KON KAM KING Guillaume - Equipes : StatInfOmics

: Le microbiote au cƓur des interactions Brassica napus x Delia radicum - Écologie, GĂ©osciences, Agronomie et Alimentation (EGAAL) - DĂ©but de la thĂšse :
Directeur.trice : C. Mougel - Encadrant(s) : S. Derocles, M. Mariadassou - Equipes : StatInfOmics

GUÉRIN Cyprien
: Conception et mise en Ɠuvre d’un systĂšme modulaire de mini-biorĂ©acteurs pour la culture continue de microorganismes - ED577 SDSV - DĂ©but de la thĂšse :

Les systĂšmes de culture continue en biorĂ©acteurs restent, malgrĂ© leur intĂ©rĂȘt, peu utilisĂ©s dans les laboratoires de microbiologie. L’objectif de ce projet de thĂšse est de faciliter leur mise en Ɠuvre en proposant un nouveau systĂšme modulaire de mini-biorĂ©acteurs pilotĂ©s par ordinateur en s’appuyant sur les opportunitĂ©s offertes par l’essor des technologies de fabrication numĂ©rique et des microcontrĂŽleurs programmables. Les volumes de culture visĂ©s sont de l’ordre de 5 Ă  10 mL afin de permettre des plans d’expĂ©riences complexes pouvant impliquer de nombreux biorĂ©acteurs (en parallĂšle, en cascade, avec suivi et contrĂŽle en temps rĂ©el, ...). Comme preuves de concept, plusieurs applications chez la bactĂ©rie Gram-positive Bacillus subtilis sont envisagĂ©es aussi bien dans des contextes d’évolution expĂ©rimentale et dirigĂ©e que pour des Ă©tudes physiologiques s’appuyant sur de la comparaison de transcriptomes.

Directeur.trice : P. Nicolas - Encadrant(s) : M. Jules (Micalis) - Equipes : StatInfOmics

: Diversité génomique et fonctionnelle des communautés bactériennes associées aux produits végétaux fermentés : une approche interdisciplinaire incluant métagénomique et bioinformatique dans un contexte de recherche-action participative - SDSV - Début de la thÚse :

Le projet de thèse proposé s’inscrit dans une démarche interdisciplinaire et un contexte de sciences ouvertes et participatives. Il vise à concevoir et mettre en Ɠuvre des approches bioinformatiques et numériques innovantes pour analyser, comparer, interpréter et diffuser des jeux de données de données (meta)génomiques d’écosystèmes alimentaires fermentaires. La thèse s’appuiera pour ce travail sur les données du projet de science participative FLEGME (2019-2022) qui a pour objectif (i) d’évaluer la diversité des écosystèmes microbiens associés aux légumes fermentés fournis par des citoyens- fermenteurs et (ii) de documenter l’impact des pratiques de transformation sur la composition de l’écosystème fermentaire à partir d’échantillons produits par des petites entreprises spécialisées. Une première partie de la thèse consistera à travailler sur la conception d’un workflow bioinformatique ouvert et reproductible permettant de décrire, comparer et représenter la diversité des espèces et souches microbiennes présentes dans les échantillons de microbiotes d’aliments fermentés du projet Flegme en utilisant des modes de représentations adaptés à différents publics cibles (scientifiques, citoyens, professionnels du secteur). Une deuxième partie de la thèse ciblera la constitution de jeux de données génomiques de référence sur des espèces clé de la fermentation végétale à partir de données publiques ou produites dans le cadre de la thèse. Ce travail, qui s’inscrit dans une démarche d’ouverture des données de la recherche, s'accompagnera d’une réflexion sur la publication des métadonnées associées à ces jeux de données. La troisième partie de la thèse s’appuiera sur les jeux de données construits précédemment pour caractériser le potentiel métabolique des microbiotes associés à des fermentations alimentaires en reliant les informations phylogénétiques, les données génomiques et les analyses de métabolites produites sur les échantillons du projet Flegme. Enfin, la dernière partie de la thèse sera consacrée à la mise en place d’une démarche générique pour travailler avec un public non spécialiste sur les modalités de diffusion des résultats des analyses de diversité microbienne et du potentiel métabolique associé obtenus dans le projet FLEGME, dans une démarche de médiation des sciences et un contexte de sciences participatives.

Directeur.trice : HélÚne Chiapello, Stéphane Chaillou - Encadrant(s) : HélÚne Chiapello, Stéphane Chaillou, Michel-Yves Mistou, Florence Valence-Bertel - Equipes : StatInfOmics

: Statistical analysis of methylation patterns from S. meliloti - University of Florence ComBo - DĂ©but de la thĂšse :

The primary focus of our collaborative efforts will be on the statistical analysis of methylation data derived from Pac-Bio-sequenced DNA. The overarching goal is to develop a robust machine learning and statistical model that will pro-vide mathematical insights into the underlying biological processes reflected in the data.

More specifically the project will involve a comprehensive analysis of methylation data obtained through PacBio se-quencing technology. This cutting-edge technique offers a high-resolution view of DNA methylation patterns, provid-ing a wealth of information about epigenetic modifications. The ultimate objective is to unravel the intricate relation-ships between methylation patterns (i.e., methylation of DNA motifs) and biological processes in the symbiotic nitro-gen-fixing alphaproteobacterium Sinorhizobium meliloti. Strains of this species exhibit a multipartite genome struc-ture, comprising a chromosome, a chromid, and a megaplasmid: the pronounced genomic and phenotypic variation observed in these strains positions them as exemplary models for investigating evolutionary hypotheses concerning the interplay between epigenomic signatures, genome structure evolution, and phenotypic transitions. Moreover, since its capability of conducting symbiotic nitrogen fixation upon interacting with legume hosts such as the Medica-go plant, S. meliloti represents an element of strong interest for the agritech field and for green revolution technolo-gies applications.


1. Data Collection and Preprocessing:

Acquirement of PacBio sequencing data from S. meliloti.

Quality control and preprocessing steps to ensure data integrity.


2. Feature Selection and Extraction:

Implement quality control measures to eliminate noise and irrelevant information.

Develop methods for extracting meaningful features from the raw data.

Identify relevant features that contribute significantly to the methylation patterns (MeStudio software).


3. Model Development:

Utilize machine learning techniques to build a predictive model.

Implement statistical methods to quantify the relationships between methylation patterns and biological factors.

Validate and refine the model through iterative testing and optimization.


4. Mathematical Insight and Interpretation:

Derive mathematical insights from the developed model.

Interpret the findings in the context of biological processes and phenomena.

Collaborate closely with the scientific group to ensure the biological relevance of the mathematical insights.


5. Documentation and Reporting:

Maintain detailed documentation of the entire process, including methodologies and code.

Provide regular updates to the scientific group on progress, challenges, and potential solutions.

Generate a comprehensive final report summarizing the methodology, results, and implications of the study.

Directeur.trice : Alessio Mengoni - Encadrant(s) : G. Kon Kam King, G. Gautreau, H. Chiapelo - Equipes : StatInfOmics

PETY SolĂšne
: MĂ©thodes hologĂ©nomiques pour prendre en compte le microbiote de l’hĂŽte dans les Ă©valuations gĂ©nĂ©tiques - ED581 ABIES - DĂ©but de la thĂšse :

Les animaux et leur microbiote forment un organisme composite, appelĂ© holobionte, qui peut ĂȘtre considĂ©rĂ© comme l'unitĂ© ultime sur laquelle agissent l'Ă©volution et la sĂ©lection. Les gĂšnes de l'hĂŽte et l'environnement influent sur la colonisation, le dĂ©veloppement et le fonctionnement des divers microbiotes, qui en retour contribuent Ă  façonner les phĂ©notypes de l'hĂŽte. De plus le microbiote est Ă©galement transmis de la mĂšre au descendant (par exemple, lors de la mise-bas, de l’allaitement et des soins maternels chez les mammifĂšres), ce dernier participe ainsi Ă  la transmission non-gĂ©nĂ©tique des phĂ©notypes. Un enjeu majeur pour la sĂ©lection animale est donc le dĂ©veloppement des approches hologĂ©nomiques intĂ©gratives capables d’analyser conjointement les ensembles de donnĂ©es gĂ©nomiques de l'hĂŽte et de son microbiote, ainsi que les phĂ©notypes et les paramĂštres environnementaux dans lesquels Ă©voluent les holobiontes. De telles mĂ©thodes sont prometteuses pour apporter une amĂ©lioration de la prĂ©cision de prĂ©diction et la comprĂ©hension des caractĂšres impliquĂ©s dans l'adaptation des animaux aux systĂšmes de production agroĂ©cologique chez diffĂ©rentes espĂšces d'intĂ©rĂȘt agronomique. Dans ce cadre, ce projet de thĂšse se focalise sur le dĂ©veloppement, optimisation, et Ă©valuation de mĂ©thodes intĂ©gratives permettant de prendre en compte simultanĂ©ment la variabilitĂ© gĂ©nomique et les indicateurs mĂ©tagĂ©nomiques de l’hĂŽte, ainsi que leur interaction. Ce projet contribuera Ă  Ă©tablir des lignes directrices claires pour la simulation de donnĂ©es hologĂ©nomiques rĂ©alistes, la construction de matrices de similaritĂ© basĂ©es sur le microbiote, et la combinaison optimale de donnĂ©es gĂ©nomiques, microbiotes, et multi-omiques dans une grande variĂ©tĂ© de scenarios.

Directeur.trice : Andrea Rau - Encadrant(s) : Mahendra Mariadassou, Ingrid David - Equipes : StatInfOmics

Procope-Mamert Sylvain
: Algorithmes d'inférence pour des modÚles de Markov cachés hiérarchiques à observations non linéaires - applications à l'analyse de données omiques suivies au cours du temps. - ED574 EDMH - Début de la thÚse :
Les travaux conduits dans cette thĂšse porteront sur des modĂšles de Markov cachĂ©s hiĂ©rarchiques Ă  observations non linĂ©aires pour dĂ©crire les mĂ©canismes sous-jacents Ă  l’observation de sĂ©quences temporelles avec une dĂ©pendance spatiale. Ces modĂšles sont intĂ©ressants dans de nombreuses applications, notamment pour l’analyse de donnĂ©es omiques rĂ©solues en temps, qui prĂ©sentent souvent une dĂ©pendance spatiale le long du gĂ©nome. Estimer les paramĂštres qui rĂ©gissent les dynamiques temporelles et reconstruire les Ă©tats cachĂ©s du modĂšle sont des questions cruciales en pratique car elles permettent d’accĂ©der Ă  une meilleure comprĂ©hension des mĂ©canismes physiques ou biologiques Ă  l'oeuvre dans la gĂ©nĂ©ration des donnĂ©es. On s’intĂ©ressera plus spĂ©cifiquement au cas oĂč les dynamiques temporelles observĂ©es sont non-linĂ©aires et oĂč les Ă©tats cachĂ©s combinent des composantes discrĂštes et des composantes continues. Dans ce contexte peu abordĂ© dans la littĂ©rature, la fonction de vraisemblance n’est pas classique et empĂȘche l'utilisation des mĂ©thodes standard (Kalman/Baum-Welch). Dans cette thĂšse, on se propose de dĂ©velopper des algorithmes pour estimer les paramĂštres et reconstruire les Ă©tats cachĂ©s Ă  partir des sĂ©quences observĂ©es, en Ă©tudiant leurs propriĂ©tĂ©s thĂ©oriques et leur implĂ©mentation pratique. On se placera dans le cadre BayĂ©sien qui permet une quantification naturelle de l'incertitude d'estimation. 
Ces travaux sont notamment motivés par des données originales de transcriptomique suivie au cours du temps, collectées par des partenaires du projet et qui permettront une application directe des premiers travaux réalisés.
Directeur.trice : Nicolas CHOPIN, Maud DELATTRE et Guillaume KON KAM KING - Equipes : Dynenvie, Equipes : StatInfOmics

SAMSON Samantha
: "Potentiation in silico de molĂ©cules hits sur la M-target​" - ED577 SDSV - DĂ©but de la thĂšse :


L'antibiorésistance est un problÚme de santé publique et de nouveaux médicaments sont nécessaires de toute urgence. Un défi majeur pour une conception efficace du médicament est de trouver la cible bactérienne appropriée. Dans cette optique, le projet de thÚse de Samantha Samson se concentre sur Mfd -Mutation frequency decline- une cible protéique nouvelle et innovante que nous avons identifiée. Il vise à caractériser in silico les pharmacophores i.e le profil structure/fonction/activité des molécules prometteuses que nous avons validées in vitro. Il veut étendre leur spectre d'inhibition depuis les cibles de E. coli (Gram-) et B. cereus (Gram+) aux cibles du groupe ESKAPE, considérées comme pathogÚnes prioritaires par l'OMS. In fine, cette caractérisation mÚnera à potentialiser les molécules en candidats médicaments tout en élargissant leur spectre d'action sur des bactéries particuliÚrement résistances aux antibiotiques. La thÚse se fera à MaIAGE, en biologie structurale moléculaire et computationnelle sous la direction de Gwenaëlle André. Par ailleurs, elle se fera en interaction constante avec les expériences in vitro et in vivo menées à Micalis dans l'équipe Pims dirigée par Nalini Rama Rao. 

Directeur.trice : Gwenaëlle André - Encadrant(s) : Gwenaëlle André et Nalini Rama Rao - Equipes : StatInfOmics