Thèses en cours

: Bayesian nonparametric methods for complex genomic data - - Début de la thèse :

The aim of this thesis is to develop and analyse Bayesian nonparametric models to explore diversity in metagenomic data. This involves 1) furthering the knowledge about the fundamental properties of existing Bayesian nonparametric processes, 2) using them as building blocks to develop flexible models for noisy and high-dimensional data and 3) designing efficient and scalable inference algorithms, via parallelisation, optimisation and/or careful approximations.

The conceptual framework of Bayesian nonparametric models is particularly well-suited to describe complex and noisy data such as metagenomic data. Such data represent a crucial tool to explore the diversity of environments, such as marine environments (with environmental DNA, Cowart et al., 2018), human body (Van Rossum et al., 2020), tumor diversity (Nik-Zainal et al., 2012) or virus strain diversity. They are inherently large dimensional, suffer from multiple sources of noise, exhibit a complex latent structure (clusters, tree, network) and present challenges for which Bayesian nonparametric approaches have been recognised as promising, e.g. Lee et al. (2015); Roth et al. (2014). Bayesian nonparametric approaches are particularly interesting for complex data because they naturally account for uncertainty about the precise data generating mechanism, allowing flexibility in crucial aspects such as the functional form of the dependence to covariates, the error model, or the size of the latent space. On top of this, the Bayesian framework allows carrying this uncertainty seamlessly into the estimation uncertainty or real-time prediction uncertainty.

Moreover, addressing concrete biological questions often stimulates the development of new Bayesian nonparametric processes, for instance because standard processes such as the Dirichlet process are sometimes too simplistic and fail to describe certain patterns in the data (such as power-law behaviours). Additional advances are stimulated by the computational challenges in dealing with large dimensional data, requiring the development of bespoke inference strategies. We envision several possible approaches: variational inference (Blei and Jordan, 2006) replaces costly Markov chain Monte Carlo sampling by a high-dimensional optimisation problem for which efficient algorithms such as stochastic gradient descent may be used. Approximate Bayesian computation (ABC) replaces unfeasible likelihood evaluations, which may occur when modelling data with complex latent discrete structures (e.g. trees), by a large number of simulations. We have used ABC in the context of Bayesian nonparametric models and of inverse problems respectively in Kon Kam King et al. (2019) and Forbes et al. (2021). An efficient implementation of approximate Bayesian computation strategies will entail particular efforts in parallelisation and high-performance computing. Finally, when possible, we will also investigate the possibility of analytical approximations of Bayesian nonparametric processes, for which finite-size and asymptotic approximations have been shown to give good results (Bystrova et al., 2021).

The main biological application which will be addressed in this thesis will be to describe the diversity observed in metagenomic data and its relation to covariates. The type of metagenomic data considered can include environmental DNA (eDNA), describing for instance how the composition of soil microbial communities relates to environmental pollution (Arbel et al., 2016), or shotgun metagenomic data characterising the microbial composition of several compartments (milk, air, grass, cheese) in an agroecological cheese production line (TANDEM project, see below). We have access to a couple of rich datasets to carry out this application: (i) the StatInfOmics team is involved in the project TANDEM, supported by the INRAE flagship project HOLOFLUX. This project aims to study bacterial fluxes inside agro-ecological systems for cheese production, from grazing material to cheese through cows and milk. This involvement will present multiple opportunities for tackling interesting biological questions, analyse original data and develop mature and practical methodology directly benefiting areas of interest to INRAE; (ii) eDNA data sampled at study sites in the northern French Alps thanks to collaborations of Daria Bystrova and Julyan Arbel with Wilfried Thuiller at LECA. This study sites belong to the long-term observatory ORCHAMP (, which aims to observe, understand and model biodiversity and ecosystem functioning over space and time.



Arbel, J. (2019). Bayesian Statistical Learning and Applications. HDR thesis, Universit ́e Grenoble-Alpes.
Arbel, J., Kon Kam King, G., Lijoi, A., Nieto-Barajas, L. E., and Pr ̈unster, I. (2021). BNPdensity: Bayesian
nonparametric mixture modeling in R. Australian & New Zealand Journal of Statistics, in press.
Arbel, J., Mengersen, K., and Rousseau, J. (2016). Bayesian nonparametric dependent model for par-
tially replicated data: The influence of fuel spills on species diversity. The Annals of Applied Statistics,
Blei, D. M. and Jordan, M. I. (2006). Variational inference for Dirichlet process mixtures. Bayesian Analysis,
Bystrova, D., Arbel, J., Kon Kam King, G., and Deslandes, F. (2021). Approximating the clusters’ prior dis-
tribution in Bayesian nonparametric models. In Third Symposium on Advances in Approximate Bayesian
Cowart, D. A., Murphy, K. R., and Cheng, C.-H. C. (2018). Metagenomic sequencing of environmental DNA
reveals marine faunal assemblages from the West Antarctic Peninsula. Marine Genomics, 37:148–160.
Forbes, F., Nguyen, H. D., Nguyen, T. T., and Arbel, J. (2021). Approximate Bayesian computation with
surrogate posteriors. Submitted.
Kon Kam King, G., Arbel, J., and Pr ̈unster, I. (2017). Bayesian Statistics in Action, chapter A Bayesian non-
parametric approach to ecological risk assessment, pages 151–159. Springer Proceedings in Mathematics
& Statistics, Volume 194. Springer International Publishing, Editors: Raffaele Argiento et al.
Kon Kam King, G., Canale, A., and Ruggiero, M. (2019). Bayesian functional forecasting with locally-
autoregressive dependent processes. Bayesian Analysis, 14(4):1121–1141.
Lee, J., M ̈uller, P., Gulukota, K., and Ji, Y. (2015). A Bayesian feature allocation model for tumor hetero-
geneity. The Annals of Applied Statistics, 9(2):621–639.
Nik-Zainal, S., Van Loo, P., Wedge, D. C., Alexandrov, L. B., Greenman, C. D., Lau, K. W., Raine, K.,
Jones, D., Marshall, J., Ramakrishna, M., Shlien, A., Cooke, S. L., Hinton, J., Menzies, A., Stebbings,
L. A., Leroy, C., Jia, M., Rance, R., Mudie, L. J., Gamble, S. J., Stephens, P. J., McLaren, S., Tarpey,
P. S., Papaemmanuil, E., Davies, H. R., Varela, I., McBride, D. J., Bignell, G. R., Leung, K., Butler,
A. P., Teague, J. W., Martin, S., J ̈onsson, G., Mariani, O., Boyault, S., Miron, P., Fatima, A., Langerød,
A., Aparicio, S. A. J. R., Tutt, A., Sieuwerts, A. M., Borg, ̊A., Thomas, G., Salomon, A. V., Richardson,
A. L., Børresen-Dale, A.-L., Futreal, P. A., Stratton, M. R., and Campbell, P. J. (2012). The Life History
of 21 Breast Cancers. Cell, 149(5):994–1007.
Roth, A., Khattra, J., Yap, D., Wan, A., Laks, E., Biele, J., Ha, G., Aparicio, S., Bouchard-Côté, A.,
and Shah, S. P. (2014). PyClone: Statistical inference of clonal population structure in cancer. Nature
Methods, 11(4):396–398.
Van Rossum, T., Ferretti, P., Maistrenko, O. M., and Bork, P. (2020). Diversity within species: Interpreting
strains in microbiomes. Nature Reviews Microbiology, 18(9):491–506.

Directeur.trice : ARBEL Julyan, KON KAM KING Guillaume - Equipes : StatInfOmics

: Modèles probabilistes spatialisés pour la propagation de pathogènes par les mouvements commerciaux d’animaux - ED574 EDMH - Début de la thèse :

Les mouvements commerciaux d’animaux constituent un vecteur privilégié pour la propagation de maladies infectieuses. En France, les exigences de traçabilité se sont traduites par la mise en place de bases de données nationales de suivi des animaux. Dans cette thèse, nous étudierons des modèles de graphes aléatoires spatialement explicites permettant de reproduire les interactions à courte et longue distance constatées empiriquement dans les mouvements commerciaux d’animaux. Nous nous placerons dans le cadre des réseaux scale-free percolation (SFP), qui combinent une inhomogénéité intrinsèque des nœuds avec un aléa dépendant de leur distance géographique. Nous établirons rigoureusement des relations générales entre les propriétés génératives du réseau (distance géographique et relations commerciales) et les caractéristiques des processus épidémiques qui s’y propagent. Nous combinerons ensuite les données de mouvements d’animaux avec des informations géographiques de haute résolution (SIG) pour aboutir à une représentation spatialisée des réseaux commerciaux d’animaux d’élevage permettant la calibration des modèles de graphes étudiés et l’étude de scénarios épidémiques variés.

Directeur.trice : Patrick Hoscheit et Elisabeta Vergu - Equipes : Dynenvie

BEREUX Stéphane
: Modéliser et prédire les modifications microbiennes associées à l’émergence de maladies - ED 574 EDMH - Début de la thèse :

La thèse a été arrêtée au 1er septembre 2023 suite au départ de Stéphane vers ses nouvelles aventures entrepreneuriales à l'issue de son année de césure. Plus d'infos sur

Directeur.trice : Mahendra Mariadassou - Encadrant(s) : Magali Berland, Sébastien Fromentin - Equipes : StatInfOmics

: Large-scale economic model of growing budding yeast - - Début de la thèse :
Directeur.trice : E. Klipp (Institut de Biophysique, Humboldt-Universität zu Berlin) - Encadrant(s) : W. Liebermeister (MaIAGE) - Equipes : BioSys

: Information extraction from textual data for epidemiosurveillance for plant health - ED580 STIC - Début de la thèse :

Le projet de thèse porte sur l’extraction automatique et la modélisation de connaissances à partir de données textuelles sur les facteurs déterminant l'émergence de maladies de plantes dans une perspective de prévention de risque. Parmi ces informations, la connaissance scientifique des habitats des pathogènes, de leurs hôtes, de leur vecteurs de transmission, mais aussi les phénotypes et conditions d'habitabilité est nécessaire à l'anticipation de propagation à moyen terme. De façon complémentaire, l'analyse des médias sociaux et des nouvelles des journaux en temps réel permet d'identifier des occurrences datées et géolocalisées pour une gestion à court terme. Ces informations sont dénotées par des expressions variables et souvent complexes. L’enjeu de la thèse est de les identifier dans les textes et de les normaliser en les reliant à la connaissance représentée dans les nomenclatures et ontologies du domaine. La normalisation contribue à la structuration de l'information textuelle et à son intégrabilité avec d'autres données structurées d'observation ou de simulation.
Les méthodes actuelles s’appuient sur l’apprentissage supervisé qui nécessite beaucoup d’exemples produits manuellement. Nous faisons l’hypothèse que combiner l’information terminologique et la connaissance disponible dans les domaines spécialisés avec les modèles d’apprentissage profond de plongements lexicaux (word embeddings) peut pallier l’absence ou le nombre réduit de données d'entraînement annotées. L'approche envisagée fusionne les deux étapes d'identification et de normalisation pour les optimiser conjointement. La thèse s'inscrit dans le cadre du projet ANR Beyond "Building epidemiological surveillance and prophylaxis with observations both near and distant"  et la collaboration de l'unité MaIAGE (INRAE, Université Paris-Saclay) et de l'unité Tetis (INRAE, CIRAD). Les résultats de la thèse, méthodes et logiciels seront diffusés sous licence libre. Les recherches du doctorant s'appuieront sur des résultats publics, articles scientifiques, logiciels libres et données publiques de "benchmark".

Directeur.trice : Claire Nédellec - Encadrant(s) : Claire Nédellec, Mathieu Roche, Arnaud Ferré, Robert Bossy - Equipes : Bibliome

: Estimation et sélection de variables dans un modèle joint de données de survie et longitudinales à effets mixtes corrélés. Application à la prédiction des effets des attaques de pyrale sur la date de floraison du maïs. - ED 574 EDMH - Début de la thèse :
Directeur.trice : Estelle Kuhn - Encadrant(s) : Estelle Kuhn, Sarah Lemler (CentraleSupelec MICS), Judith Legrand, Elodie Marchadier (INRAE GQE Le Moulon) - Equipes : Dynenvie

: Le microbiote au cœur des interactions Brassica napus x Delia radicum - Écologie, Géosciences, Agronomie et Alimentation (EGAAL) - Début de la thèse :
Directeur.trice : C. Mougel - Encadrant(s) : S. Derocles, M. Mariadassou - Equipes : StatInfOmics

EPAIN Victor
: Développement de méthodes efficaces, précises et conviviales pour corriger, assembler et aligner des lectures issues des technologies de séquençage 3e génération. - ED601 MathSTIC - Début de la thèse :

Le développement d’algorithmes efficaces et parcimonieux en matière de ressources informatiques et leur implémentation sous forme de logiciels faciles à utiliser ont un très fort impact sur la communauté des sciences de la vie. Ces logiciels sont largement utilisés par de très nombreuses équipes de par le monde.

L’objectif de cette thèse est de se focaliser sur ces cas difficiles et de développer des algorithmes adaptés à cette complexité à la fois pour l’assemblage et pour l’alignement à partir de données de séquençage de 3e génération. Une attention particulière sera portée au passage à l’échelle de ces logiciels lorsqu’on est amené à analyser des données génomiques eucaryotes.  En moyenne, il existe un facteur 1000 entre les longueurs des génomes de procaryotes et d’eucaryotes « caractéristiques », ce qui impose de très fortes contraintes sur le choix des algorithmes à implémenter tant en matière de vitesse d’exécution du programme que de mémoire vive utilisée. Il est vraisemblable qu’un travail important de parallélisation massive du code sera nécessaire pour obtenir de bonnes performances dans ce cas.

Directeur.trice : R. Andonov INRIA - J-F Gibrat INRAE - Encadrant(s) : D Lavenier (INRIA) - Equipes : StatInfOmics

: Le métabolisme bactérien comme réseau de neurones artificiels, pour la détection multiplexe de biomarqueurs d’agents pathogènes - ED577 SDSV - Début de la thèse :

Les microorganismes sont capables de détecter de nombreux signaux environnementaux simultanément, de les transmettre et de les traiter au travers de circuits complexes pour au final prendre des décisions, modifiant leurs phénotypes. L’objet de cette thèse est d’exploiter et de modifier les circuits décisionnels des microorganismes pour le développement d’outils diagnostics permettant la détection multiplexe de biomarqueurs d’agents pathogènes. Pour optimiser les modifications apportés aux circuits, nous allons exploiter la puissance de techniques modernes en intelligence artificielle, en les adaptant aux modèles métaboliques.

Directeur.trice : Jean-Loup Faulon - Encadrant(s) : Wolfram Liebermeister - Equipes : BioSys

: Tests des composantes de la variance dans les modèles à effets mixtes pour des petits échantillons. Application à l’étude de la variabilité génotypique chez Arabidopsis Thaliana. - EDMH - Début de la thèse :
Directeur.trice : Kuhn Estelle - Encadrant(s) : Kuhn Estelle et Baey Charlotte (Université de Lille) - Equipes : Dynenvie

GUÉRIN Cyprien
: Conception et mise en œuvre d’un système modulaire de mini-bioréacteurs pour la culture continue de microorganismes - ED577 SDSV - Début de la thèse :

Les systèmes de culture continue en bioréacteurs restent, malgré leur intérêt, peu utilisés dans les laboratoires de microbiologie. L’objectif de ce projet de thèse est de faciliter leur mise en œuvre en proposant un nouveau système modulaire de mini-bioréacteurs pilotés par ordinateur en s’appuyant sur les opportunités offertes par l’essor des technologies de fabrication numérique et des microcontrôleurs programmables. Les volumes de culture visés sont de l’ordre de 5 à 10 mL afin de permettre des plans d’expériences complexes pouvant impliquer de nombreux bioréacteurs (en parallèle, en cascade, avec suivi et contrôle en temps réel, ...). Comme preuves de concept, plusieurs applications chez la bactérie Gram-positive Bacillus subtilis sont envisagées aussi bien dans des contextes d’évolution expérimentale et dirigée que pour des études physiologiques s’appuyant sur de la comparaison de transcriptomes.

Directeur.trice : P. Nicolas - Encadrant(s) : M. Jules (Micalis) - Equipes : StatInfOmics

: Outils et méthodes pour la modélisation de la dynamique d’écosystèmes microbiens complexe à partir d’observations expérimentales temporelles : application à la dynamique du microbiote intestinal - ED574 EDMH - Début de la thèse :

Les microbiotes sont les communautés de microorganismes formées par des bactéries, phages, virus, archées, champignons associées à un hôte vivant, végétal, animal ou humain. Les microbiotes et leur hôte établissent un dialogue permanent qui joue un rôle crucial dans la physiologie et la santé de celui- ci. Par exemple, chez les mammifères et l’homme en particulier, les fonctions du tube digestif que sont la digestion ou la protection contre des pathogènes sont assurées de façon indissociable par les cellules épithéliales et immunitaires mais également par le microbiote intestinal. Il a été montré que le bénéfice mutuel (mutualisme) existant entre l’hôte et son microbiote intestinal est influencé par l’environnement, l’alimentation et plus généralement pour l’homme par le style de vie, et que l’altération de cet équilibre, appelée dysbiose, est associé à certains déséquilibres ou pathologies comme l’obésité et les maladies inflammatoires de l’intestin. La compréhension des déterminants et la détection de signes annonciateurs de ces déséquilibres, liés à la composition, la diversité, l’activité métabolique du microbiote et à la physiologie de l’hôte et son régime alimentaire, constituent donc un enjeu important en santé humaine et animale. Le sujet de thèse est construit à partir de cette problématique applicative, l’objectif est de développer des modèles, des méthodes et des outils mathématiques qui permettent de contribuer à la compréhension de la dynamique d’un ensemble formé par un écosystème microbien complexe et son hôte, et à la prédiction de sa composition et de son activité. Les applications concerneront essentiellement le microbiote du côlon chez l’homme ou la souris.

Le travail de thèse comprendra trois axes, le premier orienté vers la modélisation, le deuxième vers le développement de méthodes pour l’analyse de données et le troisième sera consacré à l’analyse effective de données en lien avec les modèles.

Le projet s’insère dans le collectif de recherche impliqué dans le projet ERC Homo.symbiosus du Pr Joël Doré membre de l’équipe FInE (Fonctionalité de l’écosystème Intestinal) à l’Institut MICALIS INRA-AgroParisTech. Ce collectif comprend des équipes de microbiologistes, bioinformaticiens et statisticiens, nutritionnistes et médecins à la pointe des recherches mondiales sur le microbiote intestinal humain.

Directeur.trice : Béatrice Laroche - Equipes : Dynenvie

INIZAN Olivier
: Structuration et liage des données biologiques guidés par les ontologies et les principes organisateurs de modèles mathématiques. - ED 580 STIC - Début de la thèse :

Dans le domaine de la biologie, l’arrivée des nouvelles technologies de séquençage a eu pour effet d’augmenter de façon conséquente la production des données tout en abaissant les coûts liés à leur production. En conséquence, les biologistes et les bio-informaticiens doivent aujourd’hui manipuler des quantités conséquentes de données dites « omiques ». Ces données sont pour la plupart obtenues en réponse à une question scientifique précise et pour un contexte précis d’expérience. D’un point de vue général, l'ensemble de ces données paraissent hétérogènes et isolées les unes des autres. De plus, bien que de nombreuses données aient été obtenues pour des organismes modèles, la capacité d’organiser ces données les une par rapport aux autres représente encore un défi. Une telle organisation présente pourtant plusieurs avantages. Elle permet par exemple d’éviter la perte d’information, ou encore d’envisager des nouvelles découvertes qui n’auraient pas eu lieu si les données étaient restées isolées les unes des autres.

De fait, les scientifiques ne disposent pas de représentation formelle du fonctionnement d’un  organisme dans son intégralité. Pourtant, à travers ce type de représentation, les liens sémantiques entre les données pourraient être formalisés, il serait alors possible de les organiser. Une représentation de ce genre peut être vue comme un bus informatique sur lequel les données obtenues à partir d’un organisme viendront se brancher.

Depuis une dizaine d’année, l’équipe Biologie des Systèmes de l’unité MaIAGE (INRAE Jouy-en-Josas) a démontré qu’une approche de modélisation mathématique (la modélisation systémique) est un outil puissant pour appréhender la structure des réseaux métaboliques et génétiques. En travaillant sur l’organisme modèle B.subtilis, l’équipe a pu découper ces réseaux en modules fonctionnels proposant par là un principe qui organise le fonctionnement de la cellule bactérienne dans son intégralité [1]. D’autre part, en tant que discipline la biologie est organisée en diverses communautés, chacune d’entre elles travaillant autour d’un « objet biologique ». Ainsi le réseau métabolique, les enzymes ou encore les molécules peuvent être vus comme des objets biologiques émanant respectivement de la communauté des biologistes des systèmes, des enzymologistes et des biochimistes.

Dans cette thèse, notre motivation est d’utiliser le principe mis à jour par l’équipe BioSys. Ce principe organise le fonctionnement de la cellule et nous souhaitons l’utiliser pour construire une représentation formelle de la cellule bactérienne dans son intégralité. Plus précisément nos objectifs sont: (i) de construire une représentation systémique de la cellule en se basant sur ce principe et de (ii) relier entre eux des objets biologiques à travers cette représentation. Notre objectif à moyen terme est de construire une représentation valable pour plusieurs organismes. Dans le cadre de cette thèse nous travaillerons sur l’organisme modèle B.subtilis.

Avec l’aide de collaborateurs experts en représentation des connaissances, l’équipe BioSys a construit deux ontologies BiPON[2] (dédiée aux bactéries) et BiPOM[3] (dédiée aux bactéries et aux plantes). L’approche classique utilisée par les bio-ontologies consiste à représenter la connaissance sous forme de hiérarchies. BiPON et BiPOM adoptent une autre perspective: elles utilisent des règles logiques pour vérifier la consistance et inférer des nouvelles connaissances. La même perspective sera adoptée dans cette thèse et sera étendue à une représentation systémique. Cette dernière vise à formaliser une ensemble de contraintes qui s’appliquent aux objets biologiques. Pour ce faire, les objets biologiques seront considérés sous leur aspect le plus formel: les modèles mathématiques qui décrivent leur fonctionnement. Par conséquent des liens précis entre la représentation systémique et les modèles mathématiques seront établis et sémantiquement définis.  

Directeur.trice : Fatiha Saïs - Encadrant(s) : Anne Goelzer, Danai Symeonidou - Equipes : BioSys

: Diversité génomique et fonctionnelle des communautés bactériennes associées aux produits végétaux fermentés : une approche interdisciplinaire incluant métagénomique et bioinformatique dans un contexte de recherche-action participative - SDSV - Début de la thèse :

Le projet de thèse proposé s’inscrit dans une démarche interdisciplinaire et un contexte de sciences ouvertes et participatives. Il vise à concevoir et mettre en œuvre des approches bioinformatiques et numériques innovantes pour analyser, comparer, interpréter et diffuser des jeux de données de données (meta)génomiques d’écosystèmes alimentaires fermentaires. La thèse s’appuiera pour ce travail sur les données du projet de science participative FLEGME (2019-2022) qui a pour objectif (i) d’évaluer la diversité des écosystèmes microbiens associés aux légumes fermentés fournis par des citoyens- fermenteurs et (ii) de documenter l’impact des pratiques de transformation sur la composition de l’écosystème fermentaire à partir d’échantillons produits par des petites entreprises spécialisées. Une première partie de la thèse consistera à travailler sur la conception d’un workflow bioinformatique ouvert et reproductible permettant de décrire, comparer et représenter la diversité des espèces et souches microbiennes présentes dans les échantillons de microbiotes d’aliments fermentés du projet Flegme en utilisant des modes de représentations adaptés à différents publics cibles (scientifiques, citoyens, professionnels du secteur). Une deuxième partie de la thèse ciblera la constitution de jeux de données génomiques de référence sur des espèces clé de la fermentation végétale à partir de données publiques ou produites dans le cadre de la thèse. Ce travail, qui s’inscrit dans une démarche d’ouverture des données de la recherche, s'accompagnera d’une réflexion sur la publication des métadonnées associées à ces jeux de données. La troisième partie de la thèse s’appuiera sur les jeux de données construits précédemment pour caractériser le potentiel métabolique des microbiotes associés à des fermentations alimentaires en reliant les informations phylogénétiques, les données génomiques et les analyses de métabolites produites sur les échantillons du projet Flegme. Enfin, la dernière partie de la thèse sera consacrée à la mise en place d’une démarche générique pour travailler avec un public non spécialiste sur les modalités de diffusion des résultats des analyses de diversité microbienne et du potentiel métabolique associé obtenus dans le projet FLEGME, dans une démarche de médiation des sciences et un contexte de sciences participatives.

Directeur.trice : Hélène Chiapello, Stéphane Chaillou - Encadrant(s) : Hélène Chiapello, Stéphane Chaillou, Michel-Yves Mistou, Florence Valence-Bertel - Equipes : StatInfOmics

KUBASCH Madeleine
: Modèles structurés multi-niveaux de dynamiques épidémiques - ED574 EDMH - Début de la thèse :
Directeur.trice : Vincent Bansaye (X), Elisabeta Vergu - Equipes : Dynenvie

: Transmission d'information à travers les réseaux métaboliques - ABIES - Début de la thèse :

Le projet “Artificial Metabolic Networks” (AMN) explorera les analogies entre la dynamique métabolique (telle que décrite par des modèles mathématiques) et le fonctionnement des réseaux de neurones artificiels dans des tâches telles que le traitement du signal ou la classification. Le sujet de la thèse comprend deux principaux types de tâches:

(1) La modélisation de base du métabolisme de la bactérie modèle E. coli, basée sur des reconstructions de réseaux métaboliques existantes. Le travail comprendra l'ajustement du modèle, des simulations dans les paradigmes d'Analyse du bilan de flux (Flux Balance Analysis, FBA) et de Modélisation cinétique structurelle (Structural Kinetic Modelling, SKM), ainsi que des modifications du modèle (telles que des suppressions de gènes simulées et l'ajout de voies métaboliques). 

(2) Une analyse de la transmission de l'information via la dynamique métabolique. En combinant les modèles et la théorie établis, principalement l'Analyse du contrôle métabolique (Metabolic Control Analysis, MCA) avec la théorie de l'information, les corrélations dans la dynamique métabolique seront quantifiées, exprimées en termes d'information de Shannon et interprétées comme un moyen de transmettre des signaux à travers les fluctuations des concentrations et des flux de métabolites. En étudiant les facteurs qui influencent la transmission de l'information (par exemple par l'expression des enzymes, la régulation allostérique ou les forces thermodynamiques dans les voies métaboliques), et en faisant des analogies avec des réseaux de neurones artificiels, nous espérons apprendre comment le métabolisme cellulaire pourrait être utilisé comme dispositif de traitement de l'information. 

Le projet est basé sur la théorie et les méthodes établies pour la modélisation métabolique (modèles stoechiométriques et cinétiques, MCA, SKM) et les notions de base de la théorie de l'information (information de Shannon). Étant donné que le "transfert d'informations" peut également être utilisé pour étudier les fluctuations métaboliques en général, nous espérons que cette étude pourra également expliquer certaines caractéristiques des réseaux métaboliques naturellement évolués (par exemple, des motifs récurrents tels que le feedback par le produit d’une voie métabolique ou la distribution des différences d'énergie de Gibbs le long des voies linéaires).


Directeur.trice : W. Liebermeister - Encadrant(s) : W. Liebermeister, A. Tonda (équipe Ekinocs) - Equipes : BioSys

MARECHAL Anastasia
: Modélisation mathématique de l’horloge circadienne dans une population d’hépatocytes - ED574 EDMH - Début de la thèse :

Ce projet de thèse est en mathématiques appliquées, avec une spécialité dans l’analyse de systèmes dynamiques et une composante interdisciplinaire forte autour de la modélisation de systèmes biologiques. L’objectif principal de la thèse est de produire et d’analyser un modèle mathématique de l’horloge circadienne dans une population de cellules. Chez les mammifères, l’horloge circadienne intervient à différents niveaux, depuis l’horloge centrale (commandée par un réseau neuronal) jusqu’aux cellules individuelles. Il est communément admis que l’ajustement des horloges périphériques se fait à partir de l’horloge centrale de façon unidirectionnelle. Cependant, de récentes études ont montré que des populations de cellules pouvaient rester synchronisées même en l’absence d’horloge centrale fonctionnelle. 

Nous disposons déjà de modèles mathématiques de l’horloge à l’échelle d’une cellule unique, et l’objet de la thèse est de proposer un modèle étendu à une population de cellules. Dans un premier temps, l’analyse mathématique et la simulation numérique du modèle produit permettront de tester plusieurs hypothèses, notamment sur les communications intercellulaires, et d’estimer leur impact sur la synchronisation ou la désynchronisation de la population. Dans un deuxième temps, le modèle sera confronté à des données expérimentales, consistant en des cultures d’hépatocytes sous forme de sphéroïdes. Cette thèse est financée dans le cadre du projet ANR InSync, démarré en décembre 2022. Ce projet regroupe modélisateurs et biologistes, autour du couplage et de la synchronisation d’horloges circadiennes périphériques.

Directeur.trice : Laurent Tournier - Encadrant(s) : Laurent Tournier, Mathieu Mezache - Equipes : BioSys

: Sélection de variables en grande dimension dans les modèles non linéaires à effets mixtes. Application en amélioration des plantes. - ED574 EDMH - Début de la thèse :
Directeur.trice : Maud Delattre - Encadrant(s) : Laure Sansonnet - Equipes : Dynenvie

Nguyen Thanh-Julie
: Renforcer les connaissances sur les risques associés aux pesticides sur les pollinisateurs dans différents contextes paysagers pour concevoir des paysages de santé - ED581 ABIES - Début de la thèse :

Les pollinisateurs sauvages assurent une fonction essentielle au sein des agroécosystèmes : la pollinisation des plantes à fleurs et des cultures. Pourtant leur déclin actuel est imputé à différents facteurs anthropiques, dont l’utilisation de pesticides. Les connaissances sur l’exposition des pollinisateurs sauvages aux pesticides et les effets de cette exposition en conditions naturelles restent cependant éparses. Cette thèse vise à renforcer les connaissances sur les effets des pesticides en fonction de leurs modalités d’application et en tenant compte des facteurs pouvant les accentuer (usage d’herbicides, rémanence) ou les atténuer (habitats semi-naturels, agriculture biologique dans le voisinage). Elle reposera sur l'analyse des bases de données de suivis à long terme et à grande échelle, de pollinisateurs sauvages, de pratiques agricoles et de résidus de néonicotinoïdes dans les nectars de colza et tournesol et dans les sols d’une centaine de parcelles échantillonnées chaque année depuis 2013 dans un paysage dont l’usage des sols est connu, la Zone Atelier Plaine & Val de Sèvre (450 km²). Le premier objectif de la thèse est d'analyser les effets sur l'ensemble des pollinisateurs sauvages des traitements insecticides et de leurs interactions avec les variables locales (présence d’herbicides, de résidus de néonicotinoïdes) et des variables du paysage. Cette analyse nécessitera le développement d'une méthode d'analyse de données multivariées géolocalisées permettant d'estimer les effets des variables locales et les effets du paysage (i.e. permettant d'estimer l'intensité et l'échelle spatiale de ces effets). Le développement de cette méthode reposera sur les approches de régression d'analyses multivariées bayésiennes développées actuellement par Olivier David (dynenvie, MaIAGE) et s'appuiera sur le cadre de modélisation des effets du paysage proposé par la méthode siland (Carpentier & Martin, 2021), i.e. modéliser les effets du paysage comme la convolution d'une fonction d'influence spatiale (appartenant à une famille de fonction de densité spatiale paramétrique choisie) avec la distribution spatiale des polygones et segments représentant les éléments du paysage. Le second obejctif de la thèse est de proposer un indicateur de risque pour les pollinisateurs sauvages calculés à partir des pratiques et des paysages. Le calcul de cet indicateur de risque reposera sur une minimisation des risques pour l'ensemble des pollinisateurs. Le développement de ce critère s'intègre dans une des nouvelles perspectives de recherche de l'équipe dynenvie concernant l'optimisation multicritère intégrant la variabilité d'estimation associée au modèle utilisé pour calculer ce critère. Cette thèse sera dirigée par Ivan Sache (Pr. AgroParisTech, UFR EAI, Ecologie Adaptation Interaction) et co-encadrée par Florence Carpentier (MCF APT, acceuillie pour sa recherche à l'unité MaIAGE). Sabrina Gaba (INRAE) collaborera à cette thèse en tant que porteuse du projet Pollihealth, lors des discussions et des séjours de la doctorante au CEBC, où la doctorante présentera ces résultats et participera à la collecte de nouvelles données. Un comité de suivi de thèse avec des chercheurs expérimentés sera organisé chaque année pour obtenir un avis extérieur sur le travail de thèse. Il sera constitué de chercheurs représentant les différentes disciplines impliquées dans cette thèse interdisciplinaire : agroécologie, statistiques et écotoxicologie.

Directeur.trice : Ivan Sache - Encadrant(s) : Florence Carpentier - Equipes : Dynenvie

Pastremoli Eleonora
: Towards a digital twin of the gut microbiota: a multidisciplinary approach for an in-depth understanding of composition, function and interaction with the host. - ED574 EDMH - Début de la thèse :

The thesis project aims to interface multiple in silico models describing host-microbiota interaction at different scales. While the developed models encompass various living entities, the focus will primarily be on mice and humans due to the availability of extensive data. At the microscopic level, these novel advancements will involve coupling a spatially distributed model of colon fluid mechanics with a crypt model, simulating interactions between the host and the microbiota. Thus, effects generated at the microscopic scale will influence the behavior of the host's digestive and cardiovascular systems at the macroscopic scale. Modeling these macroscopic systems is crucial for integrating individual-specific data or biological measurements, which will be compared with simulation results from the model.

Directeur.trice : Beatrice Laroche - Encadrant(s) : Lorenzo Sala - Equipes : Dynenvie

PAULAY Amandine
: Modélisation de la dégradation des protéines par le microbiote intestinal humain - ABIIES - Début de la thèse :
Directeur.trice : Emmanuelle MAGUIN - Encadrant(s) : Béatrice LAROCHE, Simon LABARTHE - Equipes : Dynenvie

PETY Solène
: Méthodes hologénomiques pour prendre en compte le microbiote de l’hôte dans les évaluations génétiques - ED581 ABIES - Début de la thèse :

Les animaux et leur microbiote forment un organisme composite, appelé holobionte, qui peut être considéré comme l'unité ultime sur laquelle agissent l'évolution et la sélection. Les gènes de l'hôte et l'environnement influent sur la colonisation, le développement et le fonctionnement des divers microbiotes, qui en retour contribuent à façonner les phénotypes de l'hôte. De plus le microbiote est également transmis de la mère au descendant (par exemple, lors de la mise-bas, de l’allaitement et des soins maternels chez les mammifères), ce dernier participe ainsi à la transmission non-génétique des phénotypes. Un enjeu majeur pour la sélection animale est donc le développement des approches hologénomiques intégratives capables d’analyser conjointement les ensembles de données génomiques de l'hôte et de son microbiote, ainsi que les phénotypes et les paramètres environnementaux dans lesquels évoluent les holobiontes. De telles méthodes sont prometteuses pour apporter une amélioration de la précision de prédiction et la compréhension des caractères impliqués dans l'adaptation des animaux aux systèmes de production agroécologique chez différentes espèces d'intérêt agronomique. Dans ce cadre, ce projet de thèse se focalise sur le développement, optimisation, et évaluation de méthodes intégratives permettant de prendre en compte simultanément la variabilité génomique et les indicateurs métagénomiques de l’hôte, ainsi que leur interaction. Ce projet contribuera à établir des lignes directrices claires pour la simulation de données hologénomiques réalistes, la construction de matrices de similarité basées sur le microbiote, et la combinaison optimale de données génomiques, microbiotes, et multi-omiques dans une grande variété de scenarios.

Directeur.trice : Andrea Rau - Encadrant(s) : Mahendra Mariadassou, Ingrid David - Equipes : StatInfOmics

Procope-Mamert Sylvain
: Algorithmes d'inférence pour des modèles de Markov cachés hiérarchiques à observations non linéaires - applications à l'analyse de données omiques suivies au cours du temps. - ED574 EDMH - Début de la thèse :
Les travaux conduits dans cette thèse porteront sur des modèles de Markov cachés hiérarchiques à observations non linéaires pour décrire les mécanismes sous-jacents à l’observation de séquences temporelles avec une dépendance spatiale. Ces modèles sont intéressants dans de nombreuses applications, notamment pour l’analyse de données omiques résolues en temps, qui présentent souvent une dépendance spatiale le long du génome. Estimer les paramètres qui régissent les dynamiques temporelles et reconstruire les états cachés du modèle sont des questions cruciales en pratique car elles permettent d’accéder à une meilleure compréhension des mécanismes physiques ou biologiques à l'oeuvre dans la génération des données. On s’intéressera plus spécifiquement au cas où les dynamiques temporelles observées sont non-linéaires et où les états cachés combinent des composantes discrètes et des composantes continues. Dans ce contexte peu abordé dans la littérature, la fonction de vraisemblance n’est pas classique et empêche l'utilisation des méthodes standard (Kalman/Baum-Welch). Dans cette thèse, on se propose de développer des algorithmes pour estimer les paramètres et reconstruire les états cachés à partir des séquences observées, en étudiant leurs propriétés théoriques et leur implémentation pratique. On se placera dans le cadre Bayésien qui permet une quantification naturelle de l'incertitude d'estimation. 
Ces travaux sont notamment motivés par des données originales de transcriptomique suivie au cours du temps, collectées par des partenaires du projet et qui permettront une application directe des premiers travaux réalisés.
Directeur.trice : Nicolas CHOPIN, Maud DELATTRE et Guillaume KON KAM KING - Equipes : Dynenvie, Equipes : StatInfOmics

SAMSON Samantha
: "Potentiation in silico de molécules hits sur la M-target​" - ED577 SDSV - Début de la thèse :


L'antibiorésistance est un problème de santé publique et de nouveaux médicaments sont nécessaires de toute urgence. Un défi majeur pour une conception efficace du médicament est de trouver la cible bactérienne appropriée. Dans cette optique, le projet de thèse de Samantha Samson se concentre sur Mfd -Mutation frequency decline- une cible protéique nouvelle et innovante que nous avons identifiée. Il vise à caractériser in silico les pharmacophores i.e le profil structure/fonction/activité des molécules prometteuses que nous avons validées in vitro. Il veut étendre leur spectre d'inhibition depuis les cibles de E. coli (Gram-) et B. cereus (Gram+) aux cibles du groupe ESKAPE, considérées comme pathogènes prioritaires par l'OMS. In fine, cette caractérisation mènera à potentialiser les molécules en candidats médicaments tout en élargissant leur spectre d'action sur des bactéries particulièrement résistances aux antibiotiques. La thèse se fera à MaIAGE, en biologie structurale moléculaire et computationnelle sous la direction de Gwenaëlle André. Par ailleurs, elle se fera en interaction constante avec les expériences in vitro et in vivo menées à Micalis dans l'équipe Pims dirigée par Nalini Rama Rao. 

Directeur.trice : Gwenaëlle André - Encadrant(s) : Gwenaëlle André et Nalini Rama Rao - Equipes : StatInfOmics

: Extraction of relational information from text in specific domain - adaptability and scalability - ED STIC - Début de la thèse :

This thesis addresses the extraction of relational information from scientific documents in Life Sciences, i.e. transforming unstructured text into machine-readable structured information. The extraction of semantic relationships between entities detected in text makes explicit and formalizes the underlying structures. Current state-of-the art methods rely on supervised machine learning. Supervised learning, and even more so recent deep learning methods, require many training examples that are costly to produce, all the more in specific domains such as Life Sciences. We hypothesize that combining information and knowledge available in specific domains with the latest deep learning word embedding models can offset the absence or limited amount of annotated training data. For this purpose, the thesis will design a rich representation of texts that draws both from linguistic information obtained from syntactic parsing and domain knowledge obtained from knowledge graphs such as ontologies. Integrating ontologies in the information extraction process will additionally facilitate information integration with other data, such as experimental or analytical data.

Directeur.trice : A. Denise - Encadrant(s) : C. Nédellec, L. Deléger, P. Zweigenbaum - Equipes : Bibliome

: Modélisation et mise en oeuvre d'un système d'évolution dirigée dans la bactérie Bacillus subtilisée - ED577 SDSV - Début de la thèse :
Directeur.trice : P. Nicolas - Encadrant(s) : M. Jules (Micalis) - Equipes : StatInfOmics

TOMILINA Ekaterina
: Copula models for network inference from mixed/heterogeneous data with applications to multi-omics analysis - EDMH - Début de la thèse :
Directeur.trice : Florence Jaffrézic - Encadrant(s) : Gildas Mazo - Equipes : Dynenvie

: Modèles mathématiques de l’allocation dynamique des ressources dans une cellule de bactérie. - ED 386-SCIENCES MATHÉMATIQUES DE PARIS CENTRE - Début de la thèse :

Dans l’ensemble des mécanismes de la bactérie pour adapter sa configuration aux ressources, nous souhaitons étudier en détail le rôle de la protéine appelée RelA. Cette protéine est associée à la traduction de la bactérie  (production des protéines) qui mobilise pour cela une si ce n’est la plus grande partie des ressources disponibles. Il s’agit dans cette thèse d’investiguer à l’aide de modèles mathématiques, ce  mécanisme et ceux qui lui sont liés  qui sont au centre de la physiologie bactérienne à travers son rôle direct ou indirect dans la régulation de la traduction elle-même mais aussi dans la régulation de l'ensemble de l'expression des gènes de la bactérie. Les questions ambitieuses étudiées dans cette thèse devraient nous permettre de mieux appréhender plus globalement le rôle et le poids des différentes boucles de régulation en prenant explicitement en compte leur caractère intrinsèquement stochastique.

Directeur.trice : P. Robert (INRIA) et V. Fromion - Equipes : BioSys