Thèses en cours

: Bayesian nonparametric methods for complex genomic data - - Début de la thèse :

The aim of this thesis is to develop and analyse Bayesian nonparametric models to explore diversity in metagenomic data. This involves 1) furthering the knowledge about the fundamental properties of existing Bayesian nonparametric processes, 2) using them as building blocks to develop flexible models for noisy and high-dimensional data and 3) designing efficient and scalable inference algorithms, via parallelisation, optimisation and/or careful approximations.

The conceptual framework of Bayesian nonparametric models is particularly well-suited to describe complex and noisy data such as metagenomic data. Such data represent a crucial tool to explore the diversity of environments, such as marine environments (with environmental DNA, Cowart et al., 2018), human body (Van Rossum et al., 2020), tumor diversity (Nik-Zainal et al., 2012) or virus strain diversity. They are inherently large dimensional, suffer from multiple sources of noise, exhibit a complex latent structure (clusters, tree, network) and present challenges for which Bayesian nonparametric approaches have been recognised as promising, e.g. Lee et al. (2015); Roth et al. (2014). Bayesian nonparametric approaches are particularly interesting for complex data because they naturally account for uncertainty about the precise data generating mechanism, allowing flexibility in crucial aspects such as the functional form of the dependence to covariates, the error model, or the size of the latent space. On top of this, the Bayesian framework allows carrying this uncertainty seamlessly into the estimation uncertainty or real-time prediction uncertainty.

Moreover, addressing concrete biological questions often stimulates the development of new Bayesian nonparametric processes, for instance because standard processes such as the Dirichlet process are sometimes too simplistic and fail to describe certain patterns in the data (such as power-law behaviours). Additional advances are stimulated by the computational challenges in dealing with large dimensional data, requiring the development of bespoke inference strategies. We envision several possible approaches: variational inference (Blei and Jordan, 2006) replaces costly Markov chain Monte Carlo sampling by a high-dimensional optimisation problem for which efficient algorithms such as stochastic gradient descent may be used. Approximate Bayesian computation (ABC) replaces unfeasible likelihood evaluations, which may occur when modelling data with complex latent discrete structures (e.g. trees), by a large number of simulations. We have used ABC in the context of Bayesian nonparametric models and of inverse problems respectively in Kon Kam King et al. (2019) and Forbes et al. (2021). An efficient implementation of approximate Bayesian computation strategies will entail particular efforts in parallelisation and high-performance computing. Finally, when possible, we will also investigate the possibility of analytical approximations of Bayesian nonparametric processes, for which finite-size and asymptotic approximations have been shown to give good results (Bystrova et al., 2021).

The main biological application which will be addressed in this thesis will be to describe the diversity observed in metagenomic data and its relation to covariates. The type of metagenomic data considered can include environmental DNA (eDNA), describing for instance how the composition of soil microbial communities relates to environmental pollution (Arbel et al., 2016), or shotgun metagenomic data characterising the microbial composition of several compartments (milk, air, grass, cheese) in an agroecological cheese production line (TANDEM project, see below). We have access to a couple of rich datasets to carry out this application: (i) the StatInfOmics team is involved in the project TANDEM, supported by the INRAE flagship project HOLOFLUX. This project aims to study bacterial fluxes inside agro-ecological systems for cheese production, from grazing material to cheese through cows and milk. This involvement will present multiple opportunities for tackling interesting biological questions, analyse original data and develop mature and practical methodology directly benefiting areas of interest to INRAE; (ii) eDNA data sampled at study sites in the northern French Alps thanks to collaborations of Daria Bystrova and Julyan Arbel with Wilfried Thuiller at LECA. This study sites belong to the long-term observatory ORCHAMP (, which aims to observe, understand and model biodiversity and ecosystem functioning over space and time.



Arbel, J. (2019). Bayesian Statistical Learning and Applications. HDR thesis, Universit ́e Grenoble-Alpes.
Arbel, J., Kon Kam King, G., Lijoi, A., Nieto-Barajas, L. E., and Pr ̈unster, I. (2021). BNPdensity: Bayesian
nonparametric mixture modeling in R. Australian & New Zealand Journal of Statistics, in press.
Arbel, J., Mengersen, K., and Rousseau, J. (2016). Bayesian nonparametric dependent model for par-
tially replicated data: The influence of fuel spills on species diversity. The Annals of Applied Statistics,
Blei, D. M. and Jordan, M. I. (2006). Variational inference for Dirichlet process mixtures. Bayesian Analysis,
Bystrova, D., Arbel, J., Kon Kam King, G., and Deslandes, F. (2021). Approximating the clusters’ prior dis-
tribution in Bayesian nonparametric models. In Third Symposium on Advances in Approximate Bayesian
Cowart, D. A., Murphy, K. R., and Cheng, C.-H. C. (2018). Metagenomic sequencing of environmental DNA
reveals marine faunal assemblages from the West Antarctic Peninsula. Marine Genomics, 37:148–160.
Forbes, F., Nguyen, H. D., Nguyen, T. T., and Arbel, J. (2021). Approximate Bayesian computation with
surrogate posteriors. Submitted.
Kon Kam King, G., Arbel, J., and Pr ̈unster, I. (2017). Bayesian Statistics in Action, chapter A Bayesian non-
parametric approach to ecological risk assessment, pages 151–159. Springer Proceedings in Mathematics
& Statistics, Volume 194. Springer International Publishing, Editors: Raffaele Argiento et al.
Kon Kam King, G., Canale, A., and Ruggiero, M. (2019). Bayesian functional forecasting with locally-
autoregressive dependent processes. Bayesian Analysis, 14(4):1121–1141.
Lee, J., M ̈uller, P., Gulukota, K., and Ji, Y. (2015). A Bayesian feature allocation model for tumor hetero-
geneity. The Annals of Applied Statistics, 9(2):621–639.
Nik-Zainal, S., Van Loo, P., Wedge, D. C., Alexandrov, L. B., Greenman, C. D., Lau, K. W., Raine, K.,
Jones, D., Marshall, J., Ramakrishna, M., Shlien, A., Cooke, S. L., Hinton, J., Menzies, A., Stebbings,
L. A., Leroy, C., Jia, M., Rance, R., Mudie, L. J., Gamble, S. J., Stephens, P. J., McLaren, S., Tarpey,
P. S., Papaemmanuil, E., Davies, H. R., Varela, I., McBride, D. J., Bignell, G. R., Leung, K., Butler,
A. P., Teague, J. W., Martin, S., J ̈onsson, G., Mariani, O., Boyault, S., Miron, P., Fatima, A., Langerød,
A., Aparicio, S. A. J. R., Tutt, A., Sieuwerts, A. M., Borg, ̊A., Thomas, G., Salomon, A. V., Richardson,
A. L., Børresen-Dale, A.-L., Futreal, P. A., Stratton, M. R., and Campbell, P. J. (2012). The Life History
of 21 Breast Cancers. Cell, 149(5):994–1007.
Roth, A., Khattra, J., Yap, D., Wan, A., Laks, E., Biele, J., Ha, G., Aparicio, S., Bouchard-Côté, A.,
and Shah, S. P. (2014). PyClone: Statistical inference of clonal population structure in cancer. Nature
Methods, 11(4):396–398.
Van Rossum, T., Ferretti, P., Maistrenko, O. M., and Bork, P. (2020). Diversity within species: Interpreting
strains in microbiomes. Nature Reviews Microbiology, 18(9):491–506.

Directeur.trice : ARBEL Julyan, KON KAM KING Guillaume - Equipes : StatInfOmics

BEREUX Stéphane
: Modéliser et prédire les modifications microbiennes associées à l’émergence de maladies - ED 574 EDMH - Début de la thèse :
Directeur.trice : Mahendra Mariadassou - Encadrant(s) : Magali Berland, Sébastien Fromentin - Equipes : StatInfOmics

: Large-scale economic model of growing budding yeast - - Début de la thèse :
Directeur.trice : E. Klipp (Institut de Biophysique, Humboldt-Universität zu Berlin) - Encadrant(s) : W. Liebermeister (MaIAGE) - Equipes : BioSys

: Information extraction from textual data for epidemiosurveillance for plant health - ED STIC - Début de la thèse :

Le projet de thèse porte sur l’extraction automatique et la modélisation de connaissances à partir de données textuelles sur les facteurs déterminant l'émergence de maladies de plantes dans une perspective de prévention de risque. Parmi ces informations, la connaissance scientifique des habitats des pathogènes, de leurs hôtes, de leur vecteurs de transmission, mais aussi les phénotypes et conditions d'habitabilité est nécessaire à l'anticipation de propagation à moyen terme. De façon complémentaire, l'analyse des médias sociaux et des nouvelles des journaux en temps réel permet d'identifier des occurrences datées et géolocalisées pour une gestion à court terme. Ces informations sont dénotées par des expressions variables et souvent complexes. L’enjeu de la thèse est de les identifier dans les textes et de les normaliser en les reliant à la connaissance représentée dans les nomenclatures et ontologies du domaine. La normalisation contribue à la structuration de l'information textuelle et à son intégrabilité avec d'autres données structurées d'observation ou de simulation.
Les méthodes actuelles s’appuient sur l’apprentissage supervisé qui nécessite beaucoup d’exemples produits manuellement. Nous faisons l’hypothèse que combiner l’information terminologique et la connaissance disponible dans les domaines spécialisés avec les modèles d’apprentissage profond de plongements lexicaux (word embeddings) peut pallier l’absence ou le nombre réduit de données d'entraînement annotées. L'approche envisagée fusionne les deux étapes d'identification et de normalisation pour les optimiser conjointement. La thèse s'inscrit dans le cadre du projet ANR Beyond "Building epidemiological surveillance and prophylaxis with observations both near and distant"  et la collaboration de l'unité MaIAGE (INRAE, Université Paris-Saclay) et de l'unité Tetis (INRAE, CIRAD). Les résultats de la thèse, méthodes et logiciels seront diffusés sous licence libre. Les recherches du doctorant s'appuieront sur des résultats publics, articles scientifiques, logiciels libres et données publiques de "benchmark".

Directeur.trice : Claire Nédellec - Encadrant(s) : Claire Nédellec, Mathieu Roche, Arnaud Ferré, Robert Bossy - Equipes : Bibliome

EPAIN Victor
: Développement de méthodes efficaces, précises et conviviales pour corriger, assembler et aligner des lectures issues des technologies de séquençage 3e génération. - ED601 MathSTIC - Début de la thèse :

Le développement d’algorithmes efficaces et parcimonieux en matière de ressources informatiques et leur implémentation sous forme de logiciels faciles à utiliser ont un très fort impact sur la communauté des sciences de la vie. Ces logiciels sont largement utilisés par de très nombreuses équipes de par le monde.

L’objectif de cette thèse est de se focaliser sur ces cas difficiles et de développer des algorithmes adaptés à cette complexité à la fois pour l’assemblage et pour l’alignement à partir de données de séquençage de 3génération. Une attention particulière sera portée au passage à l’échelle de ces logiciels lorsqu’on est amené à analyser des données génomiques eucaryotes.  En moyenne, il existe un facteur 1000 entre les longueurs des génomes de procaryotes et d’eucaryotes « caractéristiques », ce qui impose de très fortes contraintes sur le choix des algorithmes à implémenter tant en matière de vitesse d’exécution du programme que de mémoire vive utilisée. Il est vraisemblable qu’un travail important de parallélisation massive du code sera nécessaire pour obtenir de bonnes performances dans ce cas.

Directeur.trice : R. Andonov INRIA - J-F Gibrat INRAE - Encadrant(s) : D Lavenier (INRIA) - Equipes : StatInfOmics

: Le métabolisme bactérien comme réseau de neurones artificiels, pour la détection multiplexe de biomarqueurs d’agents pathogènes - ED577 SDSV - Début de la thèse :

Les microorganismes sont capables de détecter de nombreux signaux environnementaux simultanément, de les transmettre et de les traiter au travers de circuits complexes pour au final prendre des décisions, modifiant leurs phénotypes. L’objet de cette thèse est d’exploiter et de modifier les circuits décisionnels des microorganismes pour le développement d’outils diagnostics permettant la détection multiplexe de biomarqueurs d’agents pathogènes. Pour optimiser les modifications apportés aux circuits, nous allons exploiter la puissance de techniques modernes en intelligence artificielle, en les adaptant aux modèles métaboliques.

Directeur.trice : Jean-Loup Faulon - Encadrant(s) : Wolfram Liebermeister - Equipes : BioSys

: Développement et application d'une méthode précise et efficace pour l'analyse du microbiote humain à visée clinique - ED577 SDSV - Début de la thèse :
Directeur.trice : Sophie Schbath - Encadrant(s) : P. Halfo (Alphabio), G. Bidaut (INSERM Marseille) - Equipes : StatInfOmics

: Tests des composantes de la variance dans les modèles à effets mixtes pour des petits échantillons. Application à l’étude de la variabilité génotypique chez Arabidopsis Thaliana. - EDMH - Début de la thèse :
Directeur.trice : Kuhn Estelle - Encadrant(s) : Kuhn Estelle et Baey Charlotte (Université de LIlle) - Equipes : Dynenvie

GUÉRIN Cyprien
: Conception et mise en œuvre d’un système modulaire de mini-bioréacteurs pour la culture continue de microorganismes - ED577 SDSV - Début de la thèse :

Les systèmes de culture continue en bioréacteurs restent, malgré leur intérêt, peu utilisés dans les laboratoires de microbiologie. L’objectif de ce projet de thèse est de faciliter leur mise en œuvre en proposant un nouveau système modulaire de mini-bioréacteurs pilotés par ordinateur en s’appuyant sur les opportunités offertes par l’essor des technologies de fabrication numérique et des microcontrôleurs programmables. Les volumes de culture visés sont de l’ordre de 5 à 10 mL afin de permettre des plans d’expériences complexes pouvant impliquer de nombreux bioréacteurs (en parallèle, en cascade, avec suivi et contrôle en temps réel, ...). Comme preuves de concept, plusieurs applications chez la bactérie Gram-positive Bacillus subtilis sont envisagées aussi bien dans des contextes d’évolution expérimentale et dirigée que pour des études physiologiques s’appuyant sur de la comparaison de transcriptomes.

Directeur.trice : P. Nicolas - Encadrant(s) : M. Jules (Micalis) - Equipes : StatInfOmics

: Outils et méthodes pour la modélisation de la dynamique d’écosystèmes microbiens complexe à partir d’observations expérimentales temporelles : application à la dynamique du microbiote intestinal - ED574 EDMH - Début de la thèse :

Les microbiotes sont les communautés de microorganismes formées par des bactéries, phages, virus, archées, champignons associées à un hôte vivant, végétal, animal ou humain. Les microbiotes et leur hôte établissent un dialogue permanent qui joue un rôle crucial dans la physiologie et la santé de celui- ci. Par exemple, chez les mammifères et l’homme en particulier, les fonctions du tube digestif que sont la digestion ou la protection contre des pathogènes sont assurées de façon indissociable par les cellules épithéliales et immunitaires mais également par le microbiote intestinal. Il a été montré que le bénéfice mutuel (mutualisme) existant entre l’hôte et son microbiote intestinal est influencé par l’environnement, l’alimentation et plus généralement pour l’homme par le style de vie, et que l’altération de cet équilibre, appelée dysbiose, est associé à certains déséquilibres ou pathologies comme l’obésité et les maladies inflammatoires de l’intestin. La compréhension des déterminants et la détection de signes annonciateurs de ces déséquilibres, liés à la composition, la diversité, l’activité métabolique du microbiote et à la physiologie de l’hôte et son régime alimentaire, constituent donc un enjeu important en santé humaine et animale. Le sujet de thèse est construit à partir de cette problématique applicative, l’objectif est de développer des modèles, des méthodes et des outils mathématiques qui permettent de contribuer à la compréhension de la dynamique d’un ensemble formé par un écosystème microbien complexe et son hôte, et à la prédiction de sa composition et de son activité. Les applications concerneront essentiellement le microbiote du côlon chez l’homme ou la souris.

Le travail de thèse comprendra trois axes, le premier orienté vers la modélisation, le deuxième vers le développement de méthodes pour l’analyse de données et le troisième sera consacré à l’analyse effective de données en lien avec les modèles.

Le projet s’insère dans le collectif de recherche impliqué dans le projet ERC Homo.symbiosus du Pr Joël Doré membre de l’équipe FInE (Fonctionalité de l’écosystème Intestinal) à l’Institut MICALIS INRA-AgroParisTech. Ce collectif comprend des équipes de microbiologistes, bioinformaticiens et statisticiens, nutritionnistes et médecins à la pointe des recherches mondiales sur le microbiote intestinal humain.

Directeur.trice : Béatrice Laroche - Equipes : Dynenvie

INIZAN Olivier
: Structuration et liage des données biologiques guidés par les ontologies et les principes organisateurs de modèles mathématiques. - ED 580 STIC - Début de la thèse :

Dans le domaine de la biologie, l’arrivée des nouvelles technologies de séquençage a eu pour effet d’augmenter de façon conséquente la production des données tout en abaissant les coûts liés à leur production. En conséquence, les biologistes et les bio-informaticiens doivent aujourd’hui manipuler des quantités conséquentes de données dites « omiques ». Ces données sont pour la plupart obtenues en réponse à une question scientifique précise et pour un contexte précis d’expérience. D’un point de vue général, l'ensemble de ces données paraissent hétérogènes et isolées les unes des autres. De plus, bien que de nombreuses données aient été obtenues pour des organismes modèles, la capacité d’organiser ces données les une par rapport aux autres représente encore un défi. Une telle organisation présente pourtant plusieurs avantages. Elle permet par exemple d’éviter la perte d’information, ou encore d’envisager des nouvelles découvertes qui n’auraient pas eu lieu si les données étaient restées isolées les unes des autres.

De fait, les scientifiques ne disposent pas de représentation formelle du fonctionnement d’un  organisme dans son intégralité. Pourtant, à travers ce type de représentation, les liens sémantiques entre les données pourraient être formalisés, il serait alors possible de les organiser. Une représentation de ce genre peut être vue comme un bus informatique sur lequel les données obtenues à partir d’un organisme viendront se brancher.

Depuis une dizaine d’année, l’équipe Biologie des Systèmes de l’unité MaIAGE (INRAE Jouy-en-Josas) a démontré qu’une approche de modélisation mathématique (la modélisation systémique) est un outil puissant pour appréhender la structure des réseaux métaboliques et génétiques. En travaillant sur l’organisme modèle B.subtilis, l’équipe a pu découper ces réseaux en modules fonctionnels proposant par là un principe qui organise le fonctionnement de la cellule bactérienne dans son intégralité [1]. D’autre part, en tant que discipline la biologie est organisée en diverses communautés, chacune d’entre elles travaillant autour d’un « objet biologique ». Ainsi le réseau métabolique, les enzymes ou encore les molécules peuvent être vus comme des objets biologiques émanant respectivement de la communauté des biologistes des systèmes, des enzymologistes et des biochimistes.

Dans cette thèse, notre motivation est d’utiliser le principe mis à jour par l’équipe BioSys. Ce principe organise le fonctionnement de la cellule et nous souhaitons l’utiliser pour construire une représentation formelle de la cellule bactérienne dans son intégralité. Plus précisément nos objectifs sont: (i) de construire une représentation systémique de la cellule en se basant sur ce principe et de (ii) relier entre eux des objets biologiques à travers cette représentation. Notre objectif à moyen terme est de construire une représentation valable pour plusieurs organismes. Dans le cadre de cette thèse nous travaillerons sur l’organisme modèle B.subtilis.

Avec l’aide de collaborateurs experts en représentation des connaissances, l’équipe BioSys a construit deux ontologies BiPON[2] (dédiée aux bactéries) et BiPOM[3] (dédiée aux bactéries et aux plantes). L’approche classique utilisée par les bio-ontologies consiste à représenter la connaissance sous forme de hiérarchies. BiPON et BiPOM adoptent une autre perspective: elles utilisent des règles logiques pour vérifier la consistance et inférer des nouvelles connaissances. La même perspective sera adoptée dans cette thèse et sera étendue à une représentation systémique. Cette dernière vise à formaliser une ensemble de contraintes qui s’appliquent aux objets biologiques. Pour ce faire, les objets biologiques seront considérés sous leur aspect le plus formel: les modèles mathématiques qui décrivent leur fonctionnement. Par conséquent des liens précis entre la représentation systémique et les modèles mathématiques seront établis et sémantiquement définis.  

Directeur.trice : Fatiha Saïs - Encadrant(s) : Anne Goelzer, Danai Symeonidou - Equipes : BioSys

: Diversité génomique et fonctionnelle des communautés bactériennes associées aux produits végétaux fermentés : une approche interdisciplinaire incluant métagénomique et bioinformatique dans un contexte de recherche-action participative - SDSV - Début de la thèse :

Le projet de thèse proposé s’inscrit dans une démarche interdisciplinaire et un contexte de sciences ouvertes et participatives. Il vise à concevoir et mettre en œuvre des approches bioinformatiques et numériques innovantes pour analyser, comparer, interpréter et diffuser des jeux de données de données (meta)génomiques d’écosystèmes alimentaires fermentaires. La thèse s’appuiera pour ce travail sur les données du projet de science participative FLEGME (2019-2022) qui a pour objectif (i) d’évaluer la diversité des écosystèmes microbiens associés aux légumes fermentés fournis par des citoyens- fermenteurs et (ii) de documenter l’impact des pratiques de transformation sur la composition de l’écosystème fermentaire à partir d’échantillons produits par des petites entreprises spécialisées. Une première partie de la thèse consistera à travailler sur la conception d’un workflow bioinformatique ouvert et reproductible permettant de décrire, comparer et représenter la diversité des espèces et souches microbiennes présentes dans les échantillons de microbiotes d’aliments fermentés du projet Flegme en utilisant des modes de représentations adaptés à différents publics cibles (scientifiques, citoyens, professionnels du secteur). Une deuxième partie de la thèse ciblera la constitution de jeux de données génomiques de référence sur des espèces clé de la fermentation végétale à partir de données publiques ou produites dans le cadre de la thèse. Ce travail, qui s’inscrit dans une démarche d’ouverture des données de la recherche, s'accompagnera d’une réflexion sur la publication des métadonnées associées à ces jeux de données. La troisième partie de la thèse s’appuiera sur les jeux de données construits précédemment pour caractériser le potentiel métabolique des microbiotes associés à des fermentations alimentaires en reliant les informations phylogénétiques, les données génomiques et les analyses de métabolites produites sur les échantillons du projet Flegme. Enfin, la dernière partie de la thèse sera consacrée à la mise en place d’une démarche générique pour travailler avec un public non spécialiste sur les modalités de diffusion des résultats des analyses de diversité microbienne et du potentiel métabolique associé obtenus dans le projet FLEGME, dans une démarche de médiation des sciences et un contexte de sciences participatives.

Directeur.trice : Hélène Chiapello, Stéphane Chaillou - Encadrant(s) : Hélène Chiapello, Stéphane Chaillou, Michel-Yves Mistou, Florence Valence-Bertel - Equipes : StatInfOmics

KOUYE Henri Mermoz
: Sensitivity analysis for stochastic computer models - ED574 EDMH - Début de la thèse :
Directeur.trice : Elisabeta Vergu - Encadrant(s) : Gildas Mazo, Elisabeta Vergu, Clémentine Prieur et Gael Thebaud - Equipes : Dynenvie

KUBASCH Madeleine
: Modèles structurés multi-niveaux de dynamiques épidémiques - ED574 EDMH - Début de la thèse :
Directeur.trice : Vincent Bansaye (X), Elisabeta Vergu - Equipes : Dynenvie

: Sélection de variables en grande dimension dans les modèles non linéaires à effets mixtes. Application en amélioration des plantes. - ED574 EDMH - Début de la thèse :
Directeur.trice : Maud Delattre - Encadrant(s) : Laure Sansonnet - Equipes : Dynenvie

PAULAY Amandine
: Modélisation de la dégradation des protéines par le microbiote intestinal humain - ABIIES - Début de la thèse :
Directeur.trice : Emmanuelle MAGUIN - Encadrant(s) : Béatrice LAROCHE, Simon LABARTHE - Equipes : Dynenvie

SAMSON Samantha
: "Potentiation in silico de molécules hits sur la M-target​" - ED577 SDSV - Début de la thèse :


L'antibiorésistance est un problème de santé publique et de nouveaux médicaments sont nécessaires de toute urgence. Un défi majeur pour une conception efficace du médicament est de trouver la cible bactérienne appropriée. Dans cette optique, le projet de thèse de Samantha Samson se concentre sur Mfd -Mutation frequency decline- une cible protéique nouvelle et innovante que nous avons identifiée. Il vise à caractériser in silico les pharmacophores i.e le profil structure/fonction/activité des molécules prometteuses que nous avons validées in vitro. Il veut étendre leur spectre d'inhibition depuis les cibles de E. coli (Gram-) et B. cereus (Gram+) aux cibles du groupe ESKAPE, considérées comme pathogènes prioritaires par l'OMS. In fine, cette caractérisation mènera à potentialiser les molécules en candidats médicaments tout en élargissant leur spectre d'action sur des bactéries particulièrement résistances aux antibiotiques. La thèse se fera à MaIAGE, en biologie structurale moléculaire et computationnelle sous la direction de Gwenaëlle André. Par ailleurs, elle se fera en interaction constante avec les expériences in vitro et in vivo menées à Micalis dans l'équipe Pims dirigée par Nalini Rama Rao. 

Directeur.trice : Gwenaëlle André - Encadrant(s) : Gwenaëlle André et Nalini Rama Rao - Equipes : StatInfOmics

: Extraction of relational information from text in specific domain - adaptability and scalability - ED STIC - Début de la thèse :

This thesis addresses the extraction of relational information from scientific documents in Life Sciences, i.e. transforming unstructured text into machine-readable structured information. The extraction of semantic relationships between entities detected in text makes explicit and formalizes the underlying structures. Current state-of-the art methods rely on supervised machine learning. Supervised learning, and even more so recent deep learning methods, require many training examples that are costly to produce, all the more in specific domains such as Life Sciences. We hypothesize that combining information and knowledge available in specific domains with the latest deep learning word embedding models can offset the absence or limited amount of annotated training data. For this purpose, the thesis will design a rich representation of texts that draws both from linguistic information obtained from syntactic parsing and domain knowledge obtained from knowledge graphs such as ontologies. Integrating ontologies in the information extraction process will additionally facilitate information integration with other data, such as experimental or analytical data.

Directeur.trice : A. Denise - Encadrant(s) : C. Nédellec, L. Deléger, P. Zweigenbaum - Equipes : Bibliome

: Modélisation et mise en oeuvre d'un système d'évolution dirigée dans la bactérie Bacillus subtilisée - ED577 SDSV - Début de la thèse :
Directeur.trice : P. Nicolas - Encadrant(s) : M. Jules (Micalis) - Equipes : StatInfOmics

: Modèles mathématiques de l’allocation dynamique des ressources dans une cellule de bactérie. - ED 386-SCIENCES MATHÉMATIQUES DE PARIS CENTRE - Début de la thèse :

Dans l’ensemble des mécanismes de la bactérie pour adapter sa configuration aux ressources, nous souhaitons étudier en détail le rôle de la protéine appelée RelA. Cette protéine est associée à la traduction de la bactérie  (production des protéines) qui mobilise pour cela une si ce n’est la plus grande partie des ressources disponibles. Il s’agit dans cette thèse d’investiguer à l’aide de modèles mathématiques, ce  mécanisme et ceux qui lui sont liés  qui sont au centre de la physiologie bactérienne à travers son rôle direct ou indirect dans la régulation de la traduction elle-même mais aussi dans la régulation de l'ensemble de l'expression des gènes de la bactérie. Les questions ambitieuses étudiées dans cette thèse devraient nous permettre de mieux appréhender plus globalement le rôle et le poids des différentes boucles de régulation en prenant explicitement en compte leur caractère intrinsèquement stochastique.

Directeur.trice : P. Robert (INRIA) et V. Fromion - Equipes : BioSys