Sujet
Structuration et liage des données biologiques guidés par les ontologies et les principes organisateurs de modèles mathématiques.
Date de début
Date de fin
Encadrant(s)
Anne Goelzer, Danai Symeonidou

Equipe(s)

Description/résumé

Dans le domaine de la biologie, l’arrivée des nouvelles technologies de séquençage a eu pour effet d’augmenter de façon conséquente la production des données tout en abaissant les coûts liés à leur production. En conséquence, les biologistes et les bio-informaticiens doivent aujourd’hui manipuler des quantités conséquentes de données dites « omiques ». Ces données sont pour la plupart obtenues en réponse à une question scientifique précise et pour un contexte précis d’expérience. D’un point de vue général, l'ensemble de ces données paraissent hétérogènes et isolées les unes des autres. De plus, bien que de nombreuses données aient été obtenues pour des organismes modèles, la capacité d’organiser ces données les une par rapport aux autres représente encore un défi. Une telle organisation présente pourtant plusieurs avantages. Elle permet par exemple d’éviter la perte d’information, ou encore d’envisager des nouvelles découvertes qui n’auraient pas eu lieu si les données étaient restées isolées les unes des autres.

De fait, les scientifiques ne disposent pas de représentation formelle du fonctionnement d’un  organisme dans son intégralité. Pourtant, à travers ce type de représentation, les liens sémantiques entre les données pourraient être formalisés, il serait alors possible de les organiser. Une représentation de ce genre peut être vue comme un bus informatique sur lequel les données obtenues à partir d’un organisme viendront se brancher.

Depuis une dizaine d’année, l’équipe Biologie des Systèmes de l’unité MaIAGE (INRAE Jouy-en-Josas) a démontré qu’une approche de modélisation mathématique (la modélisation systémique) est un outil puissant pour appréhender la structure des réseaux métaboliques et génétiques. En travaillant sur l’organisme modèle B.subtilis, l’équipe a pu découper ces réseaux en modules fonctionnels proposant par là un principe qui organise le fonctionnement de la cellule bactérienne dans son intégralité [1]. D’autre part, en tant que discipline la biologie est organisée en diverses communautés, chacune d’entre elles travaillant autour d’un « objet biologique ». Ainsi le réseau métabolique, les enzymes ou encore les molécules peuvent être vus comme des objets biologiques émanant respectivement de la communauté des biologistes des systèmes, des enzymologistes et des biochimistes.

Dans cette thèse, notre motivation est d’utiliser le principe mis à jour par l’équipe BioSys. Ce principe organise le fonctionnement de la cellule et nous souhaitons l’utiliser pour construire une représentation formelle de la cellule bactérienne dans son intégralité. Plus précisément nos objectifs sont: (i) de construire une représentation systémique de la cellule en se basant sur ce principe et de (ii) relier entre eux des objets biologiques à travers cette représentation. Notre objectif à moyen terme est de construire une représentation valable pour plusieurs organismes. Dans le cadre de cette thèse nous travaillerons sur l’organisme modèle B.subtilis.

Avec l’aide de collaborateurs experts en représentation des connaissances, l’équipe BioSys a construit deux ontologies BiPON[2] (dédiée aux bactéries) et BiPOM[3] (dédiée aux bactéries et aux plantes). L’approche classique utilisée par les bio-ontologies consiste à représenter la connaissance sous forme de hiérarchies. BiPON et BiPOM adoptent une autre perspective: elles utilisent des règles logiques pour vérifier la consistance et inférer des nouvelles connaissances. La même perspective sera adoptée dans cette thèse et sera étendue à une représentation systémique. Cette dernière vise à formaliser une ensemble de contraintes qui s’appliquent aux objets biologiques. Pour ce faire, les objets biologiques seront considérés sous leur aspect le plus formel: les modèles mathématiques qui décrivent leur fonctionnement. Par conséquent des liens précis entre la représentation systémique et les modèles mathématiques seront établis et sémantiquement définis.  

Ecole doctorale (pour les thèses)
ED 580 STIC
Directeur.trice (pour les thèses)
Fatiha Saïs
Année de soutenance (pour les thèses ou les stages)
2024
Ecole/université (pour les thèses et les stages)
université Paris Saclay