Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

VALSAMOU Dialekti

Sujet
Extraction d'information à partir d'articles scientifiques appliquée à la prédiction de régulations biologiques impliquées dans le développement de la graine chez A. Thaliana
Date de début
Date de fin
Equipe(s)
Description/résumé

Même si linformation est abondante dans le monde, linformation structurée, prête à être utilisée est rare. Ce travail propose lExtraction dInformation (EI) comme une approche efficace pour la production de linformation structurée, utilisable sur la biologie, en présentant une tâche complète dEI sur un organisme modèle, Arabidopsis thaliana. Un système dEI se charge dextraire les parties de texte les plus significatives et didentifier leurs relations sémantiques. 

En collaboration avec des experts biologistes sur la plante A. Thaliana un modèle de connaissance été conçu. Son objectif est de formaliser la connaissance nécessaire pour bien décrire le domaine du développement de la graine. Ce modèle contient toutes les entités et relations les connectant qui sont essentielles et peut être directement utilisé par des algorithmes. En parallèle ce modèle été testé et appliqué sur un ensemble darticles scientifiques du domaine, le corpus nécessaire pour lentraînement de lapprentissage automatique. Les experts ont annoté le texte en utilisant les entités et relations du modèle. Le modèle et le corpus annoté sont les premiers proposés pour le développement de la graine, et parmi les rares pour A. Thaliana, malgré son importance biologique. Ce modèle réconcilie les besoins davoir un modèle assez complexe pour bien décrire le domaine, et davoir assez de généralité pour pouvoir utiliser des méthodes dapprentissage automatique. 

Une approche dextraction de relations (AlvisRE) a également été élaborée et développée. Une fois les entités reconnues, lextracteur de relations cherche à détecter les cas où le texte mentionne une relation entre elles, et identifier précisément de quel type de relation du modèle il sagit. Lapproche AlvisRE est basée sur la similarité textuelle et utilise à la fois des informations lexiques, syntactiques et sémantiques. Dans les expériences réalisées, AlvisRE donne des résultats qui sont équivalents et parfois supérieurs à l’état de lart. En plus, AlvisRE a lavantage de la modularité et adaptabilité en utilisant des informations sémantiques produites automatiquement. Ce dernier caractéristique permet dattendre des performances équivalentes dans dautres domaines.

Ecole doctorale (pour les thèses)
ED580 STIC
Directeur.trice (pour les thèses)
C. Nédellec (MaIAGE)
Année de soutenance (pour les thèses ou les stages)
2017
Date de soutenance (pour les thèses)
Ecole/université (pour les thèses et les stages)
Université Paris-Saclay