Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

RelIAble

Equipe(s)
Etat
Titre du projet
Extraction d'information relationnelle à partir de texte en domaine de spécialité - adaptabilité et passage à l'échelle
Nom de l'appel d'offre
Appel PhD Région IdF
Coordinateur.trice
Claire Nédellec
Participants de MaIAGE
C. Nédellec, L. Deléger, R. Bossy
Partenaires (hors MaIAGE)
Opscidia, LIMSI-CNRS
Année de démarrage - Année de fin de projet
2020
Date de fin du projet
Résumé
Le projet de thèse porte sur l’extraction automatique d'informations relationnelles à partir de documents scientifiques dans le domaine des Sciences du Vivant. L'extraction d'information transforme le texte non structuré en informations structurées traitables par des machines. L'analyse automatique d'articles scientifiques permet de mieux exploiter les résultats de la recherche académique. Les applications sont multiples : accélérer l’innovation, synthétiser rapidement les connaissances médicales pour résoudre une crise sanitaire, ou encore lutter contre les fake news scientifiques.
L'extraction de relations sémantiques entre les entités détectées dans le texte explicite et formalise les structures sous-jacentes, par exemple entre agents et cibles d'une action, entre un microorganisme et son hôte, ou la maladie dont il est l’agent. Basée sur des ontologies, l'extraction d’informations relationnelles permet leur réutilisation et leur intégration avec des données autres, telles que expérimentales ou analytiques. Les méthodes d'extraction de relations combinent à des degrés plus ou moins grands de l'information linguistique (termes, dépendances syntaxiques), l'apprentissage automatique (en général supervisé) et plus rarement des informations ontologiques (concepts, propriétés, relations). L’apprentissage supervisé, et plus encore les méthodes récentes d'apprentissage profond, sont cependant gourmands en données d'entraînement, coûteuses à obtenir dans le domaine de l'extraction d'information, et plus encore en biomédical. Notre projet consiste à compenser l'absence ou le petit nombre de données d'entraînement annotées en se fondant sur une représentation initiale des textes plus puissante combinant les derniers modèles de plongements lexicaux, issus des méthodes d'apprentissage profond, à des données auxquelles on a accès en domaine spécialisé : les informations linguistiques issues d’une analyse syntaxique et les connaissances disponibles sur le domaine, comme la structure d'une ontologie, à la suite des résultats de la thèse d'A. Ferré.
Année de soumission
2020