Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

 

CLEF ESV

Titre du projet
Préparation du dataset et organisation de la tâche PHS à CLEF
Agence de moyen
Institut Convergence
Etat
Accepté
Année de soumission
2023
Equipe(s)
Bibliome
Coordinateur.trice
Claire Nédellec
Participants de MaIAGE
Robert Bossy
Partenaires (hors MaIAGE)
BioSP
Année de démarrage - Année de fin de projet
2024-2024
Date de fin du projet
Résumé
Le projet vise à préparer et publier les données dites EPOP (Epidemiomonitoring Of Plant) - un corpus textuel annoté - et à proposer une tâche à la compétition internationale CLEF (Conference and Labs of the Evaluation Forum) en 2024. La thématique est celle de l’évolution de la connaissance en santé des plantes cultivées à travers les news internationales. La tâche consiste à extraire des mentions d’observations représentées par des événements d’interactions biologiques entre organismes nuisibles surveillés, plantes hôtes, et éventuellement vecteurs, en un lieu et à une date donnée.
Pour cela nous préparons le corpus EPOP annoté manuellement où les entités du texte et leurs relations sont annotées sémantiquement par les référentiels du domaine (taxonomie, référentiel géographique). Le corpus sera exploité pour entraîner et évaluer les méthodes de Traitement Automatiques de la Langue (TAL). L’objectif est double, assister la veille sanitaire et scientifique par des méthodes automatiques, et proposer à la communauté BioNLP (Natural Language Processing for Biology) un nouveau corpus de référence comprenant des relations biologiques et spatio-temporelles dans le domaine des plantes, domaine mal doté en corpus annotés.
Le projet implique principalement le laboratoire MaIAGE et la Plateforme d’Épidémiosurveillance en Santé Végétale (Plateforme ESV). Le soutien de l’Institut DataIA permettrait de finaliser la préparation de la tâche PHS (Plant Health Surveillance) dans la perspective de sa diffusion et de sa soumission à CLEF selon trois volets complémentaires : (1) assurer la qualité finale du corpus, (2) le convertir en format standard et exposer les données sur le portail PubAnnotation , (3) réaliser avec des partenaires internationaux des tests de pertinence du corpus avec des méthodes de l’état de l’art.