BOROVIKOVA_Mariya

Sujet
Information extraction from textual data for epidemiosurveillance for plant health
Date de début
Date de fin
Encadrant(s)
Claire Nédellec, Mathieu Roche, Arnaud Ferré, Robert Bossy
Equipe(s)
Contrat de recherche
ANR BEYOND
Description/résumé

Le projet de thèse porte sur l’extraction automatique et la modélisation de connaissances à partir de données textuelles sur les facteurs déterminant l'émergence de maladies de plantes dans une perspective de prévention de risque. Parmi ces informations, la connaissance scientifique des habitats des pathogènes, de leurs hôtes, de leur vecteurs de transmission, mais aussi les phénotypes et conditions d'habitabilité est nécessaire à l'anticipation de propagation à moyen terme. De façon complémentaire, l'analyse des médias sociaux et des nouvelles des journaux en temps réel permet d'identifier des occurrences datées et géolocalisées pour une gestion à court terme. Ces informations sont dénotées par des expressions variables et souvent complexes. L’enjeu de la thèse est de les identifier dans les textes et de les normaliser en les reliant à la connaissance représentée dans les nomenclatures et ontologies du domaine. La normalisation contribue à la structuration de l'information textuelle et à son intégrabilité avec d'autres données structurées d'observation ou de simulation.
Les mĂ©thodes actuelles s’appuient sur l’apprentissage supervisĂ© qui nĂ©cessite beaucoup d’exemples produits manuellement. Nous faisons l’hypothèse que combiner l’information terminologique et la connaissance disponible dans les domaines spĂ©cialisĂ©s avec les modèles d’apprentissage profond de plongements lexicaux (word embeddings) peut pallier l’absence ou le nombre rĂ©duit de donnĂ©es d'entraĂ®nement annotĂ©es. L'approche envisagĂ©e fusionne les deux Ă©tapes d'identification et de normalisation pour les optimiser conjointement. La thèse s'inscrit dans le cadre du projet ANR Beyond "Building epidemiological surveillance and prophylaxis with observations both near and distant"  et la collaboration de l'unitĂ© MaIAGE (INRAE, UniversitĂ© Paris-Saclay) et de l'unitĂ© Tetis (INRAE, CIRAD). Les rĂ©sultats de la thèse, mĂ©thodes et logiciels seront diffusĂ©s sous licence libre. Les recherches du doctorant s'appuieront sur des rĂ©sultats publics, articles scientifiques, logiciels libres et donnĂ©es publiques de "benchmark".

Ecole doctorale (pour les thèses)
ED580 STIC
Directeur.trice (pour les thèses)
Claire NĂ©dellec
Année de soutenance (pour les thèses ou les stages)
2024
Ecole/université (pour les thèses et les stages)
Université Paris-Saclay