Le projet de thèse porte sur l’extraction automatique et la modélisation de connaissances à partir de données textuelles sur les facteurs déterminant l'émergence de maladies de plantes dans une perspective de prévention de risque. Parmi ces informations, la connaissance scientifique des habitats des pathogènes, de leurs hôtes, de leur vecteurs de transmission, mais aussi les phénotypes et conditions d'habitabilité est nécessaire à l'anticipation de propagation à moyen terme. De façon complémentaire, l'analyse des médias sociaux et des nouvelles des journaux en temps réel permet d'identifier des occurrences datées et géolocalisées pour une gestion à court terme. Ces informations sont dénotées par des expressions variables et souvent complexes. L’enjeu de la thèse est de les identifier dans les textes et de les normaliser en les reliant à la connaissance représentée dans les nomenclatures et ontologies du domaine. La normalisation contribue à la structuration de l'information textuelle et à son intégrabilité avec d'autres données structurées d'observation ou de simulation.
Les méthodes actuelles s’appuient sur l’apprentissage supervisé qui nécessite beaucoup d’exemples produits manuellement. Nous faisons l’hypothèse que combiner l’information terminologique et la connaissance disponible dans les domaines spécialisés avec les modèles d’apprentissage profond de plongements lexicaux (word embeddings) peut pallier l’absence ou le nombre réduit de données d'entraînement annotées. L'approche envisagée fusionne les deux étapes d'identification et de normalisation pour les optimiser conjointement. La thèse s'inscrit dans le cadre du projet ANR Beyond "Building epidemiological surveillance and prophylaxis with observations both near and distant" et la collaboration de l'unité MaIAGE (INRAE, Université Paris-Saclay) et de l'unité Tetis (INRAE, CIRAD). Les résultats de la thèse, méthodes et logiciels seront diffusés sous licence libre. Les recherches du doctorant s'appuieront sur des résultats publics, articles scientifiques, logiciels libres et données publiques de "benchmark".
Mathématiques et Informatique Appliquées
du Génome à l'Environnement