Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

VASQUEZ REINA Luis Antonio

Type
Sujet
Classification automatique de documents pour la surveillance épidémiologique en santé végétale
Date de début
Date de fin
Encadrant(s)
Robert Bossy
Equipe(s)
Description/résumé
La Plateforme d'Épidémiosurveillance en Santé Végétale collecte chaque semaine plusieurs milliers de documents de langues variées par "web scrapping" qu'elle veut classer en fonction de leur pertinence et de
leur similarité pour réduire le temps de travail. La grande diversité des sujets évoluant au cours du temps, des genres et des langues rend la tâche complexe. Les premières expériences réalisées avec fastText sont prometteuses. Plusieurs pistes de recherche sont envisagées, telles que:
  • exploiter un score de confiance calculé sur les URL des documents, exploiter les mots-clefs de la requêtes de web scrapping, ou plus généralement exploiter des entités d'intérêt (espèces, malades) reconnues dans les documents;
  • tester d'autres méthodes que fastText;
  • comparer les performances des modèles de langue multilingues par rapport aux modèles de langue pour l'anglais calculé après traduction.
La traduction étant coûteuse, les documents non pertinents ne sont pas traduits. Il serait intéressant d'étudier le meilleur compromis coût / qualité de la classification pour lequel différentes longueurs de documents seraient considérées (seulement le titre, avec l'abstract ou non).
 


 

Ecole/université (pour les thèses et les stages)
Université du Pays Basque, Valence, Espagne / Université de Lorraine, Nancy
Niveau/diplôme (pour les stages)
M2