VASQUEZ REINA Luis Antonio

Type
Sujet
Classification automatique de documents pour la surveillance épidémiologique en santé végétale
Date de début
Date de fin
Encadrant(s)
Robert Bossy
Equipe(s)
Description/résumé
La Plateforme d'Épidémiosurveillance en Santé Végétale collecte chaque semaine plusieurs milliers de documents de langues variées par "web scrapping" qu'elle veut classer en fonction de leur pertinence et de
leur similarité pour réduire le temps de travail. La grande diversité des sujets évoluant au cours du temps, des genres et des langues rend la tâche complexe. Les premières expériences réalisées avec fastText sont prometteuses. Plusieurs pistes de recherche sont envisagées, telles que:
  • exploiter un score de confiance calculĂ© sur les URL des documents, exploiter les mots-clefs de la requĂŞtes de web scrapping, ou plus gĂ©nĂ©ralement exploiter des entitĂ©s d'intĂ©rĂŞt (espèces, malades) reconnues dans les documents;
  • tester d'autres mĂ©thodes que fastText;
  • comparer les performances des modèles de langue multilingues par rapport aux modèles de langue pour l'anglais calculĂ© après traduction.
La traduction étant coûteuse, les documents non pertinents ne sont pas traduits. Il serait intéressant d'étudier le meilleur compromis coût / qualité de la classification pour lequel différentes longueurs de documents seraient considérées (seulement le titre, avec l'abstract ou non).
 


 

Ecole/université (pour les thèses et les stages)
Université du Pays Basque, Valence, Espagne / Université de Lorraine, Nancy
Niveau/diplĂ´me (pour les stages)
M2