Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

TOFFANO Antoine

Type
Sujet
Analyse comparative de méthodes neuronales de normalisation d’entités en domaine biologique
Date de début
Date de fin
Encadrant(s)
Louise Deléger, Arnaud Ferré
Equipe(s)
Contrat de recherche
SE
Description/résumé

Malgré un intérêt croissant de la communauté de recherche en extraction d’information, la normalisation d’entités reste un défi de taille. En domaine biologique/biomédical notamment, on observe une rareté et une dispersion des exemples d’entraînement, qui posaient jusqu’à récemment des difficultés aux approches par apprentissage. Mais depuis quelques années, des méthodes par apprentissage neuronal profond (ex : BioSyn – Sung et al., 2020 ; C-Norm – Ferré et al., 2020 ; Pattisapu et al., 2020) ont réussi à se démarquer sur certains jeux de données d’évaluation (ex : NCBI Disease Corpus, Bacteria Biotope 4, Custom CADEC).

Néanmoins, ces méthodes sont encore trop rarement évaluées sur plusieurs jeux de données distincts. Des travaux de notre équipe de recherche ont pourtant montré récemment une certaine sur-adaptation, c’est-à-dire qu’une méthode est souvent performante sur un jeu de données, sur lequel elle a été développée et publiquement évaluée, mais pas sur d’autres. Dans ce stage, nous proposons donc d’étudier la robustesse de méthodes état de l’art sur plusieurs jeux de données, et d’analyser comparativement les erreurs qui semblent encore résister aux approches neuronales profondes récentes.

Année de soutenance (pour les thèses ou les stages)
2022
Date de soutenance (pour les thèses)
Ecole/université (pour les thèses et les stages)
université de Rennes 1
Niveau/diplôme (pour les stages)
Master 1