[English version in the attached PDF document]
Contexte :
La normalisation d’entités (NE) est une étape clé de l’extraction d’information biomédicale. Elle vise à associer une mention textuelle identifiée (ex : une mention de gène ou de protéine) à un concept dans une base de connaissances (KB) (ex : UniProt ou NCBI Gene). La NE est rendue difficile par la forte variation terminologique : une même entité biomédicale peut être désignée par de nombreuses formes de surface (ex : abréviations, synonymes, variantes orthographiques), souvent très différentes des labels présents dans les KB. De plus, il peut y avoir certaines difficultés supplémentaires selon le type des mentions et le style des textes abordés. Par exemple, la normalisation de mentions de gènes ou de protéines est rendue particulièrement difficile par l’ambiguïté des abréviations courtes (ex : abréviations identiques pour des espèces différentes), par les variations typographiques porteuses d’informations biologiques (ex : la casse pour différencier le gène humain versus animal), ainsi que par le fait qu’une même forme de surface peut désigner indifféremment un gène ou une protéine qu’il code. Dans tous les cas, la NE vise justement à assurer l’identification unique et cohérente des concepts mentionnés dans les textes, garantissant ainsi l’intégration et la comparaison fiables de données issues de sources hétérogènes.
L’approche classique consiste à affiner (fine-tuning) un modèle de langue sur des exemples annotés, puis à mesurer une similarité entre la représentation d’une mention à normaliser et les représentations des concepts [Sung et al., 2020]. Ces méthodes donnent de bons résultats, mais nécessitent souvent des jeux d’entraînement étendus et un ajustement dépendant du domaine. À l’inverse, les approches récentes par apprentissage en contexte (ICL) exploitent directement les capacités de raisonnement et les connaissances préalables des grands modèles de langue (LLMs) en formulant en langue naturelle la tâche dans un prompt, ce qui permet de les utiliser sans entraîner ni ajuster le modèle.
Cependant, l’application de l’ICL à la NE biomédicale reste encore très peu explorée. Cela peut s’expliquer par un obstacle majeur : les descriptions des concepts ainsi que leur quantité dans les KB sont volumineux et peuvent dépasser les limites de tokens des modèles, rendant difficile leur inclusion complète dans un même prompt.
Missions :
Le stage consistera à :
- reproduire et analyser les résultats de l’article de Luo et al. (2025) sur l’apport du contexte pour la normalisation d’entités biomédicales ;
- expérimenter différentes stratégies d’apprentissage en contexte (ICL) pour la normalisation d’entités, en particulier pour les mentions de gènes et de protéines ;
- proposer et évaluer des stratégies permettant de contourner les limites de tokens des LLMs, par exemple via des méthodes de filtration de candidats à haut rappel ;
- explorer des approches visant à réduire les hallucinations des LLMs, notamment par l’intégration de méthodes de type Retrieval-Augmented Generation (RAG) ;
- évaluer les performances des approches proposées sur des jeux de données de référence du domaine biomédical, notamment BioCreative VI Bio-ID et JNLPBA.
Les résultats de ce travail pourront contribuer à une meilleure compréhension des usages possibles des LLMs pour la NE biomédicales et pourront donner lieu à la rédaction d’un poster ou d’un article scientifique.
Compétences :
Programmation informatique, notamment en Python.
Connaissances en traitement automatique du langage naturel et en apprentissage automatique.
Intérêt pour les grands modèles de langue (LLMs) et les méthodes de prompting.
Un intérêt pour la bio-informatique ou les applications en biomédecine serait un plus.
Capacité de lecture, d’analyse et de rédaction scientifique.
Goût pour la recherche.
Informations :
Lieu : principalement au LISN (CNRS & Université Paris-Saclay) à Gif-sur-Yvette/Orsay, et à MaIAGE (INRAE & Université Paris-Saclay) à Jouy-en-Josas.
Durée : 6 mois
Période : pas avant mi-mars 2026
Gratification : selon la grille réglementaire (environ 660€/mois)
Pour postuler :
Merci d’envoyer un CV et une courte lettre de motivation à toutes les personnes en contact.
Bibliographie :
- Sung, M., Jeon, H., Lee, J., & Kang, J. (2020). Biomedical entity representations with synonym marginalization. Association for Computational Linguistics (ACL).
- Luo, G., Shi, N., Wang, G., & Tang, B. (2025). Contextual information contributes to biomedical named entity normalization. Journal of Biomedical Informatics
- Pérez-Pérez, M., ... & Krallinger, M. (2017). Evaluation of chemical and gene/protein entity recognition systems at BioCreative V. 5: the CEMP and GPRO patents tracks.
- Huang, M. S., Lai, P. T., Tsai, R. T. H., & Hsu, W. L. (2019). Revised JNLPBA corpus: a revised version of biomedical ner corpus for relation extraction task. arXiv:1901.10219