Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

 

Vers des IA plus fiables : exploration de l’injection de connaissances dans un LLM

Contexte : 

Les grands modèles de langue (Large Language Model - LLM) conversationnels montrent depuis fin 2022 des performances impressionnantes sur de nombreuses tâches, mais leur capacité à fournir des réponses robustes et factuellement exactes reste une question ouverte.

Le stage abordera l'injection de connaissances dans un LLM pour explorer la véracité et la cohérence de ses réponses. La cohérence est ici au sens d'avoir la même réponse aux mêmes requêtes (même si formulées différemment) malgré le caractère pseudo-aléatoire des LLMs. La véracité est ici au sens de fournir la bonne réponse à une requête sur un fait décrit formellement dans une base de connaissance. Il s'agira concrètement d'injecter des connaissances décrites dans une base de connaissances par une méthode Retrieval-Augmented Generation (RAG) à un modèle (par exemple un Llama 3 8B), et d'étudier les réponses. Le RAG a l’avantage de permettre d’éviter une phase d’apprentissage automatique très consommatrice de moyens de calcul à haute performance.
 

Missions :

Le stage consistera :

- à développer un programme pour automatiser l’exécution de prompts (ex : avec Llama 3 via une API Ollama).

- à implémenter une méthode RAG sur une base de connaissance (par exemple  https://ctdbase.org/).

- à concevoir un premier jeu de données d'évaluation constitué de requêtes en langue naturelle et de réponses structurées, portant sur des faits extraits d’une base de connaissances.

- à comparer deux approches : l’interrogation brute du LLM et l’équivalent avec intégration d’une méthode RAG.
 

Les résultats de ce travail pourraient permettre de mieux comprendre les limites et opportunités des LLM dans des contextes nécessitant une précision factuelle. Cela pourrait amener à la production d’un poster ou d’un article scientifique dans une conférence du domaine (ex : PFIA).

 

Compétences :

Programmation informatique, notamment Python.

Une expérience avec la manipulation de LLM par API serait un plus.

Rédaction et communication scientifique.

Un attrait pour la recherche scientifique.

 

Informations :

Lieu : Laboratoire MaIAGE, centre INRAE de Jouy-en-Josas (78)
Plus d’informations : https://maiage.inrae.fr/contact_acces

Selon la grille réglementaire, soit environ 669,90€/mois

Pour postuler : Veuillez transmettre CV et courte lettre de motivation aux personnes en contact.



Bibliographie :

  • Pan, Shirui, et al. "Unifying large language models and knowledge graphs: A roadmap". IEEE Transactions on Knowledge and Data Engineering (2024).
  • Lewis, Patrick, et al. "Retrieval-augmented generation for knowledge-intensive nlp tasks". Advances in Neural Information Processing Systems (2020).
  • Petroni, Fabio, et al. "Language Models as Knowledge Bases?". Proceedings of the Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (2019).

     

 

Type
Stage
Durée
Entre 2 ou 4 mois
Date de début
Date limite de candidature
Contact
Ferré Arnaud, arnaud.ferre@inrae.fr
Deléger Louise, louise.deleger@inrae.fr
Inizan Olivier, olivier.inizan@inrae.fr