Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

Vers un Biocontrôle Efficace : Extraction Automatique des Résultats expérimentaux de la littérature scientifique

BioControl Internship proposal 2026.pdf English version

Stage de 5 à 6 mois entre février et août 2026

Lieu : unité MaIAGE, Centre de recherche INRAE de Jouy en Josas, Université Paris-Saclay

Financement : gratification de stage selon les montants réglementaires 

Mots clefs : Traitement Automatique de la Langue, apprentissage automatique, modèles de langue, extraction d’information, protection des plantes, biosolution

Encadrants

L’équipe de recherche Bibliome est spécialiste du Traitement Automatique de la Langue (TAL) et de l’extraction d’information. La société Syndev est spécialiste des biosolutions et de leur usage.

Profil

  • Master 2 en informatique orienté Traitement Automatique des Langues et/ou Apprentissage automatique ou ingénieur agro.
  • Expérience de modèle de langue
  • Expérience en TAL et/ou utilisation de la bibliothèque HuggingFace
  • Maîtrise de l’anglais ou français courant.
  • Compétences techniques requises : Python et/ou Java
  • Intérêt pour les applications en biologie et le travail interdisciplinaire. 

Candidature 

CV, lettre de motivation et relevés de notes L3, M1 et M2 sont à adresser à  claire.nedellec@inrae.fr

Sujet du stage

Contexte

Ce stage s’inscrit dans le projet OAD Succes - Outil d'Aide à la Décision pour Favoriser l’usage et le Succès de Biosolutions pour la Santé des Plantes. Améliorer l’utilisation de biosolutions comme alternative aux pesticides de synthèse passe par une bonne connaissance des facteurs d’efficacité. Les biosolutions contiennent des molécules actives, flore microbienne positive, extraits de plantes dont l’application est testée sur différentes plantes ou parties de plantes (racines, feuilles). Les modalités d’application que sont le dosage des molécules actives, la fréquence, ou la formulation (granulé, pulvérisation) ont un effet déterminant sur l’efficacité. Les biosolutions sont expérimentées dans des milieux très contrôlés ou proche du terrain pour des résultats contrastés. Les effets se mesurent en termes de réduction des bioagresseurs ou de réduction des dommages aux plantes. La littérature scientifique contient un grand nombre de description d’expérimentations de biosolutions dans différentes conditions et de leurs résultats. 

Exemple de texte :

In the present study, bacterial endophytes B. subtilis GLB191 and B. pumilus GLB197 originally isolated from grapevine leaves demonstrated their biocontrol potentials against downy mildew disease in leaf disks and field conditions. [Zhang et al ., Crop protection, 2017].

L’objectif du projet est d’automatiser la collecte et la formalisation de ces informations réalisées jusqu’ici manuellement. Elles seront produites sous formes structurée et standardisée pour permettre leur insertion et leur comparaison avec les informations obtenues manuellement.

Les résultats du stage seront utilisés par l’application d’aide à la décision développée par la société SYNDEV dans un objectif d’accompagnement des agriculteurs vers la réduction des intrants de synthèse.

Objectif

Le stage de recherche porte sur le développement de méthodes automatiques d’extraction d’information à partir de documents en anglais sur les biosolutions, leurs modalités d’application, les conditions expérimentales et leur efficacité. Ces informations des différents paramètres expérimentaux et leurs valeurs sont exprimées sous différentes formes dans les documents, textes, tableaux, figures. Le projet dispose préalablement d’informations de qualité extraites manuellement des documents. 

Le stage aura pour objectif de développer des méthodes d’extraction d’information dans les textes scientifiques basées sur l’apprentissage profond avec peu ou pas d’exemples (zero- few-shot deep learning). En collaboration avec les biologistes du projet, les types d’entités les plus pertinentes seront choisies et différents modèles de langue seront testés et adaptés en fonction de la nature des entités (nom propre, mot composé variable, mesure) et de leur contexte (texte, table). Les informations précédemment acquises manuellement seront exploitées pour entraîner les modèles et les évaluer. Les modèles envisagés prendront en compte des contraintes réalistes de frugalité, des modèles très larges pourront être testés à des fins de comparaisons.

Les conclusions du stage incluront une analyse des verrous restants et des solutions prometteuses à approfondir.

Type
Stage
Durée
5 à 6 mois susceptible d'être prolongé en CDD
Date de début
Date limite de candidature
En savoir plus
Contact
Nédellec Claire, claire.nedellec@inrae.fr
Presseq Thomas, thomas.pressecq@inrae.fr