BioControl Internship proposal 2026.pdf English version
Stage de 5 à 6 mois entre février et août 2026
Lieu : unité MaIAGE, Centre de recherche INRAE de Jouy en Josas, Université Paris-Saclay
Financement : gratification de stage selon les montants réglementaires
Mots clefs : Traitement Automatique de la Langue, apprentissage automatique, modèles de langue, extraction d’information, protection des plantes, biosolution
Encadrants
Claire Nédellec, équipe Bibliome, unité MaIAGE, INRAE. claire.nedellec@inrae.fr
Thomas Presseq, société Syndev. thomas.pressecq@inrae.fr
L’équipe de recherche Bibliome est spécialiste du Traitement Automatique de la Langue (TAL) et de l’extraction d’information. La société Syndev est spécialiste des biosolutions et de leur usage.
Profil
- Master 2 en informatique orienté Traitement Automatique des Langues et/ou Apprentissage automatique ou ingénieur agro.
- Expérience de modèle de langue
- Expérience en TAL et/ou utilisation de la bibliothèque HuggingFace
- Maîtrise de l’anglais ou français courant.
- Compétences techniques requises : Python et/ou Java
- Intérêt pour les applications en biologie et le travail interdisciplinaire.
Candidature
CV, lettre de motivation et relevés de notes L3, M1 et M2 sont à adresser à claire.nedellec@inrae.fr
Sujet du stage
Contexte
Ce stage s’inscrit dans le projet OAD Succes - Outil d'Aide à la Décision pour Favoriser l’usage et le Succès de Biosolutions pour la Santé des Plantes. Améliorer l’utilisation de biosolutions comme alternative aux pesticides de synthèse passe par une bonne connaissance des facteurs d’efficacité. Les biosolutions contiennent des molécules actives, flore microbienne positive, extraits de plantes dont l’application est testée sur différentes plantes ou parties de plantes (racines, feuilles). Les modalités d’application que sont le dosage des molécules actives, la fréquence, ou la formulation (granulé, pulvérisation) ont un effet déterminant sur l’efficacité. Les biosolutions sont expérimentées dans des milieux très contrôlés ou proche du terrain pour des résultats contrastés. Les effets se mesurent en termes de réduction des bioagresseurs ou de réduction des dommages aux plantes. La littérature scientifique contient un grand nombre de description d’expérimentations de biosolutions dans différentes conditions et de leurs résultats.
Exemple de texte :
In the present study, bacterial endophytes B. subtilis GLB191 and B. pumilus GLB197 originally isolated from grapevine leaves demonstrated their biocontrol potentials against downy mildew disease in leaf disks and field conditions. [Zhang et al ., Crop protection, 2017].
L’objectif du projet est d’automatiser la collecte et la formalisation de ces informations réalisées jusqu’ici manuellement. Elles seront produites sous formes structurée et standardisée pour permettre leur insertion et leur comparaison avec les informations obtenues manuellement.
Les résultats du stage seront utilisés par l’application d’aide à la décision développée par la société SYNDEV dans un objectif d’accompagnement des agriculteurs vers la réduction des intrants de synthèse.
Objectif
Le stage de recherche porte sur le développement de méthodes automatiques d’extraction d’information à partir de documents en anglais sur les biosolutions, leurs modalités d’application, les conditions expérimentales et leur efficacité. Ces informations des différents paramètres expérimentaux et leurs valeurs sont exprimées sous différentes formes dans les documents, textes, tableaux, figures. Le projet dispose préalablement d’informations de qualité extraites manuellement des documents.
Le stage aura pour objectif de développer des méthodes d’extraction d’information dans les textes scientifiques basées sur l’apprentissage profond avec peu ou pas d’exemples (zero- few-shot deep learning). En collaboration avec les biologistes du projet, les types d’entités les plus pertinentes seront choisies et différents modèles de langue seront testés et adaptés en fonction de la nature des entités (nom propre, mot composé variable, mesure) et de leur contexte (texte, table). Les informations précédemment acquises manuellement seront exploitées pour entraîner les modèles et les évaluer. Les modèles envisagés prendront en compte des contraintes réalistes de frugalité, des modèles très larges pourront être testés à des fins de comparaisons.
Les conclusions du stage incluront une analyse des verrous restants et des solutions prometteuses à approfondir.