Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

Application du text mining à la recherche de données d’occurrences des psylles vecteurs de phytoplasmes des arbres fruitiers.

Durée
6 mois
Date de début
Date limite de candidature

Contexte :

Les maladies causées par les phytoplasmes aux arbres fruitiers ont des impacts économiques importants en Europe [A1]. Ces bactéries s’attaquent à différentes rosacées (Prunus, pommiers et poiriers), elles sont transmises par des insectes vecteurs psylles du genre Cacopsylla, et sont à l'origine de trois maladies : l'European stone fruit yellows (ESFY), l’Apple Proliferation (AP) et le Pear Decline (PD) [A2] Ces bactéries et leurs vecteurs sont originaires d'Europe où ils sont largement présents dans les vergers, ainsi que dans les habitats sauvages, ce qui empêche l'éradication des vecteurs et, par conséquent, l'endiguement des maladies. Les psylles vecteurs sont contrôlés principalement par des insecticides, mais l'évolution des pratiques agricoles (ex. réduction de l'utilisation des pesticides dans le cadre du plan EcoPhyto en France) et les réglementations européennes (ex. pathogènes retirés de la liste des organismes de quarantaine) pourraient être, voire sont déjà, la source de nouvelles émergences. Malgré les efforts de la recherche pour mieux comprendre la biologie et l'écologie des psylles vecteurs (ou potentiels vecteurs) de phytoplasmes (Action COST FA0807 2013, [A3- A8], la présence de ces insectes dans certaines parties de l'Europe, et même dans d'autres parties du monde touchées par ces maladies, reste incertaine [A9]. Or, les occurrences représentant l'étendue et la variabilité dans l'aire de répartition actuelle d'une espèce donnée sont essentielles pour caractériser et cartographier sa distribution potentielle dans le cadre de scénarios d'introduction accidentelle ou de changement climatique. Réduire cette incertitude sur la distribution géographique des vecteurs permettrait de mieux évaluer les risques posés par les phytoplasmes des arbres fruitiers et d’aider à la prise de décisions pour gérer ces risques à différentes échelles spatiales [A3].

Les modèles de distribution des espèces (SDM) sont devenus le principal outil de prédiction pour atteindre cet objectif. Les SDM ont prouvé leur utilité, entre autres, en biologie des invasions et en biologie de la conservation. En pathologie végétale, les SDM sont également de plus en plus utilisés pour prédire les distributions potentielles des phytopathogènes vectoriels. Cependant, la fiabilité de ces modèles dépend fortement de la qualité des données d'occurrence qui sont utilisées en entrée. Or, obtenir des données de haute qualité pour cartographier correctement la distribution d'une espèce est tout sauf une sinécure. Jusqu’à récemment, la démarche pouvait se résumer à un travail laborieux de ‘fouille de texte’ manuelle s’apparentant à une chasse au trésor avec ses difficultés (ex. accès aux références très anciennes), ses pièges (ex. erreurs de traduction) et ses énigmes typiques (ex. synonymie des noms d’espèces, confusion dans les noms de localités). Il nous aura ainsi fallu plusieurs années pour rassembler les données d’occurrences des deux espèces de psylles du complexe d’espèce Cacopsylla pruni. Nous avons récemment publié notre démarche, la base de données des 1975 occurrences rassemblées et les cartes générées [A10, A11].

Le web a démultiplié dans des proportions gigantesques la disponibilité de documents publiés et stockés numériquement y compris des documents très anciens (ex. manuscrit de Scopoli 1763 décrivant pour la première fois C. pruni), rendant la perspective d’une exploration systématique manuelle inatteignable.

Le text mining, ou plus précisément l’extraction automatique d’informations a pour objectif d’extraire et de structurer les informations contenues dans ce type de documents grâce à la mise en œuvre de techniques statistiques ou de machine learning, de traitement automatique de la langue et d’ingénierie de la connaissance. La grande diversité du vocabulaire utilisé a fait de la normalisation automatique des mentions du texte en fonction d’un référentiel, une étape majeure de cette extraction [A12, A14]. Un exemple en est le rattachement des mentions textuelles ‘European stone fruit yellows’, ‘mycoplasma-like organism’ ou ‘European prunus phytoplasmas’ à la référence taxonomique ‘Candidatus Phytoplasma prunorum’. Ainsi, la base Florilege agrège et normalise les informations obtenues automatiquement par extraction d’information à partir de plus de 3 millions de documents sur les microbes et leurs habitats - dont les phytoplasmes et leurs vecteurs (http://migale.jouy.inrae.fr/florilege/#&searchByTaxon=Candidatus%20Phyt…), [A13, A15]. En épidémiosurveillance, cette approche commence à être utilisée notamment par la Plateforme d’Epidémiosurveillance en Santé Végétale comme outil de veille (https://plateforme-esv.fr/).

Les résultats du text mining, combinés avec d’autres informations (ex. analyses des flux longs distances : air, échanges commerciaux, etc), dans des modèles prédictifs ouvre des perspectives très prometteuses pour une meilleure anticipation à court terme des décisions prophylactiques et pour une meilleure connaissance du potentiel de circulation des agents pathogènes. C’est l’objectif du projet ANR BEYOND (2021-2026, https://www6.inrae.fr/beyond/) dans lequel s’inscrit ce stage M2.

Missions :

Obj.: constituer une base de données aussi exhaustive que possible des données d’occurrences des psylles vecteurs de phytoplasme des arbres fruitiers par une approche text mining.

Le projet de Master porte sur l’extraction automatique et la modélisation de connaissances à partir de données textuelles pour obtenir des occurrences datées et géolocalisées. Le stage sera ciblé sur les données d’occurrences de trois espèces de psylles vecteurs.

Le travail s’inscrira dans le cadre plus général de l’extraction d’informations plus larges tels que les habitats de phytopathogènes (vectés ou non), les plantes hôtes, leurs phénotypes, les conditions d’habitabilité ou les maladies développé dans le projet BEYOND par l’unité MAIAGE et PESV. Un pipeline général de text mining inspiré de celui de Florilege et basé sur la plateforme AlvisNLP est en cours de développement dans l’unité MaIAGE (équipe Bibliome et plateforme bioinformatique Migale) (https://github.com/Bibliome/alvisnlp) [A16]. AlvisNLP exploite des méthodes d’apprentissage automatique supervisé basées sur des architectures neuronales et des approches à base de règles exploitant des informations linguistiques, lexicales, terminologiques et conceptuelles (thésaurus, nomenclatures, ontologies) [A17]. Le travail consistera à intervenir sur ce pipeline pour en améliorer la qualité sur la question spécifique des psylles.

Il s’agira dans un premier temps d’évaluer les résultats actuels produits par la plateforme en fonction des résultats attendus, puis d’identifier les étapes à consolider et enfin d’intervenir sur les étapes présentant le meilleur compromis investissement / qualité. Plusieurs dimensions complémentaires sont envisagées, (1) l’enrichissement et potentiellement la restructuration des thesaurus utilisés pour décrire les psylles, les espèces hôtes et les phytoplasmes, (2) l’exploitation de nouvelles sources documentaires, et (3) l’ajout de règles améliorant le traitement des ambiguïtés.

Trois résultats principaux sont attendus : (i) en nous appuyant le cas d’école ‘Cacopsylla pruni’ , le stagiaire mettra en œuvre du text ming et pourra ensuite comparer les avantages de cette approche (ex. rapidité/facilitation d’accès à l’information) et ses inconvénients par rapport à une recherche bibliographique manuelle classique ; (ii) fort de ce retour d’expérience croisée, le stagiaire constituera une base de données d’occurrences des psylles vecteurs des phytoplasmes responsables de l’Apple Proliferation et du Pear Decline. Ces résultats seront rendus librement accessibles au travers une base de donnée déposée dans le DataServe INRAE [A11], avant d’être publiés comme nous l’avons fait pour C. pruni [A10]. A terme, ces informations serviront à modéliser les aires de distributions actuelles, potentielles et futures des vecteurs, et à cartographier les zones à risque pour les pommiers et les poiriers. Ce travail est en cours de publication pour les Prunus ; (iii) les développements du stagiaire en text mining et son analyse approfondie des limitations et avantages de l’approche automatisée ouvrira des perspectives de généralisation à d’autres pathosystèmes (projet BEYOND).

Ce travail nécessitera une collaboration étroite entre un entomologiste spécialiste des insectes vecteurs d’une part (Nicolas Sauvion, unité PHIM, https://umr-phim.cirad.fr) et l’unité MaIAGE, https://maiage.inrae.fr/) dont une spécialiste de la recherche en extraction d’information orientée vers la connaissance (Claire Nédellec) et Robert Bossy, le responsable de la plateforme AlvisNLP qui apportera une formation et plus généralement l’accompagnement à son usage. Le stagiaire recevra également le soutien ponctuel de MaIAGE, Louise Deléger (CR) pour la partie text mining du pipeline et Mouhamadou Ba (IR) pour sa mise en œuvre informatique.
Le stage sera principalement localisé à PHIM et des visites ponctuelles à MaIAGE particulièrement en début de stage, seront programmées pour former le stagiaire. Des réunions régulières en visio complèteront le dispositif.

Compétences :

- Dernière année de Formation Supérieure BAC + 5
- Compétences en Science de la Vie avec au moins l’une des spécialités suivantes : écologie microbienne, entomologie, santé des plantes, systématique
- Compétences en informatique : systèmes d’information, programmation dans un langage parmi Java, Python, ou R.
- Une expérience en traitement automatique de la langue, en apprentissage automatique, en représentation des connaissances serait un plus.

- Un fort intérêt pour le travail pluridisciplinaire et l’analyse de l’écrit sont souhaités - Aptitude au travail en équipe
- Aisance à communiquer oralement.
- Langues : bonne maitrise de la lecture de l’anglais (lu).

Contact
Sauvion Nicolas, nicolas.sauvion@inrae.fr
Nédellec Claire, claire.nedellec@inrae.fr