Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

 

Wheat Trait and Phenotype : une ontologie pour l’étude l’annotation sémantique de données et de textes.

Résumé

Référence de WTO http://doi.org/10.15454/1.4382637738008071E12

L’ontologie Wheat Trait and Phenotype Ontology (WTO) définit les classes de facteurs et les traits phénotypiques associés pour le blé tendre. Sa mise au point à travers plusieurs utilisations complémentaires pour le développement de service d’accès aux données phénotypiques : l’extraction d’information à partir de textes et le liage de données, l’interrogation fédérée par alignement d’ontologie et la mise au point de méthodes de TAL. La version publiée en 2024 se montre robuste, complète et richement structurée grâce à la collaboration interdisciplinaire impliquant des compétences d’INRAE en recherche et ingénierie en Intelligence Artificielle, Bioinformatique, Représentation des Connaissances et Web Sémantique, Système d’Information dans le projet ANR D2KAB.

Contexte et enjeux 

Les variétés de blé présentent une grande diversité de traits et de phénotypes. Les expériences de sélection variétale en lien avec le génotype sont documentées par un grand nombre d'ouvrages scientifiques et de données d'observation. Le recoupement de ces informations complémentaires est essentiel à l'étude de la relation génotype-phénotype, et plus généralement à l'amélioration de la sélection du blé pour répondre notamment aux enjeux de changement climatique et d’alimentation.

Le portail de découverte de données international Faidare (FAIR Data-finder for Agronomic Research) a pour ambition d’agréger ces informations et d’offrir aux utilisateurs une interface pour exprimer des requêtes fédérées de manière expressive et transparente grâce à la standardisation et à la structuration du vocabulaire de traits et phénotype. Faidare utilise la Crop ontology CO_321 pour indexer les informations de terrain avec leurs protocoles et unités. Nous avons développé l’ontologie Wheat Trait and Phenotype Ontology (WTO) comme moyen adapté à l’extraction et l’indexation d’information de la littérature scientifique par des méthodes de traitement automatique de la langue (TAL) qui soit interopérable avec Crop ontology CO_321

Résultats

WTO est le résultat d’un travail interdisciplinaire de longue haleine. Elle décrit les facteurs environnementaux et les traits phéntypiques dans toute leur diversité, développement, agronomie, résistance au stress, qualité boulangère, etc., en 748 classes. Les classes de résistances aux maladies fongiques sont notamment très détaillées. L’abondance des classes et des synonymes en fait une ressource sémantique complète dont la navigation est facilitée par sa structure profonde. 

Notre workflow d’extraction d’information de la littérature basé sur AlvisNLP extrait et normalise les mentions de traits phénotypiques par les classes de WTO [5], interrogeables par le moteur de recherche bibliographique AlvisIRSamBlé opéré par la plateforme Migale [2].

Pour évaluer la qualité de l’extraction nous avons créé le corpus Taec (Triticum aestivum corpus) [3, 8] annoté manuellement par les mentions de taxon et de traits phénotypiques de 520 documents suivant des consignes détaillées [7].

L’intégration de données expérimentales et textuelles dans Faidare a nécessité l’alignement complexe des classes des deux ontologies WTO et CO_321 par un travail interdisciplinaire étroit. L’alignement est représenté dans le standard SSSOM (Simple Standard for Sharing Ontological Mappings) [9] - standard à l’évolution ce travail a contribué – et justifié par la formalisation de règles explicites d’alignement [4]. WheatGenomicsSLKG est un premier prototype intégré réalisé en RDF [10] grâce à la conversion de WTO en SKOS/OWL [11]. 

Données

  1. WTO AgroPortal : https://tinyurl.com/4bcksm84
  2. AlvisIR : https://bibliome.migale.inrae.fr/wheat/alvisir/webapi/search.
  3. Triticum aestivum trait Corpus, (Taec) :  https://doi.org/10.57745/GCYG3Q,
  4. Alignment of WTO and CO_321 ontology classes : https://doi.org/10.57745/ZLJYQO

Articles

  1. Claire Nédellec, Robert Bossy, Dialekti Valsamou, Marion Ranoux, Wiktoria Golik, Pierre Sourdille. Information Extraction from Bibliography for Marker Assisted Selection in Wheat. In Proceedings of Metadata and Semantics for Agriculture, Food & Environment (AgroSEM'14), special track of the 8th Metadata and Semantics Research Conference (MTSR’14), Springer Communications in Computer and Information Science, Series Volume 478, Karlsruhe, pp 301-313, Allemagne, 2014. DOI: 10.1007/978-3-319-13674-5_28. https://hal.archives-ouvertes.fr/hal-01132767v1

  2. Claire Nédellec, Liliana Ibanescu, Robert Bossy, Pierre Sourdille (2020). WTO, an ontology for wheat traits and phenotypes in scientific publications. 18(2) Genomics & Informatics. juin 2020. doi: 10.5808/GI.2020.18.2.e14

  3. Claire Nédellec, Louise Deleger, Clara Sauvion. Guidelines for the Annotation of the Taec Corpus - Phenotype and Trait information in Wheat. INRAE MaIAGE. 2023. hal-04118664 https://doi.org/10.57745/GCYG3Q 

  4. Claire Nédellec, Clara Sauvion, Robert Bossy, Mariya Borovikova, Louise Deléger. (2024) TaeC: a Manually annotated text dataset for trait and phenotype extraction and entity linking in wheat breeding literature. Plos One. June 2024. 10.1371/journal.pone.0305475.

  5. Claire Nédellec, Sophie Aubin, Clara Sauvion, Liliana Ibanescu, Sonia Bravo, Jacques Le Gouis, Thierry Marcel, Cyril Pommier, Robert Bossy, Michaël Alaux. Mapping bread wheat trait ontologies for semantic interoperability. F1000Research. 30 Sept, 2024. https://doi.org/10.12688/f1000research.154860.1

  6. Nadia Yacoubi Ayadi, Stephan Bernard, Robert Bossy, Marine Courtin, Bill Gates Happi Happi, Pierre Larmande, Franck Michel, Claire Nédellec, Catherine Roussey, Catherine Faron. (2024) A Unified Approach to Publish Semantic Annotations of Agricultural Documents as Knowledge Graphs. Smart Agricultural Technology, 2024.100484, ISSN 2772-3755, https://doi.org/10.1016/j.atech.2024.100484.

  7. Nadia Yacoubi, Catherine Faron, Claire Nédellec, Sophie Aubin, Michael Alaux,  Franck Michel, Robert Bossy.The Wheat Trait and Phenotype Ontology v3.2. in OWL/SKOS, Data in Brief. (submitted 13/11/2024).

Autres références

Xinzhi Yao, Yun Liu, Qidong Deng, Yusha Liu, Xinchen Ma, Yufei Shen, Qianqian Peng, Zaiwen Feng, Jingbo Xia*. RTO, A Specific Crop Ontology for Rice Trait Concepts. Annual International Conference on International Society for Computational Biology (ISMB), Madison, WI, 10-14 July 2022 (Session Bio-Ontologies COSI). https://doi.org/10.5281/zenodo.6950749

Annotation sémantique de traits phénotypiques du blé
Légende logo ou schéma

Un exemple de recherche d’information utilisant WTO pour identifier les variétés et leur génotype en lien avec un trait de résistance aux bioagresseurs.