Ontologies et Corpus

Ontologies et Corpus

 

Les équipes Bibliome et BioSys ont développé les ontologies et les corpus annotés suivants :

Ontologies

  • BiPON (Bacterial interlocked Process ONtolgy)

Contexte

Les technologies haut débit produisent d’énormes quantités de données hétérogènes à tous les niveaux de la cellule. En parallèle, les mécanismes moléculaires impliqués dans l’adaptation de la cellule aux changements environnements sont de mieux en mieux connus. La structuration de ces données et des connaissances biologiques exige l’élaboration d’outils et des méthodes intégratifs pour partager et extraire des informations. Les bio-ontologies sont habituellement appropriés pour appréhender ce problème d’intégration car elles peuvent intrinsèquement formaliser et organiser différents niveaux et sources de connaissances, informations et données. Le défi est alors de disposer d’une ontologie qui pourrait imbriquer tous les niveaux cellulaires, allant d’une molécule unique à un processus cellulaire de plus  haut niveau et de relier ces entités aux données omiques, informations de séquence, jusqu’aux paramètres (vitesse de réaction, constante d’association, etc.). Une telle ontologie n’existe pas actuellement.

En collaboration avec le LRI (https://www.lri.fr/), nous avons développé BiPON, une ontologie permettant une représentation systémique multi-échelles des processus cellulaires bactériens et de relier ces processus  à leurs modèles mathématiques. BiPON est  composé de deux sous-ontologies, bioBiPON et modelBiPON. bioBiPON vise à organiser l’information biologique de façon systémique tandis que modelBiPON a pour but de décrire les modèles mathématiques (y compris les paramètres) associés à chaque processus biologique. Pour preuve de concept, nous déployons BiPON sur le processus de traduction dans son plus haut niveau de détails. Les deux sous-ontologies sont reliées par raisonnement automatique en utilisant des règles de jointure. Les processus biologiques sont donc automatiquement liés à leurs modèles mathématiques intégrant des paramètres spécifiques. 41 % des classes de BiPON ont été importées de différentes bio-ontologies existantes, tandis que les autres ont été manuellement définies et organisées. Actuellement, BiPON intègre les principaux processus d’expression des gènes bactériens. Ces processus sont suffisamment représentatifs pour regrouper la plupart des difficultés rencontrées dans la description formelle de la connaissance.

La formalisation de la connaissance utilisée dans BiPON est hautement flexible et générique. La plupart des processus cellulaires connus, les nouveaux participants ou d'autres sources de connaissance pourraient être insérés dans BiPON et reliés à leurs modèles mathématiques s'ils existent. BiPON ouvre donc de nouvelles perspectives prometteuses pour l'intégration et le partage des connaissance et pourrait être utilisée par de nombreuses communautés en biologie, biologie des systèmes, bioinformatiques ainsi que par la communauté émergente des modélisateurs de la cellule entière (whole-cell modeling).

Téléchargement

BiPON est distribuée sous la licence Creative Commons Attribution 4.0 (CC-by; https://creativecommons.org/licenses/by/4.0/) et peut être téléchargée ici.

Une ontologie jouet représentative de BiPON et permettant d'exploiter et d'explorer les règles de raisonnement automatique est disponible ici.


  • BiPOm (Bacterial interlocked Process Ontology for metabolism)

Contexte

La gestion et l'organisation des connaissances biologiques demeure un défi majeur en raison de la complexité et du niveau de sophistication des systèmes vivants. Récemment, les représentations systémiques se sont révélées prometteuses pour relever ce défi à l'échelle de l'ensemble de la cellule. Dans ces représentations, la cellule est considérée comme un système composé de sous-systèmes imbriqués. La question est maintenant de développer des outils pertinents pour formaliser la description systémique des cellules.

En collaboration avec le  LRIAgroParistech et GQE, nous avons développé BiPOm, une ontologie décrivant les processus métaboliques comme des sous-systèmes imbriqués et ce, en utilisant un ensemble minimal de classes et de propriétés. Nous avons formalisé explicitement les relations entre l'enzyme, son activité, les substrats et les produits de la réaction, ainsi que l'état actif de toutes les molécules impliquées. Nous avons également montré que l'information sur les molécules telles que les types moléculaires ou les propriétés moléculaires peut être déduite à l'aide des règles SWRL et du raisonnement automatique sur les instances de BiPOm. Les informations nécessaires à l'instanciation de BiPOm peuvent être extraites de bases de données existantes ou de bio-ontologies existantes. Dans l'ensemble, il en résulte un changement de paradigme où l'ancrage des connaissances est reporté de la molécule sur le processus biologique.
 

Téléchargement

BiPOm est distribuée sous la licence Creative Commons Attribution 4.0 (CC-by; https://creativecommons.org/licenses/by/4.0/) et peut être téléchargée ici.


  • Ontologie WheatPhenotype

WheatPhenotype est une ontologie au format Obo qui décrit les traits du blé tendre (Triticum aestivum) et les facteurs environnementaux qui affectent ces traits. Les traits incluent les traits de résistance, de développement, nutritionnels, de qualité boulangère, etc. Les facteurs environnementaux incluent les facteurs biotiques et abiotiques. 

Références

  1. Dialekti Valsamou, Robert Bossy, Marion Ranoux, Wiktoria Golik, Pierre Sourdille, Claire Nédellec. "Extraction d’information pour la sélection du blé par marqueur génétique". Actes de l'atelier IN-OVIVE 2ème édition des 25èmes Journées francophones d'Ingénierie des Connaissances, Clermont Ferrand, 14 mai 2014.
  2. Claire Nédellec, Robert Bossy, Dialekti Valsamou, Marion Ranoux, Wiktoria Golik, Pierre Sourdille. Information Extraction from Bibliography for Marker Assisted Selection in Wheat. In proceedings of Metadata and Semantics for Agriculture, Food & Environment (AgroSEM'14), special track of the 8th Metadata and Semantics Research Conference (MTSR’14), Springer Communications in Computer and Information Science, Series Volume 478, Karlsruhe, pp 301-313, Allemagne, 2014. DOI: 10.1007/978-3-319-13674-5_28
  3. Bossy et C. Nédellec. SamBlé. Moteur de recherche bibliographique sur la Sélection du blé assistée par marqueur. Projet FSOV Sélection du Blé Assistée par Marqueur.

OntoBiotope est une ontologie au format obo qui décrit tous les types d'habitats de microorganismes. La version BioNLP-ST'13 contient 1700 concepts. Elle indexe le moteur de recherche sémantique PubMed Biotope et le moteur de recherche du corpus Bacteria Biotope de BioNLP Shared Task.

Références

  1. Robert Bossy, Wiktoria Golik, Zorana Ratkovic, Dialekti Valsamou, Philippe Bessières, Claire Nédellec. An Overview of the  Gene Regulation Network and the Bacteria Biotope Tasks in BioNLP’13. BMC Bioinformatics, juillet 2015. 
  2. Robert Bossy, Julien Jourde, Alain-Pierre Manine, Philippe Veber, Erick Alphonse, Maarten van de Guchte, Philippe Bessières, Claire Nédellec. BioNLP Shared Task - The Bacteria Track. BMC Bioinformatics, (Suppl 11):S3, juin 2012.
  3. Bossy R., Golik W., Ratkovic Z., Bessières P., Nédellec C.. BioNLP shared Task 2013 - An Overview of the Bacteria Biotope Task. In Proceedings of the BioNLP 2013 Workshop, Association for Computational Linguistics, pages 74-82. Sofia, Bulgaria, 2013.
  4. Zorana Ratkovic, Wiktoria Golik, Pierre Warnier. BioNLP 2011 Task Bacteria Biotope - The Alvis System. BMC Bioinformatics 13(Suppl 11):S3, juin 2012.
  5. Zorana Ratkovic, Wiktoria Golik, Pierre Warnier, Philippe Veber, Claire Nédellec, "BioNLP 2011 Task Bacteria Biotope - The Alvis system", BioNLP workshop associé à ACL, Portland, Etats-Unis, 2011.
  6. Robert Bossy, Julien Jourde, Philippe Bessières, Maarten van de Guchte, Claire Nédellec, "BioNLP shared Tasks 2011 - Bacteria Biotope", BioNLP workshop associé à ACL, Portland, Etats-Unis, 2011.

  • Ontologie ATOL

ATOL, the Animal Trait Ontology for Livestock décrit les caractères des animaux d'élevage. Elle est développée par le département scientifique PHASE en collaboration avec l'équipe Bibliome

Références

  1. P.-Y. Le Bail, J. Bugeon, O. Dameron, A. Fatet, W. Golik, J.-F. Hocquette, C. Hurtaud, I. Hue, C. Jondreville, L. Joret, M.-C. Meunier-Salaün, J. Vernet, C. Nédellec, M. Reichstadt, P. Chemineau. Un langage de référence pour le phénotypage des animaux d’élevage : l’ontologie ATOL, INRA Prod. Anim., 2014, 27 (3), 195-208.
  2. Hue I , Bugeon J Dameron O, Fatet A, Hurtaud C, Joret L, Meunier-Salaün MC, Nédellec C, Reichstadt M, Vernet J, Le Bail PY. ATOL AND EOL ONTOLOGIES, STEPS TOWARDS EMBRYONIC PHENOTYPES SHARED WORLDWIDE?, 4th Mammalian Embryo Genomics meeting, Québec, octobre 2013.
  3. Salaün, M.-C., Bugeon, J., Dameron, O., Fatet, A., Hue, I., Hurtaud, C., Nédellec, C., Reichstadt, M., Vernet, J., Reecy, J., Park, C., Le Bail, P.-Y. ATOL: an ontology for livestock. In : Book of abstracts of the 63rd Annual Meeting of the European Federation of Animal Science, Bratislava (Slovaquie).Wageningen (NLD) : Wageningen Academic Publishers (EAAP Book of Abstracts, 18), page 299, 2012.
  4. Wiktoria Golik, Olivier Dameron, Jérôme Bugeon, Alice Fatet, Isabelle Hue, Catherine Hurtaud, Matthieu Reichstadt, Marie-Christine Salaün, Jean Vernet, Léa Joret, Frédéric Papazian, Claire Nédellec et Pierre-Yves Le Bail. " ATOL: the multi-species livestock trait ontology" in proceedings of The 6th Metadata and Semantics Research Conference (MTSR 2012), pp 289-300. Springer Verlag Communications in Computer and Information Science Serie. Cadiz, Espagne, 28 au 30 novembre 2012. DOI: 10.1007/978-3-642-35233-1_28
  5. M. C. Meunier-Salaun, J. Bugeon, O. Dameron, A. Fatet, I. Hue, C. Hurtaud, L. Joret, C. Nédellec, M. Reichstadt, J. Vernet, PY Le Bail., Les ontologies ATOL et /EOL: des outils en appui aux nouveaux challenges en production porcine : phénotypage et élevage de précision, Journées de la Recherche Porcine (JRP), 4 et 5 février 2014.

  • Ontologie TriPhase, « Terminologie pour la recherche d’information du département Phase » 

Objectif

La termino-ontologie Triphase est une représentation formelle des axes de recherche du département scientifique Physiologie animale et systèmes d’élevage (Phase) de l’Inra. A l’aide d’outils dédiés, elle permet d’analyser ces axes dans l’ensemble des documents produits par les chercheurs et les ingénieurs du département et référencés dans la base bibliographique ProdInra (Inra).

La termino-ontologie TriPhase a été conçue par les documentalistes du département Phase et l'équipe Bibliome de MaIAGE pour répondre aux besoins d’analyse stratégique du département Phase à travers l’étude de ses publications.

La structure de la termino-ontologie TriPhase est hiérarchique. Elle représente l’ensemble des thématiques de recherche du département Phase. Cet ensemble de thématiques de recherche est défini dans le document d’orientation scientifique du département (schéma stratégique de département 2010-2015). Elle contient 1 320 concepts désignés par 2 093 termes. Le niveau de détail important de TriPhase permet notamment d’analyser finement les thèmes mineurs et les produits de la recherche interdisciplinaire.

Utilisation

Les termes de TriPhase ont été utilisés pour analyser la répartition des concepts et leur évolution au cours du temps dans les publications de 2009 à 2013 des chercheurs du département Phase. L’outil d’analyse stratégique ANStrat développé par l’unité Inra MaIAGE permet de formuler des requêtes croisées sur les concepts, les unités, les partenaires, les supports de publication et d’en visualiser les résultats. La navigation interactive à travers la structure de TriPhase permet d’analyser les thématiques à différents niveaux de généralité.

Format et conditions de réutilisation

TriPhase est téléchargeable ici. TriPhase est distribuée sous licence CC-BY-SA license v3.0. Copyright Inra 2014.


Corpus annotés

  • Corpus LLL (Learning Language is Logic): corpus original de la compétition LLL. L'objectif de la compétition LLL est de comparer et d'évaluer les performances de systèmes d'Extraction d'Information pour l'identification d'interactions géniques et des gènes et des protéines qui interagissent. Le service d'évaluation est accessible en ligne. Noter que le corpus LLL diffère du corpus BioInfer LLL. Le corpus LLL Bioinfer propose une tâche d'extraction plus simple sur le même texte, les arguments des relations sont donnés et les relations ne sont pas dirigées.

References

  1. Nédellec C. "Learning Language in Logic - Genic Interaction Extraction Challenge" in Proceedings of the Learning Language in Logic (LLL05) workshop joint to ICML'05. Cussens J. and Nédellec C. (eds). p 31-37, Bonn, August 2005.

  • Corpus BI fait partie de la tâche Bacteria Interaction de la compétition BioNLP Shared Task 2011. L'objectif est l'extraction d'événements complexes d'interactions biologiques à partir de références Pubmed.

References

  1. Robert Bossy, Julien Jourde, Alain-Pierre Manine, Philippe Veber, Erick Alphonse, Maarten van de Guchte, Philippe Bessières, Claire Nédellec. BioNLP Shared Task - The Bacteria Track. BMC Bioinformatics, (Suppl 11):S3, juin 2012.
  2. Julien Jourde, Alain-Pierre Manine, Philippe Veber, Karen Fort, Robert Bossy, Erick Alphonse, Philippe Bessières, "BioNLP Shared Task 2011 - Bacteria Gene Interactions and Renaming", BioNLP workshop joint to ACL, Portland, USA, 2011.

  • Corpus GRN fait partie de la tâche Gene Regulation Network in Bacteria task de la compétition BioNLP Shared Task 2013. L'objectif est l'extraction du réseau de régulation complet de la sporulation chez Bacillus subtilis. Le service d'évaluation est accessible en ligne.

References

  1. Robert Bossy, Wiktoria Golik, Zorana Ratkovic, Dialekti Valsamou, Philippe Bessières, Claire Nédellec. An Overview of the  Gene Regulation Network and the Bacteria Biotope Tasks in BioNLP’13. BMC Bioinformatics, Vol 16 Suppl 10, 2015
  2. Bossy R., Bessières P., Nédellec C. BioNLP Shared Task 2013 – An overview of the Genic Regulation Network Task. In Proceedings of the BioNLP 2013 Workshop, Association for Computational Linguistics, Sofia, Bulgaria, 2013.

  • Corpus BB'11 fait partie de la tâche Bacteria Biotope de la compétition BioNLP Shared Task 2011. L'objectif est (1) d'identifier la bactérie et ses habitats qui doivent être catégorisés dans 7 types et (2) d'extraire les relations entre la bactérie et ses habitats.

References

  1. Robert Bossy, Julien Jourde, Alain-Pierre Manine, Philippe Veber, Erick Alphonse, Maarten van de Guchte, Philippe Bessières, Claire Nédellec. BioNLP Shared Task - The Bacteria Track. BMC Bioinformatics, (Suppl 11):S3, juin 2012.
  2. Robert Bossy, Julien Jourde, Philippe Bessières, Maarten van de Guchte, Claire Nédellec, « BioNLP shared Tasks 2011 - Bacteria Biotope », BioNLP workshop associé à ACL, Portland, Etats-Unis, 2011.

  • Corpus BB'13 fait partie de la tâche Bacteria Biotope de la compétition BioNLP Shared Task 2013. L'objectif est (1) d'identifier la bactérie et ses habitats qui doivent être catégorisés par les concepts de l'ontologie OntoBiotope et (2) d'extraire les relations entre la bactérie et ses habitats. Le service d'évaluation est accessible en ligne.

References

  1. Robert Bossy, Wiktoria Golik, Zorana Ratkovic, Dialekti Valsamou, Philippe Bessières, Claire Nédellec. An Overview of the  Gene Regulation Network and the Bacteria Biotope Tasks in BioNLP’13. BMC Bioinformatics, Vol 16 Suppl 10, 2015.
  2. Bossy R., Golik W., Ratkovic Z., Bessières P., Nédellec C. BioNLP shared Task 2013 – An Overview of the  Bacteria Biotope Task. In Proceedings of the BioNLP 2013 Workshop, Association for Computational Linguistics, Sofia, Bulgaria, 2013.

References

  1. Louise Deléger, Robert Bossy, Estelle Chaix, Mouhamadou Ba, Arnaud Ferré, Philippe Bessières, Claire Nédellec, Overview of the Bacteria Biotope Task at BioNLP Shared Task,  In Proceedings of the BioNLP Shared Task 2016 Workshop, Association for Computational Linguistics, Berlin, Germany 2016.


References

  1. Estelle Chaix, Bertrand Dubreucq, Abdelhak Fatihi, Dialekti Valsamou, Robert Bossy, Mouhamadou Ba, Louise Deléger, Pierre Zweigenbaum, Philippe Bessières, Loïc Lepiniec, Claire Nédellec. Overview of the Regulatory Network of Plant Seed Development (SeeDev) Task at the BioNLP Shared Task.  In Proceedings of the BioNLP Shared Task 2016 Workshop, Association for Computational Linguistics, Berlin, Germany 2016.

Les corpus et ontologies sont distribués sous la licence Creative Commons CC-BY-SA