Équipe Bibliome

Acquisition et formalisation de connaissances Ă  partir de textes

Responsable : Claire NĂ©dellec

L'équipe Bibliome développe des méthodes de traitement du langage naturel (NLP) et d'apprentissage automatique (ML) pour extraire des informations de textes dans le domaine de la biologie.

Nous travaillons sur des tâches spécifiques d'extraction d'information (IE) telles que la reconnaissance d'entités, la normalisation d'entités (entity linking) et l'extraction de relations. Nous nous concentrons sur les méthodes qui combinent l'information linguistique, l'apprentissage automatique et la connaissance du domaine (ontologies et taxonomies) et qui sont capables de traiter un petit nombre d'exemples d'apprentissage.

Nous appliquons nos méthodes à un large éventail d'applications en Sciences de la Vie - de la diversité microbienne à la biologie végétale et à la surveillance épidémiologique.

Une part importante de notre activité consiste également à promouvoir le développement et l'évaluation de systèmes IE en organisant des challenges.


Projets

Projets en cours

Omnicrobe : dĂ©veloppement d’une base de donnĂ©es d'informations sur les habitats et les phĂ©notypes microbiens Ă  partir de textes. CRD ANSES. 2022-2023. 

HoloOligo Structure diversity, functionality and modulation of milk oligosaccharides in monogastric livestock species: towards optimal development of rabbit and pig holobionts. Project-ANR-21-CE20-0045 - Biologie des animaux, des organismes photosynthĂ©tiques et des microorganismes

TIERS - ESV. Traitement de l’Information et Expertise des Risques Sanitaires pour l’EpidĂ©miosurveillance en SantĂ© VĂ©gĂ©tal. IB2021 Departments INRAE MathNum and SPE.

TyDI Terminology Design Interface. DiBiSO, université Paris-Saclay, INIST-CNRS, BIA-INRAE et MaIAGE-INRAE. 2021-2023.

Beyond - ANR Programme Prioritaire de Recherche Cultiver et protĂ©ger autrement. Building epidemiological surveillance and prophylaxis with observations both near and distant Projet IA-20-PCPA-0002

D2KAB Data to Knowledge in Agriculture and Biodiversity. ANR AAPG 2018-CE23-0017.

Projets récents

ENovFood Linking a phenotypic and a network food microbe databases: an application to food microbial ecology and food innovation. Metaprogramme MEM INRA. 2018-2020.

OntoBedding. AmĂ©lioration de plongements lexicaux par des ontologies pour leur adaptation aux domaines de spĂ©cialitĂ©, avec le LIMSI. Projet financĂ© par le DIM RFSI. 2019

Visa TM (Towards an advanced infrastructure in text-mining) CoSO project, (2017-2019)

OpenMinTeD (Open Mining Infrastructure for Text and Data) Infrastructure H2020 project (2015-2018)

D-ONT, Exploitation optimisĂ©e des bases de donnĂ©es phĂ©notypiques - Des ontologies pour le partage d’information, ACI Phase 2016-2018.

IMSV, Institut de modĂ©lisation des systèmes vivants, Lidex de l'UniversitĂ© Paris-Saclay (2014-2016)

SeeDev, Regulations in the development of Arabidopsis thaliana seed (Challenge Lidex CDS) (2015)

OntoBiotopeMetaprogramme INRA MEM (Metagenomics of microbial ecosystems). (2012-2013).

Triphase: Semantic information system for publications in animal physiology and agricultural systems. PHASE department (2013-2014).

QuaeroAutomatic multimedia content processing. Oséo. (2008-2013).

FSOV SAM BlĂ©Selection of wheat by genetic markers. Fond de soutien Ă  l'obtention vĂ©gĂ©tale (2010-2013).


Animation

Workgroup Labex DigiCosme D2K (from Data to Knowledge)

BioNLP-Open Shared Task 2019: annotated corpora and online evaluation services

BioNLP-Shared Task (201120132016): annotated corpora and on-line evaluation services

LLL, Learning Language in Logics (2005)


Membres

Photo Claire NĂ©dellecClaire NĂ©dellec, Directrice de Recherche, responsable de l'Ă©quipe Bibliome
Robert BossyRobert Bossy, Ingénieur de Recherche, responsable de la Suite Alvis
Louise DelegerLouise Deléger, Chercheuse
Photo Arnaud FerréArnaud Ferré, Postdoc
Anfu TangAnfu Tang, étudiant en thèse
Mariya BorovikovaMariya Borovikova, étudiante en thèse
Elisa LubriniElisa Lubrini, R&D
Clara SauvionClara Sauvion, R&D

Anciens membres

Photo BaMouhamadou Ba, Postdoc, projet OpenMinTeD
Photo Estelle ChaixEstelle Chaix, Postdoc, projet OpenMinTeD
Philippe BessièrePhilippe Bessières, Directeur de recherche
Phot Dielekti ValsamouDialekti Valsamou, Doctorante, IDEX IDI

Logiciels

Visitez-nous sur GitHub.

  • Alvis NLP/ML est une chaĂ®ne de traitement pour l'annotation sĂ©mantique de documents textuels, intĂ©grant des outils de traitement automatique des langues naturelles pour la segmentation en mots/phrases, la reconnaissance d'entitĂ©s nommĂ©es, l'analyse de termes, le typage sĂ©mantique et l'extraction de relations. Ces outils exploitent des ressources externes, comme des terminologies ou des ontologies. AlvisNLP/ML propose plusieurs outils pour l'acquisition (semi)-automatique de ces ressources, fondĂ©es sur des techniques d'apprentissage automatique. La chaĂ®ne est facilement configurable et extensible par ajout de nouveaux composants. Ce travail a Ă©tĂ© partiellement financĂ© par le projet europĂ©en Alvis et le projet Quaero. Voir NĂ©dellec et al., Handbook on Ontology, 2009.

  • AlvisAE (Alvis Annotation Editor) est un Ă©diteur d'annotation en ligne. Il permet de visualiser et d'annoter les entitĂ©s et les relations d'un texte. Il inclut des fonctions de gestion de campagne d'annotation. Il permet d'annoter les entitĂ©s par les concepts d'une ontologie et de rĂ©viser l'ontologie en parallèle. Il est intĂ©grĂ© Ă  AlvisNLP. Ce travail a Ă©tĂ© partiellement financĂ© par le projet Quaero. Voir LAW VI paper pour plus de dĂ©tails.

  • AlvisIR (Alvis Information Retrieval) is an on-line generic semantic search engine ; only few hours are needed to create a a new instance for a given document collection and an ontology. A user query with the ontology concepts retrieves all documents that contain the concepts, in the form of specific concepts, or synonyms. AlvisIR semantic search engine also handles relational queries. See for example search on biotopes of microorganisms . Part of this work has been funded by the European project Alvis and the French project Quaero.

  • BioYaTeA is an extension of the YaTeA term extractor that deals with prepositional attachments and adjectival participle. It extracts terms from documents in French and in English. Its distribution includes post-filtering of irrelevant terms. It is publicly available as CPAN module. Part of this work has been funded by the European project Alvis and the French project Quaero. See (Golik et al., CiCLING'2013) for more details.

  • TyDI (Terminology Design Interface) is a collaborative tool for the manual validation and structuring of terms either originating from terminologies or extracted from training corpus of textual documents. It is used on the output of so-called term extractor programs (like BioYatea), which are used to identify candidates terms (e.g. compound nouns). With TyDI, a user can validate candidate terms and specify synonymy/hyperonymy relations. These annotations can then be exported in several formats, and used in other natural language processing tools. Part of this work has been funded by the French project Quaero. More details (Golik et al., Ekaw 2010 ).


Online Services

Semantic search engines based on the AlvisIR technology

  • Biotope relational search engine indexes all PubMed references on habitats of microorganisms and phenotypes (2,3 millions references) with Alvis Suite technology and OntoBiotope Ontology. Funded by OpenMinTeD, Quaero project and MEM metaprogramme.

  • SamBlĂ© indexes a large set of references on genetic markers and phentoypes in bread wheat with Alvis Suite technology and Wheat Trait Ontology. FSOV SamBlĂ© Project and OpenMinTeD

  • SeeDev indexes a large set of references on molecular mechanism involved in seed development using Alvis Suite technology. Supported by UPSay CDS&IMSV projects and OpenMinTeD.

  • TriPhas’IR indexes the publications of the PHASE scientific department (2010-2014) with the TriPhase termino-ontology.

  • AnimalIR indexes Animal Journal articles with the ATOL ontology

Omnicrobe

  • Omnicrobe is an online database that integrates information on microbe habitats and phenotypes from articles and databases, BRC, and genetic databases.