Bases de données

Une activité concernant la conception et le développement de base de données s'est développée dans l'unité. Les bases de données constituent en effet un enjeu essentiel de la bioinformatique pour la structuration et l'exploitation de la masse de données produites par les programmes de génomique. En parallèle, la diffusion des méthodes issues des recherches de l'unité MaIAGE auprès de la communauté des biologistes, bioanalystes ou bioinformaticiens se fait en grande partie grâce aux logiciels qui mettent en oeuvre ces méthodes

Notre objectif est de disposer, à terme, d'un ensemble de bases cohérent du point de vue de sa conception et de ses interfaces qui seront le fondement du futur système d'information de l'unité. Les choix conceptuels que nous avons effectués sont :

  • l'utilisation du modèle relationnel pour la conception et l'implĂ©mentation des modèles physiques,
  • la centralisation physique des donnĂ©es sur un serveur SUN/Unix national,
  • le dĂ©veloppement d'interfaces Web conviviales pour accĂ©der Ă  l'ensemble des bases.

Les contraintes techniques que nous nous sommes imposés concernent d'une part l'utilisation de logiciels libres permettant la diffusion des bases et de leurs interfaces, et d'autre part l'utilisation de logiciels et de modules standards permettant un portage aisé sur différentes plates-formes. Toutes les bases de données de l'unité sont implémentées sur un serveur PostgreSQL (Système de Gestion de Base de Données Relationnel Objet). Les traducteurs (parsers) et les interfaces Web ont été réalisés en Perl à l'aide de modules standards : DBI (DataBase independent Interface) pour la connexion au serveur de bases de données, CGI (Common Gateway Interface) pour les interfaces Web et BioPerl (Boîte à outils de scripts Perl pour la bioinformatique et la génomique) pour certains traducteurs.

Nous avons ainsi déjà réalisé les bases suivantes :

  • FUNYBASE (FUNgal phYlogenomic dataBASE) Base de donnĂ©es dĂ©diĂ©e Ă  l'analyse et Ă  la classification des protĂ©ines homologues extraites des gĂ©nomes complets fongiques. Cette ressource propose deux types de rĂ©sultats : d'une part l'ensemble des familles de gènes orthologues et paralogues dĂ©tectĂ©s Ă  partir de 31 gĂ©nomes complets fongiques et d'autre part un sous-ensembles de 246 familles de gènes orthologues uniques Ă  21 gĂ©nomes complets pour lesquels des analyses approfondies sont disponibles : modèle d'Ă©volution protĂ©ique, pourcentage d'identitĂ© moyen des protĂ©ines alignĂ©es, nombre de sites variables, arbre phylogĂ©nĂ©tique.
  • Le portail IGO permet l'intĂ©gration des diffĂ©rentes bases suivantes (NouveautĂ©s de la version 2):
    • MICADO (MICrobial Advanced Database Organization) Base de donnĂ©es relationnelle dĂ©diĂ©e aux gĂ©nomes microbiens. Elle intègre notamment l'ensemble des sĂ©quences primaires microbiennes issues de Genbank, les gĂ©nomes complets microbiens rĂ©annotĂ©s dans la banque Emglib et les donnĂ©es d'analyse fonctionnelle de la bactĂ©rie modèle B. subtilis
    • MOSAIC (Analyse comparative de gĂ©nomes microbiens) Base de donnĂ©es relationnelle qui permet de comparer des gĂ©nomes bactĂ©riens d'une mĂŞme espèce et de dĂ©finir le squelette et les boucles
    • PAREO (PAthway RElational Organization) Base de donnĂ©es relationnelle intĂ©grant les connaissances sur les voies mĂ©taboliques issues de la base japonaise Kegg.
    • PROSE (PROtein SEquences) Base de donnĂ©es relationnelle qui gère les sĂ©quences protĂ©iques issues de SwissProt et trEMBL. Une interface Web conviviale permet d'effectuer des interrogations fines sur la base ou mĂŞme d'exĂ©cuter une requĂŞte SQL personnalisĂ©e directement sur le serveur de base de donnĂ©es(compte Ă  demander Ă  l'unitĂ© MIG). Le modèle relationnel de la base est fourni dans la rubrique documentation.

D'autres projets de bases de données sont en cours de développement dans l'unité. Le plus important concerne la réalisation d'une base de données relationnelle gérant les structures 3D des protéines extraites de la banque PDB. Outre l'aspect développement d'un système d'information décrit précédemment, les données relatives aux structures 3D des protéines jouent un rôle central évident dans l'analyse des relations séquence-structure 3D des protéines, un sujet d'intérêt dans l'unité.