Les séquences génomiques et les données transcriptomiques sont de plus en plus faciles à obtenir. Par contraste, l’intégration de ces sources d’information pour améliorer notre connaissance des réseaux de régulation génétique reste difficile et en grande partie manuelle, même pour des organismes aussi simples que les bactéries. Pour répondre à ce défi, nous avons développé une nouvelle approche dédiée à l’identification des motifs régulateurs dans les séquences d’ADN des promoteurs. Cette méthode fondée sur un modèle statistique original dont les paramètres sont estimés avec un algorithme MCMC transdimensionnel permet un usage simultané des propriétés de composition de l’ADN et de deux types de données transcriptomiques : les positions exactes des sites d’initiation de la transcription et les profils d’expression des gènes à travers les conditions. Pour démontrer sa pertinence, la méthode a été appliquée à un grand jeu de données publique agrégeant les résultats de nombreuses études sur la bactérie Listeria monocytogenes. Les résultats apportent un éclairage global sur les réseaux de régulation de cette bactérie qui est à la fois un pathogène modèle et l’agent responsable d’une des principales anthropozoonoses. Couplée à l’acquisition de données transcriptomiques, la méthode peut être appliquée à n’importe quelle bactérie dans les domaines d’intérêt INRAE car elle ne nécessite pas de disposer d’outils de manipulation génétique.
Contact : Pierre NICOLAS, MaIAGE, Centre INRAE Jouy-en-Josas - pierre.nicolas@inrae.fr
Exploration de l’espace des motifs par l’algorithme MCMC pour l’identification simultanée de nombreux motifs dans les séquences d’ADN des promoteurs. Illustration pour deux motifs. La dimension horizontale décrit la trajectoire d’évolution des motifs au cours des itérations de l’algorithme. La dimension verticale montre la taille et la composition de ces motifs avec un point par position dans le motif et une couleur par type de nucléotide préféré (A, C, G, T). Les inserts représentent les motifs sous forme de logos à deux points de la trajectoire.