L’étude d’association pangénomique ou GWAS (genome-wide association study) vise à identifier des
associations entre des variants génétiques et des phénotypes. De nombreux outils et méthodes existent et
sont décrits par exemple dans deux revues bibliographiques récentes (1, 2). Ce stage porte sur l’identification
des biomarqueurs de stress chez la bactérie Campylobacter jejuni (responsable d’environ 90% des cas de
gastro-entérite humaine) en lien avec sa survie aux procédés de transformation de la volaille en utilisant des
approches bioinformatiques et statistiques de GWAS. Il s’inscrit dans le cadre d’une collaboration entre les
unités MaIAGE et SECALIM de INRAE.
L’objectif principal du stage est de réaliser une étude comparative de méthodes GWAS à partir d’une pré-
sélection d’outils implémentant ces méthodes et disponibles sur la plateforme bioinformatique Migale.
Cette pré-sélection de quelques outils, les plus pertinents et adaptés à la problématique, sera effectuée en
amont du stage. La mise en œuvre de ces méthodes GWAS nécessitera plusieurs étapes.
Une première étape d’analyse bioinformatique consistera à construire les matrices de données de variants
génétiques (SNP, gène, k-mer, unitig) à partir d’une collection de génomes séquencés de Campylobacter
jejuni. L’étude de l’association entre les variants génétiques et les phénotypiques sera ensuite basée sur des
modèles statistiques comme par exemple le test de Fisher, le modèle linéaire, le modèle mixte, des
méthodes d’apprentissage automatique ou des approches phylogénétiques.
Les chaînes de traitement développées dans le cadre du stage pourront être utilisées sur des données de la
littérature. Ce stage contribuera également à guider les utilisateurs dans leur prise de décision sur le choix
des méthodes et outils, en bioinformatique et statistique, en fonction des caractéristiques des jeux de
données phénotypiques et génotypiques.
Bibliographie
[1] San, James Emmanuel, Shakuntala Baichoo, Aquillah Kanzi, Yumna Moosa, Richard Lessells, Vagner Fonseca, John Mogaka, Robert Power, and Tulio de Oliveira. 2020. Current Affairs of Microbial Genome-Wide Association Studies: Approaches, Bottlenecks and Analytical Pitfalls. Frontiers in Microbiology Volume 10 - 2019. https://doi.org/10.3389/fmicb.2019.03119.
[2]Yang Q, Wang X, Han M, Sheng H, Sun Y, Su L, Lu W, Li M, Wang S, Chen J, Cui S, Yang B. 2025. Bacterial
genome-wide association studies: exploring the genetic variation underlying bacterial phenotypes. Appl Environ Microbiol 91:e02512-24. https://doi.org/10.1128/aem.02512-24
Mathématiques et Informatique Appliquées
du Génome à l'Environnement