Stage M2 - Inférence bayésienne et identification de variants dans les données métagénomiques: méthodes de sous-échantillonnage pour les données massives.

Plus de détails dans le fichier PDF.

Contexte :

Les analyses métagénomiques portent sur plusieurs échantillons biologiques partageant plusieurs variants (ou ”souches”) d’un génome, chaque échantillon étant un mélange de ces variants avec des abondances relatives qui varient d’un échantillon à l’autre (certaines abondances pouvant être nulles). Par exemple, on peut imaginer des prélèvements réalisés dans différentes villes d’un pays pour surveiller la circulation d’un virus (e.g. SARS-CoV-2) : chaque ville peut abriter plusieurs variants (Alpha, Delta, Omicron, . . .) à des proportions différentes. L’objectif statistique est d’inférer (i) la séquence génétique des variants (variables discrètes) et (ii) leurs proportions par échantillon à partir d’observations brutes issues du séquençage du génome, bruitées par des erreurs de lecture et par la nature aléatoire du prélèvement.
Ce problème se formalise naturellement par un modèle hiérarchique de mélange : chaque échantillon s est vu comme un mélange de composantes — les variants — où chaque composante correspond à une séquence discrète (le génome τg du variant) et le poids πg,s représente l’abondance relative du variant g dans l’échantillon s. La partie ”hiérarchique” tient au fait que les mêmes composantes (les mêmes séquences τg ) sont partagées entre tous les échantillons, tandis que seuls les poids πg,s varient d’un échantillon à l’autre (et peuvent être nuls si un variant est absent). Les données de séquençage se présentent sous la forme d’un grand nombre de reads, fragments des génomes des variants potentiellement corrompus par une erreur de mesure. La génération d’un read s’exprime naturellement : pour un read issu de l’échantillon s, on tire d’abord un variant g selon π·,s , on prélève un fragment de sa séquence τg , puis la lecture est affectée par un bruit de séquençage modélisé par une matrice d’erreur ε (probabilité de lire a alors que la vraie base est b). Ce formalisme dissocie clairement les paramètres de structure (τ et π) du modèle d’observation (ε), ce qui facilite l’analyse statistique et l’étude de l’impact du sous-échantillonnage.
La complexité du problème — variables discrètes et continues, contraintes de type simplexe, erreurs de lecture et incertitude liée au sous-échantillonnage — rend les approches classiques peu adaptées. Une méthode fréquentiste fournirait des estimateurs ponctuels et des approximations asymptotiques souvent peu fiables dans un espace de paramètres multimodal et fortement corrélé. L’inférence bayésienne, en revanche, offre un cadre naturel pour intégrer toutes les sources d’incertitude, modéliser la hiérarchie des paramètres (variants partagés entre échantillons, proportions spécifiques à chaque échantillon), et produire des distributions a posteriori plutôt que des estimations uniques. Cette flexibilité est essentielle pour quantifier la variabilité des résultats, comparer des modèles et prendre en compte le bruit induit par le sous-échantillonnage. De plus, les méthodes de Monte Carlo par chaı̂nes de Markov (MCMC) permettent d’explorer efficacement ces distributions complexes, rendant possible une inférence robuste.
Un véritable goulot d’étranglement computationnel est le calcul de la vraisemblance complète des reads : celle-ci requiert d’agréger sur tous les fragments observés et toutes les positions du génome couvertes, ce qui devient prohibitivement coûteux lorsque le nombre de reads et la longueur des génomes sont importants. L’idée étudiée dans ce stage est d’effectuer, en s’inspirant des méthodes développées dans le cadre des mathématiques pour les sondages, un sous-échantillonnage systématique (tirage aléatoire de fragments et/ou de positions) afin de réduire la charge de calcul, puis d’utiliser cette version réduite pour l’inférence bayésienne. La question centrale est théorique et pratique : peut-on obtenir des garanties contrôlées sur la qualité de l’approximation de la vraisemblance (ou des estimateurs postérieurs) obtenue par sous-échantillonnage, et quel plan de sondage minimise l’erreur pour un coût donné ?

Missions :

Dans notre contexte, il s’agit d’échantillonner dans la distribution a posteriori des paramètres θ = (τ, π, ε), où τ désigne les séquences discrètes des variants et π leurs proportions continues, soumises à des contraintes de type simplexe. Cette tâche est difficile en raison de la dimension élevée, des dépendances fortes entre τ et π, de la multimodalité et du coût de calcul dominé par le volume des reads. Le sous-échantillonnage réduit ce coût mais introduit du bruit dans les ratios d’acceptation, ce qui exige un calibrage précis pour éviter une dégradation du taux d’acceptation ou un biais sur la cible.
Une base de départ existe avec l’algorithme Gibbs proposé par [Quince et al., 2017], conçu pour des comptages agrégés plutôt que pour des reads individuels, ce qui constitue une approximation grossière de la vraisemblance. Cet algorithme n’est pas très efficace dans notre cadre, mais il fournit une structure utile. L’équipe a déjà développé plusieurs variantes améliorées, intégrant des techniques modernes, sur lesquelles l’étudiant pourra s’appuyer sans repartir de zéro.

Ne calculer la vraisemblance que sur un sous-échantillon des reads accélère le temps de calcul. Afin de perdre le moins d’information possible, il serait possible de sélectionner aléatoirement les reads de façon à préserver des comptages marginaux, afin de réduire la variance due à la sélection des reads.

Les questions intéressantes à explorer dans ce cadre sont les suivantes :
— Comment choisir les probabilités d’inclusion des reads pour minimiser l’erreur d’inférence pour un coût
de calcul donné ?
— Peut-on sélectionner, au sein de chaque read, les positions les plus informatives pour l’inférence, et com-
ment choisir ces positions ?
— Peut-on quantifier la distance entre la loi a posteriori complète et celle induite par la pseudo-vraisemblance ?
— Comment utiliser des techniques de stabilisation de la pseudo-vraisemblance ?
Ces divers points seront étudiés théoriquement dans des cas simples, puis mis en œuvre et testés sur des
données simulées et réelles.

Compétences :

Probabilités/statistiques (modèles hiérarchiques, estimation), analyse asymptotique, méthodes Monte Carlo
Markov Chain, programmation (Python/R/Julia).

Type

Stage

Durée

6 mois

Date de début

2026-02-01

Date limite de candidature

2025-12-15

projetm2.pdf130.53 Ko

Contact

Abraham Anne-Laure, anne-laure.abraham@inrae.fr

Bonnéry Daniel, daniel.bonnery@ign.fr

Kon Kam King Guillaume, guillaume.konkamking@inrae.fr

Mathématiques et Informatique Appliquéesdu Génome à l'Environnement

Stage M2 - Inférence bayésienne et identification de variants dans les données métagénomiques: méthodes de sous-échantillonnage pour les données massives.

Mathématiques et Informatique Appliquées
du Génome à l'Environnement