La donnée de séquences nucléotidiques permet d'inférer des arbres phylogénétiques, ou phylogénies, qui décrivent leurs liens de parenté au cours de l'évolution. Associer à ces séquences leur date de prélèvement ou leur pays de collecte, permet d'inférer la localisation temporelle ou spatiale de leurs ancêtres communs. Ces données et procédures sont très utilisées pour les séquences de virus et, notamment, celles du virus de l'immunodéficience humaine (VIH), afin d'en retracer l'histoire épidémique à la surface du globe et au cours du temps. L'utilisation de séquences échantillonnées à des moments différents (ou hétérochrones) sert aussi à estimer leur taux de substitution, qui caractérise la vitesse à laquelle elles évoluent. Les méthodes les plus couramment utilisées pour ces différentes tâches sont précises, mais lourdes en temps de calcul car basées sur des modèles complexes, et ne peuvent traiter que quelques centaines de séquences. Devant le nombre croissant de séquences disponibles dans les bases de données, souvent plusieurs milliers pour une étude donnée, le développement de méthodes rapides et efficaces devient indispensable. Nous présentons une méthode de distances, Ultrametric Least Squares , basée sur le principe des moindres carrés, souvent utilisé en phylogénie, qui permet d'estimer le taux de substitution d'un ensemble de séquences hétérochrones, dont on déduit ensuite facilement les dates des spéciations ancestrales. Nous montrons que le critère à optimiser est parabolique par morceaux et proposons un algorithme efficace pour trouver l'optimum global. L'utilisation de séquences échantillonnées en des lieux différents permet aussi de retracer les chaînes de transmission d'une épidémie. Dans ce cadre, nous utilisons la totalité des séquences disponibles (~3500) du sous-type C du VIH-1, responsable de près de 50% des infections mondiales au VIH-1, pour estimer ses principaux flux migratoires à l'échelle mondiale, ainsi que son origine géographique. Des outils novateurs, basés sur le principe de parcimonie combiné avec différents critères statistiques, sont utilisés afin de synthétiser et interpréter l'information contenue dans une grande phylogénie représentant l'ensemble des séquences étudiées. Enfin, l'origine géographique et temporelle de ce variant (VIH-1 C) au Sénégal est précisément explorée lors d'une seconde étude, portant notamment sur les hommes ayant des rapports sexuels avec des hommes.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00842785 |
Date | 21 May 2012 |
Creators | Jung, Matthieu |
Publisher | Université Montpellier II - Sciences et Techniques du Languedoc |
Source Sets | CCSD theses-EN-ligne, France |
Language | fra |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0018 seconds