1 |
Déterminants historiques et sélectifs des échanges génétiques au cours de la spéciation chez la souris domestique : patrons de coalescence et introgression en zone hybride. / Historical and selective determinants of genetic exchanges during house mouse speciation : coalescence patterns and introgression in a hybrid zone.Duvaux, Ludovic 18 November 2010 (has links)
Afin de comprendre le processus de spéciation, il est nécessaire d'appréhender les patrons de flux géniques entre espèces naissantes et le rôle de la sélection dans leur détermination. C'est ce que tente d'aborder cette thèse en utilisant comme modèle deux sous-espèces de la souris domestique, Mus musculus. Nous avons reconstitué l'histoire de leur différenciation sur la base du polymorphisme de séquence à 60 locus autosomaux. La simulation du coalescent de ces locus sous plusieurs scenarios historiques nous a permis d'inférer, via une méthode ABC (Approximate Bayesian Computation), une divergence ancienne des sous-espèces (1,5Ma). Elle fut suivie d'une longue phase d'isolement (1,2Ma) précédant une phase d'échanges génétiques débutant bien avant la formation de la zone hybride européenne actuelle. La phase d'isolement a été assez longue pour expliquer une grande partie des incompatibilités génétiques observées actuellement. Les flux génétiques anciens et prolongés pourraient avoir favorisé le renforcement comportemental de l'isolement reproductif. Nous étudions aussi la relation entre le mode d'évolution de 77 régions génomiques autosomales et leur comportement d'introgression à travers une zone hybride. Le taux de recombinaison locale semble déterminer en partie les introgressions symétriques et limitées de certains locus. Toutefois tel n'est pas le cas pour 40% des locus, qui présentent une introgression asymétrique dans l'une ou l'autre direction. Nous proposons que l'introgression coté musculus soit majoritairement contrôlée par la sélection et que l'introgression coté domesticus soit influencée par un déplacement de la zone hybride vers le territoire musculus. / Understanding the speciation process requires to appraise patterns of gene flow between incipient speices as well as the role of selection in their determination. This thesis attempts to do so using two subspecies of the house mouse, Mus musculus, as a model. We inferred the history of their differentiation based on sequence polymorphism data at 60 autosomal loci. By simulating the coalescent of these loci under several historical scenarios we were able to infer, using an ABC (Approximate Bayesian Computation) method, an ancient divergence of the subspecies (1.5 MY). This was followed by a long period of isolation (1.2 MY) preceding a phase of genetic exchanges that started well before the formation of the present European hybrid zone. The isolation phase lasted long enough to explain a majority of the present genetic incompatibilities. Ancient and lasting gene flow could have favoured a behavioural reinforcement of reproductive isolation. We a lso studied the relationship between the mode of evolution of 77 autosomal genomic regions and their introgression patterns across a hybrid zone. Local recombination rates variations seem to partly account for the patterns observed at some loci with limited and symmetrical introgression. However such is not the case for 40% of the the loci showing asymmetrical introgression in on direction or the other. domesticus results from a movement of the hybrid zone from domesticus to musculus.
|
2 |
Échantillonnage préférentiel adaptatif et méthodes bayésiennes approchées appliquées à la génétique des populationsSedki, Mohammed 31 October 2012 (has links) (PDF)
Cette thèse propose et étudie deux techniques d'inférence bayésienne dans les modèles où la vraisemblance possède une composante latente. Dans ce contexte, la vraisemblance d'un jeu de données observé est l'intégrale de la vraisemblance dite complète sur l'espace de la variable latente. On s'intéresse aux cas où l'espace de la variable latente est de très grande dimension et comporte des directions de différentes natures (discrètes et continues), ce qui rend cette intégrale incalculable. Le champs d'application privilégié de cette thèse est l'inférence dans les modèles de génétique des populations. Pour mener leurs études, les généticiens des populations se basent sur l'information génétique extraite des populations du présent et représente la variable observée. L'information incluant l'histoire spatiale et temporelle de l'espèce considérée est inaccessible en général et représente la composante latente. Notre première contribution dans cette thèse suppose que la vraisemblance peut être évaluée via une approximation numériquement coûteuse. Le schéma d'échantillonnage préférentiel adaptatif et multiple (AMIS pour Adaptive Multiple Importance Sampling) de Cornuet et al. nécessite peu d'appels au calcul de la vraisemblance et recycle ces évaluations. Cet algorithme approche la loi a posteriori par un système de particules pondérées. Cette technique est conçue pour pouvoir recycler les simulations obtenues par le processus itératif (la construction séquentielle d'une suite de lois d'importance). Dans les nombreux tests numériques effectués sur des modèles de génétique des populations, l'algorithme AMIS a montré des performances numériques très prometteuses en terme de stabilité. Ces propriétés numériques sont particulièrement adéquates pour notre contexte. Toutefois, la question de la convergence des estimateurs obtenus par cette technique reste largement ouverte. Dans cette thèse, nous montrons des résultats de convergence d'une version légèrement modifiée de cet algorithme. Sur des simulations, nous montrons que ses qualités numériques sont identiques à celles du schéma original. Dans la deuxième contribution de cette thèse, on renonce à l'approximation de la vraisemblance et on supposera seulement que la simulation suivant le modèle (suivant la vraisemblance) est possible. Notre apport est un algorithme ABC séquentiel (Approximate Bayesian Computation). Sur les modèles de la génétique des populations, cette méthode peut se révéler lente lorsqu'on vise une approximation précise de la loi a posteriori. L'algorithme que nous proposons est une amélioration de l'algorithme ABC-SMC de Del Moral et al. que nous optimisons en nombre d'appels aux simulations suivant la vraisemblance, et que nous munissons d'un mécanisme de choix de niveaux d'acceptations auto-calibré. Nous implémentons notre algorithme pour inférer les paramètres d'un scénario évolutif réel et complexe de génétique des populations. Nous montrons que pour la même qualité d'approximation, notre algorithme nécessite deux fois moins de simula- tions par rapport à la méthode ABC avec acceptation couramment utilisée.
|
3 |
Méthodes d'inférence statistique pour champs de Gibbs / Statistical inference methods for Gibbs random fieldsStoehr, Julien 29 October 2015 (has links)
La constante de normalisation des champs de Markov se présente sous la forme d'une intégrale hautement multidimensionnelle et ne peut être calculée par des méthodes analytiques ou numériques standard. Cela constitue une difficulté majeure pour l'estimation des paramètres ou la sélection de modèle. Pour approcher la loi a posteriori des paramètres lorsque le champ de Markov est observé, nous remplaçons la vraisemblance par une vraisemblance composite, c'est à dire un produit de lois marginales ou conditionnelles du modèle, peu coûteuses à calculer. Nous proposons une correction de la vraisemblance composite basée sur une modification de la courbure au maximum afin de ne pas sous-estimer la variance de la loi a posteriori. Ensuite, nous proposons de choisir entre différents modèles de champs de Markov cachés avec des méthodes bayésiennes approchées (ABC, Approximate Bayesian Computation), qui comparent les données observées à de nombreuses simulations de Monte-Carlo au travers de statistiques résumées. Afin de pallier l'absence de statistiques exhaustives pour ce choix de modèle, des statistiques résumées basées sur les composantes connexes des graphes de dépendance des modèles en compétition sont introduites. Leur efficacité est étudiée à l'aide d'un taux d'erreur conditionnel original mesurant la puissance locale de ces statistiques à discriminer les modèles. Nous montrons alors que nous pouvons diminuer sensiblement le nombre de simulations requises tout en améliorant la qualité de décision, et utilisons cette erreur locale pour construire une procédure ABC qui adapte le vecteur de statistiques résumés aux données observées. Enfin, pour contourner le calcul impossible de la vraisemblance dans le critère BIC (Bayesian Information Criterion) de choix de modèle, nous étendons les approches champs moyens en substituant la vraisemblance par des produits de distributions de vecteurs aléatoires, à savoir des blocs du champ. Le critère BLIC (Block Likelihood Information Criterion), que nous en déduisons, permet de répondre à des questions de choix de modèle plus large que les méthodes ABC, en particulier le choix conjoint de la structure de dépendance et du nombre d'états latents. Nous étudions donc les performances de BLIC dans une optique de segmentation d'images. / Due to the Markovian dependence structure, the normalizing constant of Markov random fields cannot be computed with standard analytical or numerical methods. This forms a central issue in terms of parameter inference or model selection as the computation of the likelihood is an integral part of the procedure. When the Markov random field is directly observed, we propose to estimate the posterior distribution of model parameters by replacing the likelihood with a composite likelihood, that is a product of marginal or conditional distributions of the model easy to compute. Our first contribution is to correct the posterior distribution resulting from using a misspecified likelihood function by modifying the curvature at the mode in order to avoid overly precise posterior parameters.In a second part we suggest to perform model selection between hidden Markov random fields with approximate Bayesian computation (ABC) algorithms that compare the observed data and many Monte-Carlo simulations through summary statistics. To make up for the absence of sufficient statistics with regard to this model choice, we introduce summary statistics based on the connected components of the dependency graph of each model in competition. We assess their efficiency using a novel conditional misclassification rate that evaluates their local power to discriminate between models. We set up an efficient procedure that reduces the computational cost while improving the quality of decision and using this local error rate we build up an ABC procedure that adapts the summary statistics to the observed data.In a last part, in order to circumvent the computation of the intractable likelihood in the Bayesian Information Criterion (BIC), we extend the mean field approaches by replacing the likelihood with a product of distributions of random vectors, namely blocks of the lattice. On that basis, we derive BLIC (Block Likelihood Information Criterion) that answers model choice questions of a wider scope than ABC, such as the joint selection of the dependency structure and the number of latent states. We study the performances of BLIC in terms of image segmentation.
|
Page generated in 0.0559 seconds