Spelling suggestions: "subject:"calcul bayésienne approchée"" "subject:"calcul bayésienne approche""
1 |
Phylodynamique des pathogènes viraux par calcul bayésien approché / Phylodynamics of viral pathogens by approximate Bayesian computationSaulnier, Emma 28 November 2017 (has links)
Inférer des paramètres épidémiologiques à partir de phylogénies ou de données d'incidence est toujours un enjeu.D'une part, les approches basées sur les données d'incidence donnent souvent des estimations erronées du fait du biais d'échantillonnage important sur ce type de données.D'autre part, les approches utilisant les phylogénies reposent généralement sur des fonctions de vraisemblance exprimées à partir de modèles démographiques relativement simples et peu pertinents au regard des dynamiques épidémiologiques.A notre connaissance, il n'existe aucune méthode d'inférence utilisant les deux types de données, qui se base sur des modèles épidémiologiques.Ce travail de thèse a donc conduit au développement de méthodes de calcul bayésien approché qui ne nécessitent aucune fonction de vraisemblance.Ces approches sont basées sur des simulations à partir de modèles épidémiologiques, des techniques de régression et un grand nombre de statistiques de résumé qui permettent de capturer l'information épidémiologique des phylogénies et des données d'incidence.Nous avons comparé ces nouvelles méthodes de calcul bayésien approché à diverses approches existantes permettant d'inferer des paramètres épidémiologiques à partir de phylogénies ou de données d'incidence et obtenu des résultats tout au moins similaires.Ces approches nous ont ensuite permis d'étudier la dynamique de l'épidémie de virus Ebola de 2013-2016 en Sierra Leone et celle de l'épidémie de VIH-O au Cameroun.Ce travail est un premier pas vers l'application de méthodes sans-vraisemblance à des modèles complexes, de façon à aider les organismes de santé publique à établir des mesures de contrôle plus efficaces. / Inferring epidemiological parameters from phylogenies or incidence data is still challenging.In one hand, approaches based on incidence data give regularly erroneous estimates, because sampling bias is usually important on that type of data.In the other hand, approaches based on phylogenies generally rely on likelihood functions that are expressed from relatively simple demographic models.These demographic models are usually not appropriate to properly describe the epidemiological dynamics.To our knowledge, there is no inference method that uses both types of data and that is based on epidemiological models.This thesis work thus led to the development of approximate Bayesian computation methods, which do not require a likelihood function.These approaches rely on simulations from epidemiological models, regression techniques and a large number of summary statistics, which capture the epidemiological information from phylogenies and incidence data.We compared these new methods of approximate Bayesian computation to diverse existing approaches that infer epidemiological parameters from phylogenies or incidence data, and we obtained at least similar accuracies.These approaches enabled us to study the dynamics of the 2013-2016 Ebola epidemic in Sierra Leone and the dynamics of the HIV-O epidemic in Cameroon.This works is a first step towards the application of likelihood-free approaches to complex epidemiological models in order to help public health organisms to establish more efficient control measures.
|
2 |
Bayesian statistical inference for intractable likelihood models / Inférence statistique bayésienne pour les modélisations donnant lieu à un calcul de vraisemblance impossibleRaynal, Louis 10 September 2019 (has links)
Dans un processus d’inférence statistique, lorsque le calcul de la fonction de vraisemblance associée aux données observées n’est pas possible, il est nécessaire de recourir à des approximations. C’est un cas que l’on rencontre très fréquemment dans certains champs d’application, notamment pour des modèles de génétique des populations. Face à cette difficulté, nous nous intéressons aux méthodes de calcul bayésien approché (ABC, Approximate Bayesian Computation) qui se basent uniquement sur la simulation de données, qui sont ensuite résumées et comparées aux données observées. Ces comparaisons nécessitent le choix judicieux d’une distance, d’un seuil de similarité et d’un ensemble de résumés statistiques pertinents et de faible dimension.Dans un contexte d’inférence de paramètres, nous proposons une approche mêlant des simulations ABC et les méthodes d’apprentissage automatique que sont les forêts aléatoires. Nous utilisons diverses stratégies pour approximer des quantités a posteriori d’intérêts sur les paramètres. Notre proposition permet d’éviter les problèmes de réglage liés à l’ABC, tout en fournissant de bons résultats ainsi que des outils d’interprétation pour les praticiens. Nous introduisons de plus des mesures d’erreurs de prédiction a posteriori (c’est-à-dire conditionnellement à la donnée observée d’intérêt) calculées grâce aux forêts. Pour des problèmes de choix de modèles, nous présentons une stratégie basée sur des groupements de modèles qui permet, en génétique des populations, de déterminer dans un scénario évolutif les évènements plus ou moins bien identifiés le constituant. Toutes ces approches sont implémentées dans la bibliothèque R abcrf. Par ailleurs, nous explorons des manières de construire des forêts aléatoires dites locales, qui prennent en compte l’observation à prédire lors de leur phase d’entraînement pour fournir une meilleure prédiction. Enfin, nous présentons deux études de cas ayant bénéficié de nos développements, portant sur la reconstruction de l’histoire évolutive de population pygmées, ainsi que de deux sous-espèces du criquet pèlerin Schistocerca gregaria. / In a statistical inferential process, when the calculation of the likelihood function is not possible, approximations need to be used. This is a fairly common case in some application fields, especially for population genetics models. Toward this issue, we are interested in approximate Bayesian computation (ABC) methods. These are solely based on simulated data, which are then summarised and compared to the observed ones. The comparisons are performed depending on a distance, a similarity threshold and a set of low dimensional summary statistics, which must be carefully chosen.In a parameter inference framework, we propose an approach combining ABC simulations and the random forest machine learning algorithm. We use different strategies depending on the parameter posterior quantity we would like to approximate. Our proposal avoids the usual ABC difficulties in terms of tuning, while providing good results and interpretation tools for practitioners. In addition, we introduce posterior measures of error (i.e., conditionally on the observed data of interest) computed by means of forests. In a model choice setting, we present a strategy based on groups of models to determine, in population genetics, which events of an evolutionary scenario are more or less well identified. All these approaches are implemented in the R package abcrf. In addition, we investigate how to build local random forests, taking into account the observation to predict during their learning phase to improve the prediction accuracy. Finally, using our previous developments, we present two case studies dealing with the reconstruction of the evolutionary history of Pygmy populations, as well as of two subspecies of the desert locust Schistocerca gregaria.
|
3 |
Modélisations de la dispersion du pollen et estimation à partir de marqueurs génétiques. / Modellings of pollen dispersal and estimation from genetic markersCarpentier, Florence 29 June 2010 (has links)
La dispersion du pollen est une composante majeure des flux de gènes chez les plantes, contribuant à la diversité génétique et à sa structure spatiale. Son étude à l'échelle d'un épisode de reproduction permet de comprendre l'impact des changements actuels (fragmentation, anthropisation....) et de proposer des politiques de conservation. Deux types de méthodes basées sur les marqueurs microsatellites estiment la fonction de dispersion du pollen: (i) les méthodes directes (e.g. mating model) basées sur l'assignation de paternité et nécessitant un échantillonnage exhaustif (position et génotype des individus du site étudié, génotypes de graines échantillonnées sur des mères); (ii) les méthodes indirectes (e.g. TwoGener), nécessitant un échantillonnage réduit (génotypes des graines, génotypes et positions des mères) et résumant les données en indices génétiques. Nous proposons la formalisation statistique de ces deux types de méthodes et montrons qu'elles utilisent des fonctions de dispersion différentes: les méthodes directes estiment une fonction forward potentielle (déplacement du pollen depuis le père), les méthodes indirectes une fonction backward intégrative (de la fécondation jusqu'à l'existence du père). Nous explicitons le lien entre fonctions backward et forward, des hypothèses menant à leur équivalence, et des contraintes affectant les fonctions backward. Nous développons enfin une méthode de calcul bayésien approché qui permet (i) une estimation forward, (ii) avec des intervalles de crédibilité, (iii) à partir d'un jeu de données non exhaustif et d'informations partielles (e.g. positions sans génotype) et (iv) l'utilisation de différents modèles de dispersion. / Pollen dispersal is a major component of gene flow in plants. It determines to genetic diversity and spatial genetic structure.Studying it at the scale of a single reproduction event enables to understand the impact of current changes (fragmentation, anthropization ...) and to propose conservation practices.Two types of methods, based on microsatellite markers, estimate pollen dispersal functions : (i) direct methods (e.g. mating model) based on paternity assignment require exhaustif sampling (position and genotype of individuals in the study plot, genotypes of seeds harvested on mothers); (ii) indirect methods (e.g. TwoGener), require a weaker sampling (seeds genotypes, genotypes and positions of their mothers) and summarize data through genetic indices.We propose a statistical formalization of both types of methods and show that they rely on different dispersal functions : the direct methods estimate a potential forward function (pollen transfer from the father), whereas the indirect methods estimate an integrative backward one (from fecondation to father existence). We exhibit the link between forward and backward functions, assumptions leading to their equivalence and constrains affecting the backward functions.Finally, we develop an Approximate Bayesian Computation method, which enable (i) a forward estimation, (ii) with credibility intervals, (iii) from a non exhaustive dataset and partial information (e.g. positions without genotypes) and (iv) the use of different dispersal models.
|
4 |
Modélisation des biais mutationnels et rôle de la sélection sur l’usage des codonsLaurin-Lemay, Simon 10 1900 (has links)
L’acquisition de données génomiques ne cesse de croître, ainsi que l’appétit pour les interpréter. Mais déterminer les processus qui ont façonné l’évolution des séquences codantes (et leur importance relative) est un défi scientifique passant par le développement de modèles statistiques de l’évolution prenant en compte de plus en plus d’hétérogénéités au niveau des processus mutationnels et de sélection.
Identifier la sélection est une tâche qui nécessite typiquement de détecter un écart entre deux modèles : un modèle nulle ne permettant pas de régime évolutif adaptatif et un modèle alternatif qui lui en permet. Lorsqu’un test entre ces deux modèles rejette le modèle nulle, on considère avoir détecter la présence d’évolution adaptative. La tâche est d’autant plus difficile que le signal est faible et confondu avec diverses hétérogénéités négligées par les modèles.
La détection de la sélection sur l’usage des codons spécifiquement est controversée, particulièrement chez les Vertébrés. Plusieurs raisons peuvent expliquer cette controverse : (1) il y a un biais sociologique à voir la sélection comme moteur principal de l’évolution, à un tel point que les hétérogénéités relatives aux processus de mutation sont historiquement négligées ; (2) selon les principes de la génétique des populations, la petite taille efficace des populations des Vertébrés limite le pouvoir de la sélection sur les mutations synonymes conférant elles-mêmes un avantage minime ; (3) par contre, la sélection sur l’usage des codons pourrait être très localisée le long des séquences codantes, à des sites précis, relevant de contraintes de sélection relatives à des motifs utilisés par la machinerie d’épissage, par exemple.
Les modèles phylogénétiques de type mutation-sélection sont les outils de prédilection pour aborder ces questions, puisqu’ils modélisent explicitement les processus mutationnels ainsi que les contraintes de sélection. Toutes les hétérogénéités négligées par les modèles mutation-sélection de Yang and Nielsen [2008] peuvent engendrer de faux positifs allant de 20% (préférence site-spécifique en acides aminés) à 100% (hypermutabilité des transitions en contexte CpG) [Laurin-Lemay et al., 2018b]. En particulier, l’hypermutabilité des transitions du contexte CpG peut à elle seule expliquer la sélection détectée par Yang and Nielsen [2008] sur l’usage des codons.
Mais, modéliser des phénomènes qui prennent en compte des interdépendances dans les données (par exemple l’hypermutabilité du contexte CpG) augmente de beaucoup la complexité des fonctions de vraisemblance. D’autre part, aujourd’hui le niveau de sophistication des modèles fait en sorte que des vecteurs de paramètres de haute dimensionnalité sont nécessaires pour modéliser l’hétérogénéité des processus étudiés, dans notre cas de contraintes de sélection sur la protéine.
Le calcul bayésien approché (Approximate Bayesian Computation ou ABC) permet de contourner le calcul de la vraisemblance. Cette approche diffère de l’échantillonnage par Monte Carlo par chaîne de Markov (MCMC) communément utilisé pour faire l’approximation de la distribution a posteriori. Nous avons exploré l’idée de combiner ces approches pour une problématique spécifique impliquant des paramètres de haute dimensionnalité et de nouveaux paramètres prenant en compte des dépendances entre sites. Dans certaines conditions, lorsque les paramètres de haute dimensionnalité sont faiblement corrélés aux nouveaux paramètres d’intérêt, il est possible d’inférer ces mêmes paramètres de haute dimensionnalité avec la méthode MCMC, et puis les paramètres d’intérêt au moyen de l’ABC. Cette nouvelle approche se nomme CABC [Laurin-Lemay et al., 2018a], pour calcul bayésien approché conditionnel (Conditional Approximate Bayesian Computation : CABC).
Nous avons pu vérifier l’efficacité de la méthode CABC en étudiant un cas d’école, soit celui de l’hypermutabilité des transitions en contexte CpG chez les Eutheria [Laurin-Lemay et al., 2018a]. Nous trouvons que 100% des 137 gènes testés possèdent une hypermutabilité des transitions significative. Nous avons aussi montré que les modèles incorporant l’hypermutabilité des transitions en contexte CpG prédisent un usage des codons plus proche de celui des gènes étudiés. Ceci suggère qu’une partie importante de l’usage des codons peut être expliquée à elle seule par les processus mutationnels et non pas par la sélection.
Finalement nous explorons plusieurs pistes de recherche suivant nos développements méthodologiques : l’application de la détection de l’hypermutabilité des transitions en contexte CpG à l’échelle des Vertébrés ; l’expansion du modèle pour reconnaître des contextes autres que seul le CpG (e.g., hypermutabilité des transitions et transversions en contexte CpG et TpA) ; ainsi que des perspectives méthodologiques d’amélioration de la performance du CABC. / The acquisition of genomic data continues to grow, as does the appetite to interpret them. But determining the processes that shaped the evolution of coding sequences (and their relative importance) is a scientific challenge that requires the development of statistical models of evolution that increasingly take into account heterogeneities in mutation and selection processes.
Identifying selection is a task that typically requires comparing two models: a null model that does not allow for an adaptive evolutionary regime and an alternative model that allows it. When a test between these two models rejects the null, we consider to have detected the presence of adaptive evolution. The task is all the more difficult as the signal is weak and confounded with various heterogeneities neglected by the models.
The detection of selection on codon usage is controversial, particularly in Vertebrates. There are several reasons for this controversy: (1) there is a sociological bias in seeing selection as the main driver of evolution, to such an extent that heterogeneities relating to mutation processes are historically neglected; (2) according to the principles of population genetics, the small effective size of vertebrate populations limits the power of selection over synonymous mutations conferring a minimal advantage; (3) On the other hand, selection on the use of codons could be very localized along the coding sequences, at specific sites, subject to selective constraints related to DNA patterns used by the splicing machinery, for example.
Phylogenetic mutation-selection models are the preferred tools to address these issues, as they explicitly model mutation processes and selective constraints. All the heterogeneities neglected by the mutation-selection models of Yang and Nielsen [2008] can generate false positives, ranging from 20% (site-specific amino acid preference) to 100% (hypermutability of transitions in CpG context)[Laurin-Lemay et al., 2018b]. In particular, the hypermutability of transitions in the CpG context alone can explain the selection on codon usage detected by Yang and Nielsen [2008].
However, modelling phenomena that take into account data interdependencies (e.g., hypermutability of the CpG context) greatly increases the complexity of the likelihood function. On the other hand, today’s sophisticated models require high-dimensional parameter vectors to model the heterogeneity of the processes studied, in our case selective constraints on the protein.
Approximate Bayesian Computation (ABC) is used to bypass the calculation of the likelihood function. This approach differs from the Markov Chain Monte Carlo (MCMC) sampling commonly used to approximate the posterior distribution. We explored the idea of combining these approaches for a specific problem involving high-dimensional parameters and new parameters taking into account dependencies between sites. Under certain conditions, when the high dimensionality parameters are weakly correlated to the new parameters of interest, it is possible to infer the high dimensionality parameters with the MCMC method, and then the parameters of interest using the ABC. This new approach is called Conditional Approximate Bayesian Computation (CABC) [Laurin-Lemay et al., 2018a]. We were able to verify the effectiveness of the CABC method in a case study, namely the hypermutability of transitions in the CpG context within Eutheria [Laurin-Lemay et al.,2018a]. We find that 100% of the 137 genes tested have significant hypermutability of transitions. We have also shown that models incorporating hypermutability of transitions in CpG contexts predict a codon usage closer to that of the genes studied. This suggests that a significant part of codon usage can be explained by mutational processes alone.
Finally, we explore several avenues of research emanating from our methodological developments: the application of hypermutability detection of transitions in CpG contexts to the Vertebrate scale; the expansion of the model to recognize contexts other than only CpG (e.g., hypermutability of transitions and transversions in CpG and TpA context); and methodological perspectives to improve the performance of the CABC approach.
|
5 |
Initialiser et calibrer un modèle de microsimulation dynamique stochastique : application au modèle SimVillagesLenormand, Maxime 12 December 2012 (has links) (PDF)
Le but de cette thèse est de développer des outils statistiques permettant d'initialiser et de calibrer les modèles de microsimulation dynamique stochastique, en partant de l'exemple du modèle SimVillages (développé dans le cadre du projet Européen PRIMA). Ce modèle couple des dynamiques démographiques et économiques appliquées à une population de municipalités rurales. Chaque individu de la population, représenté explicitement dans un ménage au sein d'une commune, travaille éventuellement dans une autre, et possède sa propre trajectoire de vie. Ainsi, le modèle inclut-il des dynamiques de choix de vie, d'étude, de carrière, d'union, de naissance, de divorce, de migration et de décès. Nous avons développé, implémenté et testé les modèles et méthodes suivants : 1 / un modèle permettant de générer une population synthétique à partir de données agrégées, où chaque individu est membre d'un ménage, vit dans une commune et possède un statut au regard de l'emploi. Cette population synthétique est l'état initial du modèle. 2 / un modèle permettant de simuler une table d'origine-destination des déplacements domicile-travail à partir de données agrégées. 3 / un modèle permettant d'estimer le nombre d'emplois dans les services de proximité dans une commune donnée en fonction de son nombre d'habitants et de son voisinage en termes de service. 4 / une méthode de calibration des paramètres inconnus du modèle SimVillages de manière à satisfaire un ensemble de critères d'erreurs définis sur des sources de données hétérogènes. Cette méthode est fondée sur un nouvel algorithme d'échantillonnage séquentiel de type Approximate Bayesian Computation.
|
6 |
Statistique bayésienne et applications en génétique des populationsBlum, Michael G B 03 December 2012 (has links) (PDF)
Les approches statistiques en génétique des populations visent deux objectifs distincts qui sont la description des données et la possibilité d'inférer les processus évolutifs qui ont généré les patrons observés. Le premier chapitre de ce manuscrit décrit nos apports théoriques et méthodologiques concernant le calcul bayésien approché (Approximate Bayesian Computation) qui permet de réaliser l'objectif d'inférence des processus évolutifs. Je décris des résultats asymptotiques qui permettent de décrire des propriétés statistiques du calcul bayésien approché. Ces résultats mettent en évidence à la fois l'intérêt des méthodes dites avec ajustement qui reposent sur des équations de régression et aussi l'intérêt de réduire la dimension des descripteurs statistiques utilisés dans le calcul bayésien approché. Je présente ensuite une méthode originale de calcul bayésien approché qui permet de manière conjointe d'effectuer des ajustements et de réduire la dimension des descripteurs statistiques. Une comparaison des différentes méthodes de réduction de dimension clos le premier chapitre. Le deuxième chapitre est consacré à l'objectif de description des données et se place plus particulièrement dans un cadre spatial. Les méthodes statistiques proposées reposent sur le concept d'isolement par la distance qui est une forme particulière de l'autocorrélation spatiale où la corrélation entre individus décroit avec la distance. Une approche originale de krigeage nous permet de caractériser des patrons d'isolement par la distance non-stationnaire où la manière avec laquelle la corrélation entre individus décroit avec la distance dépend de l'espace. Une deuxième extension que nous proposons est celle d'isolement par la distance anisotrope que nous caractérisons et testons à partir d'une équation de régression. La conclusion de ce manuscrit met l'accent sur les problèmes d'interprétation des résultats statistiques, l'importance de l'échantillonnage et la nécessité de tester l'adéquation des modèles aux données. Je conclus par des perspectives qui se proposent de faire passer l'analyse statistique bayésienne à l'échelle des données massives produites en génétique.
|
7 |
Initialiser et calibrer un modèle de microsimulation dynamique stochastique : application au modèle SimVillages / Initialize and Calibrate a Dynamic Stochastic Microsimulation Model : application to the SimVillages ModelLenormand, Maxime 12 December 2012 (has links)
Le but de cette thèse est de développer des outils statistiques permettant d'initialiser et de calibrer les modèles de microsimulation dynamique stochastique, en partant de l’exemple du modèle SimVillages (développé dans le cadre du projet Européen PRIMA). Ce modèle couple des dynamiques démographiques et économiques appliquées à une population de municipalités rurales. Chaque individu de la population, représenté explicitement dans un ménage au sein d’une commune, travaille éventuellement dans une autre, et possède sa propre trajectoire de vie. Ainsi, le modèle inclut-il des dynamiques de choix de vie, d’étude, de carrière, d’union, de naissance, de divorce, de migration et de décès. Nous avons développé, implémenté et testé les modèles et méthodes suivants : 1 / un modèle permettant de générer une population synthétique à partir de données agrégées, où chaque individu est membre d’un ménage, vit dans une commune et possède un statut au regard de l’emploi. Cette population synthétique est l’état initial du modèle. 2 / un modèle permettant de simuler une table d’origine-destination des déplacements domicile-travail à partir de données agrégées. 3 / un modèle permettant d’estimer le nombre d’emplois dans les services de proximité dans une commune donnée en fonction de son nombre d’habitants et de son voisinage en termes de service. 4 / une méthode de calibration des paramètres inconnus du modèle SimVillages de manière à satisfaire un ensemble de critères d'erreurs définis sur des sources de données hétérogènes. Cette méthode est fondée sur un nouvel algorithme d’échantillonnage séquentiel de type Approximate Bayesian Computation. / The purpose of this thesis is to develop statistical tools to initialize and to calibrate dynamic stochastic microsimulation models, starting from their application to the SimVillages model (developed within the European PRIMA project). This model includes demographic and economic dynamics applied to the population of a set of rural municipalities. Each individual, represented explicitly in a household living in a municipality, possibly working in another, has its own life trajectory. Thus, model includes rules for the choice of study, career, marriage, birth children, divorce, migration, and death. We developed, implemented and tested the following models : • a model to generate a synthetic population from aggregate data, where each individual lives in a household in a municipality and has a status with regard to employment. The synthetic population is the initial state of the model. • a model to simulate a table of origin-destination commuting from aggregate data in order to assign a place of work for each individual working outside his municipality of residence. • a sub-model to estimate the number of jobs in local services in a given municipality in terms of its number of inhabitants and its neighbors in terms of service. • a method to calibrate the unknown SimVillages model parameters in order to satisfy a set of criteria. This method is based on a new Approximate Bayesian Computation algorithm using importance sampling. When applied to a toy example and to the SimVillages model, our algorithm is 2 to 8 times faster than the three main sequential ABC algorithms currently available.
|
Page generated in 0.0574 seconds