Spelling suggestions: "subject:"bayesian computational"" "subject:"eayesian computational""
51 |
An interdisciplinary approach to describing biological diversityPolfus, Jean January 2016 (has links)
The concept of biodiversity – the phenotypic and genotypic variation among organisms – is central to conservation biology. There is growing recognition that biodiversity does not exist in isolation, but rather is intrinsically and evolutionarily linked to cultural diversity and indigenous knowledge systems. In Canada, caribou (Rangifer tarandus) occupy a central place in the livelihoods and identities of indigenous people and display substantial variation across their distribution. However, quantifying caribou intraspecific variation has proven challenging. Interdisciplinary approaches are necessary to produce effective species characterizations and conservation strategies that acknowledge the interdependent relationships between people and nature in complex social-ecological systems. In this dissertation I use multiple disciplinary traditions to develop comprehensive and united representations of caribou variation through an exploration of population genetics, phylogenetics, traditional knowledge, language, and visual approaches in the Sahtú region of the Northwest Territories, Canada. First, I examine caribou variation through analysis of population genetics and the relationships Dene and Métis people establish with animals within bioculturally diverse systems. Next, I focus on how the Pleistocene glacial-interglacial cycles have shaped the current patterns of caribou phylogeographic lineage diversification. Finally, I explore how art can be used to facilitate cross-cultural collaboration and externalize the unique heterogeneity of biocultural diversity. The results demonstrate a broad scale understanding of the distribution, spatial organization, and the degree of differentiation of caribou populations in the region. I found evidence for caribou population differentiation that corresponds to the caribou types recognized by Dene people: tǫdzı “boreal woodland caribou,” ɂekwę́ “barren-ground caribou,” and shúhta ɂepę́ “mountain caribou.” Phylogenetic results reveal that in their northern margin the boreal ecotype of woodland caribou evolved independently from the northern Beringian lineage in contrast with southern boreal caribou which belong to the sub-Laurentide refugia lineage. In addition, I demonstrate how art can be used improve communication, participation, and knowledge production among interdisciplinary research collaborations and across language and knowledge systems. A collaborative process of research that facilitates łeghágots'enetę “learning together” has the potential to produce sustainable conservation solutions, develop efficient and effective wildlife management policies, and ensure caribou remain an important part of the landscape. / February 2017
|
52 |
Summary Statistic Selection with Reinforcement LearningBarkino, Iliam January 2019 (has links)
Multi-armed bandit (MAB) algorithms could be used to select a subset of the k most informative summary statistics, from a pool of m possible summary statistics, by reformulating the subset selection problem as a MAB problem. This is suggested by experiments that tested five MAB algorithms (Direct, Halving, SAR, OCBA-m, and Racing) on the reformulated problem and comparing the results to two established subset selection algorithms (Minimizing Entropy and Approximate Sufficiency). The MAB algorithms yielded errors at par with the established methods, but in only a fraction of the time. Establishing MAB algorithms as a new standard for summary statistics subset selection could therefore save numerous scientists substantial amounts of time when selecting summary statistics for approximate bayesian computation.
|
53 |
Échantillonnage préférentiel adaptatif et méthodes bayésiennes approchées appliquées à la génétique des populations. / Adaptive multiple importance sampling and approximate bayesian computation with applications in population genetics.Sedki, Mohammed Amechtoh 31 October 2012 (has links)
Dans cette thèse, on propose des techniques d'inférence bayésienne dans les modèles où la vraisemblance possède une composante latente. La vraisemblance d'un jeu de données observé est l'intégrale de la vraisemblance dite complète sur l'espace de la variable latente. On s'intéresse aux cas où l'espace de la variable latente est de très grande dimension et comportes des directions de différentes natures (discrètes et continues), ce qui rend cette intégrale incalculable. Le champs d'application privilégié de cette thèse est l'inférence dans les modèles de génétique des populations. Pour mener leurs études, les généticiens des populations se basent sur l'information génétique extraite des populations du présent et représente la variable observée. L'information incluant l'histoire spatiale et temporelle de l'espèce considérée est inaccessible en général et représente la composante latente. Notre première contribution dans cette thèse suppose que la vraisemblance peut être évaluée via une approximation numériquement coûteuse. Le schéma d'échantillonnage préférentiel adaptatif et multiple (AMIS pour Adaptive Multiple Importance Sampling) de Cornuet et al. [2012] nécessite peu d'appels au calcul de la vraisemblance et recycle ces évaluations. Cet algorithme approche la loi a posteriori par un système de particules pondérées. Cette technique est conçue pour pouvoir recycler les simulations obtenues par le processus itératif (la construction séquentielle d'une suite de lois d'importance). Dans les nombreux tests numériques effectués sur des modèles de génétique des populations, l'algorithme AMIS a montré des performances numériques très prometteuses en terme de stabilité. Ces propriétés numériques sont particulièrement adéquates pour notre contexte. Toutefois, la question de la convergence des estimateurs obtenus parcette technique reste largement ouverte. Dans cette thèse, nous montrons des résultats de convergence d'une version légèrement modifiée de cet algorithme. Sur des simulations, nous montrons que ses qualités numériques sont identiques à celles du schéma original. Dans la deuxième contribution de cette thèse, on renonce à l'approximation de la vraisemblance et onsupposera seulement que la simulation suivant le modèle (suivant la vraisemblance) est possible. Notre apport est un algorithme ABC séquentiel (Approximate Bayesian Computation). Sur les modèles de la génétique des populations, cette méthode peut se révéler lente lorsqu'on vise uneapproximation précise de la loi a posteriori. L'algorithme que nous proposons est une amélioration de l'algorithme ABC-SMC de DelMoral et al. [2012] que nous optimisons en nombre d'appels aux simulations suivant la vraisemblance, et que nous munissons d'un mécanisme de choix de niveauxd'acceptations auto-calibré. Nous implémentons notre algorithme pour inférer les paramètres d'un scénario évolutif réel et complexe de génétique des populations. Nous montrons que pour la même qualité d'approximation, notre algorithme nécessite deux fois moins de simulations par rapport à laméthode ABC avec acceptation couramment utilisée. / This thesis consists of two parts which can be read independently.The first part is about the Adaptive Multiple Importance Sampling (AMIS) algorithm presented in Cornuet et al.(2012) provides a significant improvement in stability and Effective Sample Size due to the introduction of the recycling procedure. These numerical properties are particularly adapted to the Bayesian paradigm in population genetics where the modelization involves a large number of parameters. However, the consistency of the AMIS estimator remains largely open. In this work, we provide a novel Adaptive Multiple Importance Sampling scheme corresponding to a slight modification of Cornuet et al. (2012) proposition that preserves the above-mentioned improvements. Finally, using limit theorems on triangular arrays of conditionally independant random variables, we give a consistensy result for the final particle system returned by our new scheme.The second part of this thesis lies in ABC paradigm. Approximate Bayesian Computation has been successfully used in population genetics models to bypass the calculation of the likelihood. These algorithms provide an accurate estimator by comparing the observed dataset to a sample of datasets simulated from the model. Although parallelization is easily achieved, computation times for assuring a suitable approximation quality of the posterior distribution are still long. To alleviate this issue, we propose a sequential algorithm adapted fromDel Moral et al. (2012) which runs twice as fast as traditional ABC algorithms. Itsparameters are calibrated to minimize the number of simulations from the model.
|
54 |
Invasion, démographie et évolution : le cas de l'hybridation / Invasion, demography and evolution : the case of hybridizationBermond, Gérald 16 December 2013 (has links)
Cette thèse s’inscrit dans le contexte de la biologie de l’invasion de la chrysomèle des racines du maïs, Diabrotica virgifera virgifera (Dvv), en Europe. Les introductions multiples de cette peste sur le vieux continent à partir des années 1990 et en provenance des États-Unis ont conduit à la formation de plusieurs foyers envahissants dont deux principaux, différenciés génétiquement et situés en Italie du Nord-Ouest (Italie NO) et en Europe Centrale et du Sud-Est (Europe CSE). Ces deux foyers sont entrés en contact en 2008, en Italie du Nord, dans la région de la Vénétie. L’objectif principal de ces trois années de recherche était de détecter, d’étudier et de documenter un cas précis d’hybridation au cours d’une invasion biologique. Dans un premier temps, j'ai montré que la zone de contact détectée en Vénétie résultait bien en une zone hybride. Pour cela plusieurs types d’analyses de génétique des populations ont été réalisés à l’aide de marqueurs micro-satellites. Dans un second temps, j'ai exploité cette zone hybride et utilisé la théorie des clines neutres et le déséquilibre de liaison pour estimer la dispersion (σ) de Dvv en Italie du Nord aux alentours de 20 km.génération−1/2. Enfin j'ai montré l’absence d'impact de l’hybridation au cours de l’invasion européenne de Dvv in natura, en mesurant sur des génotypes hybrides et parentaux, de nombreux traits phénotypiques positivement liés à la fitness des individus. Ainsi, une sélection ou contre sélection des hybrides est à exclure dans ce cas précis d’hybridation et la dynamique de l’invasion de cette peste en Europe ne devrait être affectée en aucune façon. / This thesis deals with the invasion biology of the western corn rootworm, (WCR) in Europe. Multiple introductions of this pest in Europe from the United States and the 90’s, led to the formation of two main invasive outbreaks, genetically differentiated and located in Northwest Italy (NW Italy) and in Central and South-Eastern Europe (CSE Europe). Both outbreaks converged towards each other and came into contact in 2008, in the region of Veneto (Northern Italy). The main objective of these three years of research was to detect study and document a precise case of hybridization during a biological invasion. First of all, I showed that the contact zone detected in Veneto results in a hybrid zone. For that, several types of population genetics analyses were performed using microsatellite markers. In a second time, I exploited this hybrid zone and used the theory of neutral clines and the linkage disequilibrium to estimate dispersal (σ) of WCR in Northern Italy around 20 km.generation-1/2. Finally I showed the absence of impact of hybridization in the european invasion of WCR in natura, by measuring on hybrid and parental genotypes, numerous phenotypic traits positively associated to the fitness of individuals. Thus, a selection or a selection against hybrids is excluded in this particular case of hybridization and the invasion dynamics of WCR in Europe should not be affected in any way.
|
55 |
Models and algorithms to study the common evolutionary history of hosts and symbionts / Modèles et algorithmes pour étudier l'histoire évolutive commune des hôtes et des symbiotesUrbini, Laura 23 October 2017 (has links)
Lors de cette thèse, je me suis intéressée aux modèles et aux algorithmes pour étudier l'histoire évolutive commune des hôtes et des symbiotes. Le premier objectif était d'analyser la robustesse des méthodes de réconciliation des arbres phylogénétiques, qui sont très utilisées dans ce type d'étude. Celles-ci associent (ou lient) un arbre, d'habitude celui des symbiotes, à l'autre, en utilisant un modèle dit basé sur des évènements. Les évènements les plus utilisés sont la cospéciation, la duplication, le saut et la perte. Les phylogénies des hôtes et des symbiotes sont généralement considérés comme donnés, et sans aucune erreur. L'objectif était de comprendre les forces et les faiblesses du modèle parcimonieux utilisé et comprendre comment les résultats finaux peuvent être influencés en présence de petites perturbations ou d'erreurs dans les données en entrée. Ici deux cas sont considérés, le premier est le choix erroné d'une association entre les feuilles des hôtes et des symbiotes dans le cas où plusieurs existent, le deuxième est lié au mauvais choix de l'enracinement de l'arbre des symbiotes. Nos résultats montrent que le choix des associations entre feuilles et le choix de l'enracinement peuvent avoir un fort impact sur la variabilité de la réconciliation obtenue. Nous avons également remarqué que l'evènement appelé “saut” joue un rôle important dans l'étude de la robustesse, surtout pour le problème de l'enracinement. Le deuxième objectif de cette thèse était d'introduire certains evènements peu ou pas formellement considérés dans la littérature. L'un d'entre eux est la “propagation”, qui correspond à l'invasion de différents hôtes par un même symbiote. Dans ce cas, lorsque les propagations ne sont pas considérés, les réconciliations optimales sont obtenues en tenant compte seulement des coûts des évènements classiques (cospeciation, duplication, saut, perte). La nécessité de développer des méthodes statistiques pour assigner les coûts les plus appropriés est toujours d'actualité. Deux types de propagations sont introduites : verticaux et horizontaux. Le premier type correspond à ce qu'on pourrait appeler aussi un gel, à savoir que l'évolution du symbiote s'arrête et “gèle” alors que le symbiote continue d'être associé à un hôte et aux nouvelles espèces qui descendent de cet hôte. Le second comprend à la fois une invasion, du symbiote qui reste associé à l'hôte initial, mais qui en même temps s'associe (“envahit”) un autre hôte incomparable avec le premier, et un gel par rapport à l'évolution des deux l'hôtes, celui auquel il était associé au début et celui qu'il a envahi. Nos résultats montrent que l'introduction de ces evènements rend le modèle plus réaliste, mais aussi que désormais il est possible d'utiliser directement des jeux de données avec un symbiote qui est associé plusieurs hôtes au même temps, ce qui n'était pas faisable auparavant / In this Ph.D. work, we proposed models and algorithms to study the common evolutionary history of hosts and symbionts. The first goal was to analyse the robustness of the methods of phylogenetic tree reconciliations, which are a common way of performing such study. This involves mapping one tree, most often the symbiont’s, to the other using a so-called event-based model. The events considered in general are cospeciation, duplication, host switch, and loss. The host and the symbiont phylogenies are usually considered as given and without any errors. The objective here was to understand the strengths and weaknesses of the parsimonious model used in such mappings of one tree to another, and how the final results may be influenced when small errors are present, or are introduced in the input datasets. This may correspond either to a wrong choice of present-day symbiont-host associations in the case where multiple ones exist, or to small errors related to a wrong rooting of the symbiont tree. Our results show that the choice of leaf associations and of root placement may have a strong impact on the variability of the reconciliation output. We also noticed that the host switch event has an important role in particular for the rooting problem. The second goal of this Ph.D. was to introduce some events that are little or not formally considered in the literature. One of them is the spread, which corresponds to the invasion of different hosts by a same symbiont. In this case, as when spreads are not considered, the optimal reconciliations obtained will depend on the choice made for the costs of the events. The need to develop statistical methods to assign the most appropriate ones therefore remains of actuality. Two types of spread are introduced: vertical and horizontal. The first case corresponds to what could be called also a freeze in the sense that the evolution of the symbiont “freezes” while the symbiont continues to be associated with a host and with the new species that descend from this host. The second includes both an invasion, of the symbiont which remains with the initial host but at the same time gets associated with (“invades”) another one incomparable with the first, and a freeze, actually a double freeze as the evolution of the symbiont “freezes” in relation to the evolution of the host to which it was initially associated and in relation to the evolution of the second one it “invaded”. Our results show that the introduction of these events makes the model more realistic, but also that it is now possible to directly use datasets with a symbiont that is associated with more than one host at the same time, which was not feasible before
|
56 |
Modélisation des biais mutationnels et rôle de la sélection sur l’usage des codonsLaurin-Lemay, Simon 10 1900 (has links)
L’acquisition de données génomiques ne cesse de croître, ainsi que l’appétit pour les interpréter. Mais déterminer les processus qui ont façonné l’évolution des séquences codantes (et leur importance relative) est un défi scientifique passant par le développement de modèles statistiques de l’évolution prenant en compte de plus en plus d’hétérogénéités au niveau des processus mutationnels et de sélection.
Identifier la sélection est une tâche qui nécessite typiquement de détecter un écart entre deux modèles : un modèle nulle ne permettant pas de régime évolutif adaptatif et un modèle alternatif qui lui en permet. Lorsqu’un test entre ces deux modèles rejette le modèle nulle, on considère avoir détecter la présence d’évolution adaptative. La tâche est d’autant plus difficile que le signal est faible et confondu avec diverses hétérogénéités négligées par les modèles.
La détection de la sélection sur l’usage des codons spécifiquement est controversée, particulièrement chez les Vertébrés. Plusieurs raisons peuvent expliquer cette controverse : (1) il y a un biais sociologique à voir la sélection comme moteur principal de l’évolution, à un tel point que les hétérogénéités relatives aux processus de mutation sont historiquement négligées ; (2) selon les principes de la génétique des populations, la petite taille efficace des populations des Vertébrés limite le pouvoir de la sélection sur les mutations synonymes conférant elles-mêmes un avantage minime ; (3) par contre, la sélection sur l’usage des codons pourrait être très localisée le long des séquences codantes, à des sites précis, relevant de contraintes de sélection relatives à des motifs utilisés par la machinerie d’épissage, par exemple.
Les modèles phylogénétiques de type mutation-sélection sont les outils de prédilection pour aborder ces questions, puisqu’ils modélisent explicitement les processus mutationnels ainsi que les contraintes de sélection. Toutes les hétérogénéités négligées par les modèles mutation-sélection de Yang and Nielsen [2008] peuvent engendrer de faux positifs allant de 20% (préférence site-spécifique en acides aminés) à 100% (hypermutabilité des transitions en contexte CpG) [Laurin-Lemay et al., 2018b]. En particulier, l’hypermutabilité des transitions du contexte CpG peut à elle seule expliquer la sélection détectée par Yang and Nielsen [2008] sur l’usage des codons.
Mais, modéliser des phénomènes qui prennent en compte des interdépendances dans les données (par exemple l’hypermutabilité du contexte CpG) augmente de beaucoup la complexité des fonctions de vraisemblance. D’autre part, aujourd’hui le niveau de sophistication des modèles fait en sorte que des vecteurs de paramètres de haute dimensionnalité sont nécessaires pour modéliser l’hétérogénéité des processus étudiés, dans notre cas de contraintes de sélection sur la protéine.
Le calcul bayésien approché (Approximate Bayesian Computation ou ABC) permet de contourner le calcul de la vraisemblance. Cette approche diffère de l’échantillonnage par Monte Carlo par chaîne de Markov (MCMC) communément utilisé pour faire l’approximation de la distribution a posteriori. Nous avons exploré l’idée de combiner ces approches pour une problématique spécifique impliquant des paramètres de haute dimensionnalité et de nouveaux paramètres prenant en compte des dépendances entre sites. Dans certaines conditions, lorsque les paramètres de haute dimensionnalité sont faiblement corrélés aux nouveaux paramètres d’intérêt, il est possible d’inférer ces mêmes paramètres de haute dimensionnalité avec la méthode MCMC, et puis les paramètres d’intérêt au moyen de l’ABC. Cette nouvelle approche se nomme CABC [Laurin-Lemay et al., 2018a], pour calcul bayésien approché conditionnel (Conditional Approximate Bayesian Computation : CABC).
Nous avons pu vérifier l’efficacité de la méthode CABC en étudiant un cas d’école, soit celui de l’hypermutabilité des transitions en contexte CpG chez les Eutheria [Laurin-Lemay et al., 2018a]. Nous trouvons que 100% des 137 gènes testés possèdent une hypermutabilité des transitions significative. Nous avons aussi montré que les modèles incorporant l’hypermutabilité des transitions en contexte CpG prédisent un usage des codons plus proche de celui des gènes étudiés. Ceci suggère qu’une partie importante de l’usage des codons peut être expliquée à elle seule par les processus mutationnels et non pas par la sélection.
Finalement nous explorons plusieurs pistes de recherche suivant nos développements méthodologiques : l’application de la détection de l’hypermutabilité des transitions en contexte CpG à l’échelle des Vertébrés ; l’expansion du modèle pour reconnaître des contextes autres que seul le CpG (e.g., hypermutabilité des transitions et transversions en contexte CpG et TpA) ; ainsi que des perspectives méthodologiques d’amélioration de la performance du CABC. / The acquisition of genomic data continues to grow, as does the appetite to interpret them. But determining the processes that shaped the evolution of coding sequences (and their relative importance) is a scientific challenge that requires the development of statistical models of evolution that increasingly take into account heterogeneities in mutation and selection processes.
Identifying selection is a task that typically requires comparing two models: a null model that does not allow for an adaptive evolutionary regime and an alternative model that allows it. When a test between these two models rejects the null, we consider to have detected the presence of adaptive evolution. The task is all the more difficult as the signal is weak and confounded with various heterogeneities neglected by the models.
The detection of selection on codon usage is controversial, particularly in Vertebrates. There are several reasons for this controversy: (1) there is a sociological bias in seeing selection as the main driver of evolution, to such an extent that heterogeneities relating to mutation processes are historically neglected; (2) according to the principles of population genetics, the small effective size of vertebrate populations limits the power of selection over synonymous mutations conferring a minimal advantage; (3) On the other hand, selection on the use of codons could be very localized along the coding sequences, at specific sites, subject to selective constraints related to DNA patterns used by the splicing machinery, for example.
Phylogenetic mutation-selection models are the preferred tools to address these issues, as they explicitly model mutation processes and selective constraints. All the heterogeneities neglected by the mutation-selection models of Yang and Nielsen [2008] can generate false positives, ranging from 20% (site-specific amino acid preference) to 100% (hypermutability of transitions in CpG context)[Laurin-Lemay et al., 2018b]. In particular, the hypermutability of transitions in the CpG context alone can explain the selection on codon usage detected by Yang and Nielsen [2008].
However, modelling phenomena that take into account data interdependencies (e.g., hypermutability of the CpG context) greatly increases the complexity of the likelihood function. On the other hand, today’s sophisticated models require high-dimensional parameter vectors to model the heterogeneity of the processes studied, in our case selective constraints on the protein.
Approximate Bayesian Computation (ABC) is used to bypass the calculation of the likelihood function. This approach differs from the Markov Chain Monte Carlo (MCMC) sampling commonly used to approximate the posterior distribution. We explored the idea of combining these approaches for a specific problem involving high-dimensional parameters and new parameters taking into account dependencies between sites. Under certain conditions, when the high dimensionality parameters are weakly correlated to the new parameters of interest, it is possible to infer the high dimensionality parameters with the MCMC method, and then the parameters of interest using the ABC. This new approach is called Conditional Approximate Bayesian Computation (CABC) [Laurin-Lemay et al., 2018a]. We were able to verify the effectiveness of the CABC method in a case study, namely the hypermutability of transitions in the CpG context within Eutheria [Laurin-Lemay et al.,2018a]. We find that 100% of the 137 genes tested have significant hypermutability of transitions. We have also shown that models incorporating hypermutability of transitions in CpG contexts predict a codon usage closer to that of the genes studied. This suggests that a significant part of codon usage can be explained by mutational processes alone.
Finally, we explore several avenues of research emanating from our methodological developments: the application of hypermutability detection of transitions in CpG contexts to the Vertebrate scale; the expansion of the model to recognize contexts other than only CpG (e.g., hypermutability of transitions and transversions in CpG and TpA context); and methodological perspectives to improve the performance of the CABC approach.
|
57 |
SVD-BAYES: A SINGULAR VALUE DECOMPOSITION-BASED APPROACH UNDER BAYESIAN FRAMEWORK FOR INDIRECT ESTIMATION OF AGE-SPECIFIC FERTILITY AND MORTALITYChu, Yue January 2020 (has links)
No description available.
|
58 |
A Comprehensive Approach to Conservation Biology: From Population Genetics to Extinction Risk Assessment for Two Species of Freshwater MusselsInoue, Kentaro 24 July 2015 (has links)
No description available.
|
59 |
Initialize and Calibrate a Dynamic Stochastic Microsimulation Model: Application to the SimVillages ModelLenormand, Maxime 12 December 2012 (has links) (PDF)
Le but de cette thèse est de développer des outils statistiques permettant d'initialiser et de calibrer les modèles de microsimulation dynamique stochastique, en partant de l'exemple du modèle SimVillages (développé dans le cadre du projet Européen PRIMA). Ce modèle couple des dynamiques démographiques et économiques appliquées à une population de municipalités rurales. Chaque individu de la population, représenté explicitement dans un ménage au sein d'une commune, travaille éventuellement dans une autre, et possède sa propre trajectoire de vie. Ainsi, le modèle inclut-il des dynamiques de choix de vie, d'étude, de carrière, d'union, de naissance, de divorce, de migration et de décès. Nous avons développé, implémenté et testé les modèles et méthodes suivants: * un modèle permettant de générer une population synthétique à partir de données agrégées, où chaque individu est membre d'un ménage, vit dans une commune et possède un statut au regard de l'emploi. Cette population synthétique est l'état initial du modèle. * un modèle permettant de simuler une table d'origine-destination des déplacements domicile-travail à partir de données agrégées. * un modèle permettant d'estimer le nombre d'emplois dans les services de proximité dans une commune donnée en fonction de son nombre d'habitants et de son voisinage en termes de service. * une méthode de calibration des paramètres inconnus du modèle SimVillages de manière à satisfaire un ensemble de critères d'erreurs définis sur des sources de données hétérogènes. Cette méthode est fondée sur un nouvel algorithme d'échantillonnage séquentiel de type Approximate Bayesian Computation.
|
60 |
Initialiser et calibrer un modèle de microsimulation dynamique stochastique : application au modèle SimVillages / Initialize and Calibrate a Dynamic Stochastic Microsimulation Model : application to the SimVillages ModelLenormand, Maxime 12 December 2012 (has links)
Le but de cette thèse est de développer des outils statistiques permettant d'initialiser et de calibrer les modèles de microsimulation dynamique stochastique, en partant de l’exemple du modèle SimVillages (développé dans le cadre du projet Européen PRIMA). Ce modèle couple des dynamiques démographiques et économiques appliquées à une population de municipalités rurales. Chaque individu de la population, représenté explicitement dans un ménage au sein d’une commune, travaille éventuellement dans une autre, et possède sa propre trajectoire de vie. Ainsi, le modèle inclut-il des dynamiques de choix de vie, d’étude, de carrière, d’union, de naissance, de divorce, de migration et de décès. Nous avons développé, implémenté et testé les modèles et méthodes suivants : 1 / un modèle permettant de générer une population synthétique à partir de données agrégées, où chaque individu est membre d’un ménage, vit dans une commune et possède un statut au regard de l’emploi. Cette population synthétique est l’état initial du modèle. 2 / un modèle permettant de simuler une table d’origine-destination des déplacements domicile-travail à partir de données agrégées. 3 / un modèle permettant d’estimer le nombre d’emplois dans les services de proximité dans une commune donnée en fonction de son nombre d’habitants et de son voisinage en termes de service. 4 / une méthode de calibration des paramètres inconnus du modèle SimVillages de manière à satisfaire un ensemble de critères d'erreurs définis sur des sources de données hétérogènes. Cette méthode est fondée sur un nouvel algorithme d’échantillonnage séquentiel de type Approximate Bayesian Computation. / The purpose of this thesis is to develop statistical tools to initialize and to calibrate dynamic stochastic microsimulation models, starting from their application to the SimVillages model (developed within the European PRIMA project). This model includes demographic and economic dynamics applied to the population of a set of rural municipalities. Each individual, represented explicitly in a household living in a municipality, possibly working in another, has its own life trajectory. Thus, model includes rules for the choice of study, career, marriage, birth children, divorce, migration, and death. We developed, implemented and tested the following models : • a model to generate a synthetic population from aggregate data, where each individual lives in a household in a municipality and has a status with regard to employment. The synthetic population is the initial state of the model. • a model to simulate a table of origin-destination commuting from aggregate data in order to assign a place of work for each individual working outside his municipality of residence. • a sub-model to estimate the number of jobs in local services in a given municipality in terms of its number of inhabitants and its neighbors in terms of service. • a method to calibrate the unknown SimVillages model parameters in order to satisfy a set of criteria. This method is based on a new Approximate Bayesian Computation algorithm using importance sampling. When applied to a toy example and to the SimVillages model, our algorithm is 2 to 8 times faster than the three main sequential ABC algorithms currently available.
|
Page generated in 0.1093 seconds