• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 25
  • 9
  • 8
  • 1
  • 1
  • Tagged with
  • 54
  • 54
  • 54
  • 10
  • 10
  • 9
  • 9
  • 9
  • 9
  • 8
  • 8
  • 7
  • 7
  • 7
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.

The Population Ecology, Molecular Ecology, and Phylogeography of the Diamondback Terrapin (Malaclemys terrapin)

Converse, Paul E. 19 September 2016 (has links)
No description available.

Scalable Estimation and Testing for Complex, High-Dimensional Data

Lu, Ruijin 22 August 2019 (has links)
With modern high-throughput technologies, scientists can now collect high-dimensional data of various forms, including brain images, medical spectrum curves, engineering signals, etc. These data provide a rich source of information on disease development, cell evolvement, engineering systems, and many other scientific phenomena. To achieve a clearer understanding of the underlying mechanism, one needs a fast and reliable analytical approach to extract useful information from the wealth of data. The goal of this dissertation is to develop novel methods that enable scalable estimation, testing, and analysis of complex, high-dimensional data. It contains three parts: parameter estimation based on complex data, powerful testing of functional data, and the analysis of functional data supported on manifolds. The first part focuses on a family of parameter estimation problems in which the relationship between data and the underlying parameters cannot be explicitly specified using a likelihood function. We introduce a wavelet-based approximate Bayesian computation approach that is likelihood-free and computationally scalable. This approach will be applied to two applications: estimating mutation rates of a generalized birth-death process based on fluctuation experimental data and estimating the parameters of targets based on foliage echoes. The second part focuses on functional testing. We consider using multiple testing in basis-space via p-value guided compression. Our theoretical results demonstrate that, under regularity conditions, the Westfall-Young randomization test in basis space achieves strong control of family-wise error rate and asymptotic optimality. Furthermore, appropriate compression in basis space leads to improved power as compared to point-wise testing in data domain or basis-space testing without compression. The effectiveness of the proposed procedure is demonstrated through two applications: the detection of regions of spectral curves associated with pre-cancer using 1-dimensional fluorescence spectroscopy data and the detection of disease-related regions using 3-dimensional Alzheimer's Disease neuroimaging data. The third part focuses on analyzing data measured on the cortical surfaces of monkeys' brains during their early development, and subjects are measured on misaligned time markers. In this analysis, we examine the asymmetric patterns and increase/decrease trend in the monkeys' brains across time. / Doctor of Philosophy / With modern high-throughput technologies, scientists can now collect high-dimensional data of various forms, including brain images, medical spectrum curves, engineering signals, and biological measurements. These data provide a rich source of information on disease development, engineering systems, and many other scientific phenomena. The goal of this dissertation is to develop novel methods that enable scalable estimation, testing, and analysis of complex, high-dimensional data. It contains three parts: parameter estimation based on complex biological and engineering data, powerful testing of high-dimensional functional data, and the analysis of functional data supported on manifolds. The first part focuses on a family of parameter estimation problems in which the relationship between data and the underlying parameters cannot be explicitly specified using a likelihood function. We introduce a computation-based statistical approach that achieves efficient parameter estimation scalable to high-dimensional functional data. The second part focuses on developing a powerful testing method for functional data that can be used to detect important regions. We will show nice properties of our approach. The effectiveness of this testing approach will be demonstrated using two applications: the detection of regions of the spectrum that are related to pre-cancer using fluorescence spectroscopy data and the detection of disease-related regions using brain image data. The third part focuses on analyzing brain cortical thickness data, measured on the cortical surfaces of monkeys’ brains during early development. Subjects are measured on misaligned time-markers. By using functional data estimation and testing approach, we are able to: (1) identify asymmetric regions between their right and left brains across time, and (2) identify spatial regions on the cortical surface that reflect increase or decrease in cortical measurements over time.

Sélection bayésienne de variables et méthodes de type Parallel Tempering avec et sans vraisemblance

Baragatti, Meïli 10 November 2011 (has links)
Cette thèse se décompose en deux parties. Dans un premier temps nous nous intéressons à la sélection bayésienne de variables dans un modèle probit mixte.L'objectif est de développer une méthode pour sélectionner quelques variables pertinentes parmi plusieurs dizaines de milliers tout en prenant en compte le design d'une étude, et en particulier le fait que plusieurs jeux de données soient fusionnés. Le modèle de régression probit mixte utilisé fait partie d'un modèle bayésien hiérarchique plus large et le jeu de données est considéré comme un effet aléatoire. Cette méthode est une extension de la méthode de Lee et al. (2003). La première étape consiste à spécifier le modèle ainsi que les distributions a priori, avec notamment l'utilisation de l'a priori conventionnel de Zellner (g-prior) pour le vecteur des coefficients associé aux effets fixes (Zellner, 1986). Dans une seconde étape, nous utilisons un algorithme Metropolis-within-Gibbs couplé à la grouping (ou blocking) technique de Liu (1994) afin de surmonter certaines difficultés d'échantillonnage. Ce choix a des avantages théoriques et computationnels. La méthode développée est appliquée à des jeux de données microarray sur le cancer du sein. Cependant elle a une limite : la matrice de covariance utilisée dans le g-prior doit nécessairement être inversible. Or il y a deux cas pour lesquels cette matrice est singulière : lorsque le nombre de variables sélectionnées dépasse le nombre d'observations, ou lorsque des variables sont combinaisons linéaires d'autres variables. Nous proposons donc une modification de l'a priori de Zellner en y introduisant un paramètre de type ridge, ainsi qu'une manière de choisir les hyper-paramètres associés. L'a priori obtenu est un compromis entre le g-prior classique et l'a priori supposant l'indépendance des coefficients de régression, et se rapproche d'un a priori précédemment proposé par Gupta et Ibrahim (2007).Dans une seconde partie nous développons deux nouvelles méthodes MCMC basées sur des populations de chaînes. Dans le cas de modèles complexes ayant de nombreux paramètres, mais où la vraisemblance des données peut se calculer, l'algorithme Equi-Energy Sampler (EES) introduit par Kou et al. (2006) est apparemment plus efficace que l'algorithme classique du Parallel Tempering (PT) introduit par Geyer (1991). Cependant, il est difficile d'utilisation lorsqu'il est couplé avec un échantillonneur de Gibbs, et nécessite un stockage important de valeurs. Nous proposons un algorithme combinant le PT avec le principe d'échanges entre chaînes ayant des niveaux d'énergie similaires dans le même esprit que l'EES. Cette adaptation appelée Parallel Tempering with Equi-Energy Moves (PTEEM) conserve l'idée originale qui fait la force de l'algorithme EES tout en assurant de bonnes propriétés théoriques et une utilisation facile avec un échantillonneur de Gibbs.Enfin, dans certains cas complexes l'inférence peut être difficile car le calcul de la vraisemblance des données s'avère trop coûteux, voire impossible. De nombreuses méthodes sans vraisemblance ont été développées. Par analogie avec le Parallel Tempering, nous proposons une méthode appelée ABC-Parallel Tempering, basée sur la théorie des MCMC, utilisant une population de chaînes et permettant des échanges entre elles. / This thesis is divided into two main parts. In the first part, we propose a Bayesian variable selection method for probit mixed models. The objective is to select few relevant variables among tens of thousands while taking into account the design of a study, and in particular the fact that several datasets are merged together. The probit mixed model used is considered as part of a larger hierarchical Bayesian model, and the dataset is introduced as a random effect. The proposed method extends a work of Lee et al. (2003). The first step is to specify the model and prior distributions. In particular, we use the g-prior of Zellner (1986) for the fixed regression coefficients. In a second step, we use a Metropolis-within-Gibbs algorithm combined with the grouping (or blocking) technique of Liu (1994). This choice has both theoritical and practical advantages. The method developed is applied to merged microarray datasets of patients with breast cancer. However, this method has a limit: the covariance matrix involved in the g-prior should not be singular. But there are two standard cases in which it is singular: if the number of observations is lower than the number of variables, or if some variables are linear combinations of others. In such situations we propose to modify the g-prior by introducing a ridge parameter, and a simple way to choose the associated hyper-parameters. The prior obtained is a compromise between the conditional independent case of the coefficient regressors and the automatic scaling advantage offered by the g-prior, and can be linked to the work of Gupta and Ibrahim (2007).In the second part, we develop two new population-based MCMC methods. In cases of complex models with several parameters, but whose likelihood can be computed, the Equi-Energy Sampler (EES) of Kou et al. (2006) seems to be more efficient than the Parallel Tempering (PT) algorithm introduced by Geyer (1991). However it is difficult to use in combination with a Gibbs sampler, and it necessitates increased storage. We propose an algorithm combining the PT with the principle of exchange moves between chains with same levels of energy, in the spirit of the EES. This adaptation which we are calling Parallel Tempering with Equi-Energy Move (PTEEM) keeps the original idea of the EES method while ensuring good theoretical properties and a practical use in combination with a Gibbs sampler.Then, in some complex models whose likelihood is analytically or computationally intractable, the inference can be difficult. Several likelihood-free methods (or Approximate Bayesian Computational Methods) have been developed. We propose a new algorithm, the Likelihood Free-Parallel Tempering, based on the MCMC theory and on a population of chains, by using an analogy with the Parallel Tempering algorithm.

Dynamique évolutive de la durée du cycle de mil : effet des flux de gènes et des pratiques paysannes / Dynamic evolution of pearl millet cycle length : effect of gene flow and farmers’ practices

Lakis, Ghayas 17 September 2012 (has links)
La domestication du mil (Pennisetum glaucum), dans le Sahel, a engendré une large gamme de variétés, très diversifiées pour de nombreuses caractéristiques agronomiques. En particulier, la diversité de la durée du cycle des variétés locales de mil est une composante essentielle des stratégies mises en œuvre par les agriculteurs pour faire face aux fluctuations des précipitations et assurer une certaine stabilité de la production. Au cours des dernières décennies, des évolutions dans les pratiques agricoles ont été observées, en réponse à des changements écologiques et sociaux. Une des conséquences de ces évolutions pourrait être l’existence de flux de gènes entre variétés à cycle court et variétés à cycle long du fait de l’émergence de situations de parapatrie entre ces deux types de variétés, naguère isolées. Par ailleurs, l’existence de recouvrement des périodes des floraisons de ces deux types variétaux a déjà été préalablement observée. Une telle situation amène donc à s’interroger sur la dynamique évolutive passée et actuelle de la diversité de la longueur du cycle du mil dans le Sahel. Dans la première partie de ma thèse, j’ai évalué les possibilités d’occurrence de flux de gènes entre variétés précoces et tardives de mil dans le Sud-ouest du Niger, en utilisant une approche comparative entre situations contrastées pour la distribution spatiale de ces deux types de variétés. J’ai réalisé : 1) une étude des périodes de floraison de deux variétés de mil (précoce (Haïni Kiré) : 75 à 95 jours entre le semis et la maturité et tardive (Somno) : 105 à 125 jours de durée de cycle) dans plusieurs champs paysans, et dans deux villages. 2) une analyse moléculaire à l’aide de 15 marqueurs microsatellites qui a permis l’estimation des niveaux de différenciation génétique entre populations de mils précoces et tardifs échantillonnés dans 4 villages (incluant les deux villages déjà cités) de la même région.Les résultats ont montré la possibilité effective de flux de pollen et l’existence d’introgressions génétiques entre variétés précoces et tardives. Les mécanismes qui pourraient permettre un maintien sur le long terme d’une différenciation phénologique entre les deux types variétaux malgré l’existence de ces flux de gènes, sont discutés.Dans la deuxième partie, j’ai utilisé une approche « gène candidat » combinée à une démarche de génétique des populations, pour tenter d’identifier des gènes qui auraient pu contribuer à la diversité de la durée de cycle chez le mil. Je me suis focalisé sur trois gènes du contrôle de la transition florale PgHd3a, PgDwarf8 et PgPHYC. Leur implication dans la diversité de la durée de cycle chez plusieurs espèces a déjà été montrée. J’ai estimé les niveaux de différenciation génétique entre les mils domestiques et sauvages, précoces et tardifs pour ces trois gènes J'ai aussi cherché à mettre en évidence, au sein de ces gènes, les empreintes éventuelles d’évènements sélectifs passés. Afin de prendre en compte l’histoire démographique des mils dans les tests de neutralité sélective, j’ai utilisé les données de polymorphisme nucléotidiques de 8 séquences témoins dans le cadre d’une approche Bayésienne.Les résultats obtenus suggèrent fortement que PgHd3a et PgDwarf8 ont été ciblés par la sélection durant la domestication. Cependant, les données ne soutiennent pas l’hypothèse d’un rôle potentiel des trois gènes candidats dans la différenciation de la durée de cycle entre les variétés locales précoces et tardives. L’approc / Domestication of pearl millet (Pennisetum glaucum) in the Sahel of Africa has produced a wide range of diversity in cycle duration of landraces. This diversity allows Sahelian farmers to outface the precipitation fluctuation and to ensure regularity in grain production. Due to ecological and social recent changes, modifications of farmer’s practices could be a factor promoting gene flow between the early and late flowering varieties by increasing the opportunity of neighboring and flowering overlap between them. Such a situation raises questions about the past and current evolutionary dynamics of phenological diversity in this crop.In the first part of my thesis I tried to evaluate the possibility of gene flow between pearl millet varieties in South-West Niger, through a comparative approach among contrasting situations pertaining to the spatial distribution of early and late landraces. Therefore I conducted: 1) a field study where we observed flowering periods, for two types of varieties (early type (Haïni Kiré): 75 to 95 days and late type (Somno): 105 to 125 days of cycle length) in several pearl millet fields, and in two villages 2) a molecular study that allows the assessment of the level of genetic differentiation between late and early flowering populations sampled from four villages (including the two where the field study was conducted) of the same region (Dallol Bosso), using microsatellite markers. I was able to demonstrate the occurrence of pollen flow between the two types of landraces and I also showed evidence of genetic introgression between early and semi-late landraces. Potential mechanisms that would allow for the maintenance of the phenological differentiation between these two varieties and despite the gene flow are discussed.In the second part of this work I used a candidate gene and a population genetics approach, to try to identify genes that may have contributed to the cycle length diversity in pearl millet. I focused on three flowering candidate genes, PgHd3a, PgDwarf8 and PgPHYC which have been shown to be involved in the cycle length genetic diversity in several species, in order to estimate the differentiation between wild and domestic pearl millets and between early and late landraces, on the basis of theses candidate genes. I also tried to track for the fingerprint of eventual past selective events within these candidate genes. To be able to distinguish the effects of selection from the effect of demographic events that occurred during the domestication process, I used 8 neutral STS loci and an Approximate Bayesian Computation approach.My results strongly suggest that PgHd3a and PgDwarf8 were likely targeted by selection during domestication. However, a potential role of any of the three candidate genes in the phenological differentiation between early and late landraces was not supported by our data. The Bayesian approach confirmed the idea, suggested by many authors, that the gene flow from the wild to the domestic genetic pool has contributed significantly to the genetic diversity of the domestic pearl millet.

An interdisciplinary approach to describing biological diversity

Polfus, Jean January 2016 (has links)
The concept of biodiversity – the phenotypic and genotypic variation among organisms – is central to conservation biology. There is growing recognition that biodiversity does not exist in isolation, but rather is intrinsically and evolutionarily linked to cultural diversity and indigenous knowledge systems. In Canada, caribou (Rangifer tarandus) occupy a central place in the livelihoods and identities of indigenous people and display substantial variation across their distribution. However, quantifying caribou intraspecific variation has proven challenging. Interdisciplinary approaches are necessary to produce effective species characterizations and conservation strategies that acknowledge the interdependent relationships between people and nature in complex social-ecological systems. In this dissertation I use multiple disciplinary traditions to develop comprehensive and united representations of caribou variation through an exploration of population genetics, phylogenetics, traditional knowledge, language, and visual approaches in the Sahtú region of the Northwest Territories, Canada. First, I examine caribou variation through analysis of population genetics and the relationships Dene and Métis people establish with animals within bioculturally diverse systems. Next, I focus on how the Pleistocene glacial-interglacial cycles have shaped the current patterns of caribou phylogeographic lineage diversification. Finally, I explore how art can be used to facilitate cross-cultural collaboration and externalize the unique heterogeneity of biocultural diversity. The results demonstrate a broad scale understanding of the distribution, spatial organization, and the degree of differentiation of caribou populations in the region. I found evidence for caribou population differentiation that corresponds to the caribou types recognized by Dene people: tǫdzı “boreal woodland caribou,” ɂekwę́ “barren-ground caribou,” and shúhta ɂepę́ “mountain caribou.” Phylogenetic results reveal that in their northern margin the boreal ecotype of woodland caribou evolved independently from the northern Beringian lineage in contrast with southern boreal caribou which belong to the sub-Laurentide refugia lineage. In addition, I demonstrate how art can be used improve communication, participation, and knowledge production among interdisciplinary research collaborations and across language and knowledge systems. A collaborative process of research that facilitates łeghágots'enetę “learning together” has the potential to produce sustainable conservation solutions, develop efficient and effective wildlife management policies, and ensure caribou remain an important part of the landscape. / February 2017

Summary Statistic Selection with Reinforcement Learning

Barkino, Iliam January 2019 (has links)
Multi-armed bandit (MAB) algorithms could be used to select a subset of the k most informative summary statistics, from a pool of m possible summary statistics, by reformulating the subset selection problem as a MAB problem. This is suggested by experiments that tested five MAB algorithms (Direct, Halving, SAR, OCBA-m, and Racing) on the reformulated problem and comparing the results to two established subset selection algorithms (Minimizing Entropy and Approximate Sufficiency). The MAB algorithms yielded errors at par with the established methods, but in only a fraction of the time. Establishing MAB algorithms as a new standard for summary statistics subset selection could therefore save numerous scientists substantial amounts of time when selecting summary statistics for approximate bayesian computation.

Échantillonnage préférentiel adaptatif et méthodes bayésiennes approchées appliquées à la génétique des populations. / Adaptive multiple importance sampling and approximate bayesian computation with applications in population genetics.

Sedki, Mohammed Amechtoh 31 October 2012 (has links)
Dans cette thèse, on propose des techniques d'inférence bayésienne dans les modèles où la vraisemblance possède une composante latente. La vraisemblance d'un jeu de données observé est l'intégrale de la vraisemblance dite complète sur l'espace de la variable latente. On s'intéresse aux cas où l'espace de la variable latente est de très grande dimension et comportes des directions de différentes natures (discrètes et continues), ce qui rend cette intégrale incalculable. Le champs d'application privilégié de cette thèse est l'inférence dans les modèles de génétique des populations. Pour mener leurs études, les généticiens des populations se basent sur l'information génétique extraite des populations du présent et représente la variable observée. L'information incluant l'histoire spatiale et temporelle de l'espèce considérée est inaccessible en général et représente la composante latente. Notre première contribution dans cette thèse suppose que la vraisemblance peut être évaluée via une approximation numériquement coûteuse. Le schéma d'échantillonnage préférentiel adaptatif et multiple (AMIS pour Adaptive Multiple Importance Sampling) de Cornuet et al. [2012] nécessite peu d'appels au calcul de la vraisemblance et recycle ces évaluations. Cet algorithme approche la loi a posteriori par un système de particules pondérées. Cette technique est conçue pour pouvoir recycler les simulations obtenues par le processus itératif (la construction séquentielle d'une suite de lois d'importance). Dans les nombreux tests numériques effectués sur des modèles de génétique des populations, l'algorithme AMIS a montré des performances numériques très prometteuses en terme de stabilité. Ces propriétés numériques sont particulièrement adéquates pour notre contexte. Toutefois, la question de la convergence des estimateurs obtenus parcette technique reste largement ouverte. Dans cette thèse, nous montrons des résultats de convergence d'une version légèrement modifiée de cet algorithme. Sur des simulations, nous montrons que ses qualités numériques sont identiques à celles du schéma original. Dans la deuxième contribution de cette thèse, on renonce à l'approximation de la vraisemblance et onsupposera seulement que la simulation suivant le modèle (suivant la vraisemblance) est possible. Notre apport est un algorithme ABC séquentiel (Approximate Bayesian Computation). Sur les modèles de la génétique des populations, cette méthode peut se révéler lente lorsqu'on vise uneapproximation précise de la loi a posteriori. L'algorithme que nous proposons est une amélioration de l'algorithme ABC-SMC de DelMoral et al. [2012] que nous optimisons en nombre d'appels aux simulations suivant la vraisemblance, et que nous munissons d'un mécanisme de choix de niveauxd'acceptations auto-calibré. Nous implémentons notre algorithme pour inférer les paramètres d'un scénario évolutif réel et complexe de génétique des populations. Nous montrons que pour la même qualité d'approximation, notre algorithme nécessite deux fois moins de simulations par rapport à laméthode ABC avec acceptation couramment utilisée. / This thesis consists of two parts which can be read independently.The first part is about the Adaptive Multiple Importance Sampling (AMIS) algorithm presented in Cornuet et al.(2012) provides a significant improvement in stability and Effective Sample Size due to the introduction of the recycling procedure. These numerical properties are particularly adapted to the Bayesian paradigm in population genetics where the modelization involves a large number of parameters. However, the consistency of the AMIS estimator remains largely open. In this work, we provide a novel Adaptive Multiple Importance Sampling scheme corresponding to a slight modification of Cornuet et al. (2012) proposition that preserves the above-mentioned improvements. Finally, using limit theorems on triangular arrays of conditionally independant random variables, we give a consistensy result for the final particle system returned by our new scheme.The second part of this thesis lies in ABC paradigm. Approximate Bayesian Computation has been successfully used in population genetics models to bypass the calculation of the likelihood. These algorithms provide an accurate estimator by comparing the observed dataset to a sample of datasets simulated from the model. Although parallelization is easily achieved, computation times for assuring a suitable approximation quality of the posterior distribution are still long. To alleviate this issue, we propose a sequential algorithm adapted fromDel Moral et al. (2012) which runs twice as fast as traditional ABC algorithms. Itsparameters are calibrated to minimize the number of simulations from the model.

Invasion, démographie et évolution : le cas de l'hybridation / Invasion, demography and evolution : the case of hybridization

Bermond, Gérald 16 December 2013 (has links)
Cette thèse s’inscrit dans le contexte de la biologie de l’invasion de la chrysomèle des racines du maïs, Diabrotica virgifera virgifera (Dvv), en Europe. Les introductions multiples de cette peste sur le vieux continent à partir des années 1990 et en provenance des États-Unis ont conduit à la formation de plusieurs foyers envahissants dont deux principaux, différenciés génétiquement et situés en Italie du Nord-Ouest (Italie NO) et en Europe Centrale et du Sud-Est (Europe CSE). Ces deux foyers sont entrés en contact en 2008, en Italie du Nord, dans la région de la Vénétie. L’objectif principal de ces trois années de recherche était de détecter, d’étudier et de documenter un cas précis d’hybridation au cours d’une invasion biologique. Dans un premier temps, j'ai montré que la zone de contact détectée en Vénétie résultait bien en une zone hybride. Pour cela plusieurs types d’analyses de génétique des populations ont été réalisés à l’aide de marqueurs micro-satellites. Dans un second temps, j'ai exploité cette zone hybride et utilisé la théorie des clines neutres et le déséquilibre de liaison pour estimer la dispersion (σ) de Dvv en Italie du Nord aux alentours de 20 km.génération−1/2. Enfin j'ai montré l’absence d'impact de l’hybridation au cours de l’invasion européenne de Dvv in natura, en mesurant sur des génotypes hybrides et parentaux, de nombreux traits phénotypiques positivement liés à la fitness des individus. Ainsi, une sélection ou contre sélection des hybrides est à exclure dans ce cas précis d’hybridation et la dynamique de l’invasion de cette peste en Europe ne devrait être affectée en aucune façon. / This thesis deals with the invasion biology of the western corn rootworm, (WCR) in Europe. Multiple introductions of this pest in Europe from the United States and the 90’s, led to the formation of two main invasive outbreaks, genetically differentiated and located in Northwest Italy (NW Italy) and in Central and South-Eastern Europe (CSE Europe). Both outbreaks converged towards each other and came into contact in 2008, in the region of Veneto (Northern Italy). The main objective of these three years of research was to detect study and document a precise case of hybridization during a biological invasion. First of all, I showed that the contact zone detected in Veneto results in a hybrid zone. For that, several types of population genetics analyses were performed using microsatellite markers. In a second time, I exploited this hybrid zone and used the theory of neutral clines and the linkage disequilibrium to estimate dispersal (σ) of WCR in Northern Italy around 20 km.generation-1/2. Finally I showed the absence of impact of hybridization in the european invasion of WCR in natura, by measuring on hybrid and parental genotypes, numerous phenotypic traits positively associated to the fitness of individuals. Thus, a selection or a selection against hybrids is excluded in this particular case of hybridization and the invasion dynamics of WCR in Europe should not be affected in any way.

Models and algorithms to study the common evolutionary history of hosts and symbionts / Modèles et algorithmes pour étudier l'histoire évolutive commune des hôtes et des symbiotes

Urbini, Laura 23 October 2017 (has links)
Lors de cette thèse, je me suis intéressée aux modèles et aux algorithmes pour étudier l'histoire évolutive commune des hôtes et des symbiotes. Le premier objectif était d'analyser la robustesse des méthodes de réconciliation des arbres phylogénétiques, qui sont très utilisées dans ce type d'étude. Celles-ci associent (ou lient) un arbre, d'habitude celui des symbiotes, à l'autre, en utilisant un modèle dit basé sur des évènements. Les évènements les plus utilisés sont la cospéciation, la duplication, le saut et la perte. Les phylogénies des hôtes et des symbiotes sont généralement considérés comme donnés, et sans aucune erreur. L'objectif était de comprendre les forces et les faiblesses du modèle parcimonieux utilisé et comprendre comment les résultats finaux peuvent être influencés en présence de petites perturbations ou d'erreurs dans les données en entrée. Ici deux cas sont considérés, le premier est le choix erroné d'une association entre les feuilles des hôtes et des symbiotes dans le cas où plusieurs existent, le deuxième est lié au mauvais choix de l'enracinement de l'arbre des symbiotes. Nos résultats montrent que le choix des associations entre feuilles et le choix de l'enracinement peuvent avoir un fort impact sur la variabilité de la réconciliation obtenue. Nous avons également remarqué que l'evènement appelé “saut” joue un rôle important dans l'étude de la robustesse, surtout pour le problème de l'enracinement. Le deuxième objectif de cette thèse était d'introduire certains evènements peu ou pas formellement considérés dans la littérature. L'un d'entre eux est la “propagation”, qui correspond à l'invasion de différents hôtes par un même symbiote. Dans ce cas, lorsque les propagations ne sont pas considérés, les réconciliations optimales sont obtenues en tenant compte seulement des coûts des évènements classiques (cospeciation, duplication, saut, perte). La nécessité de développer des méthodes statistiques pour assigner les coûts les plus appropriés est toujours d'actualité. Deux types de propagations sont introduites : verticaux et horizontaux. Le premier type correspond à ce qu'on pourrait appeler aussi un gel, à savoir que l'évolution du symbiote s'arrête et “gèle” alors que le symbiote continue d'être associé à un hôte et aux nouvelles espèces qui descendent de cet hôte. Le second comprend à la fois une invasion, du symbiote qui reste associé à l'hôte initial, mais qui en même temps s'associe (“envahit”) un autre hôte incomparable avec le premier, et un gel par rapport à l'évolution des deux l'hôtes, celui auquel il était associé au début et celui qu'il a envahi. Nos résultats montrent que l'introduction de ces evènements rend le modèle plus réaliste, mais aussi que désormais il est possible d'utiliser directement des jeux de données avec un symbiote qui est associé plusieurs hôtes au même temps, ce qui n'était pas faisable auparavant / In this Ph.D. work, we proposed models and algorithms to study the common evolutionary history of hosts and symbionts. The first goal was to analyse the robustness of the methods of phylogenetic tree reconciliations, which are a common way of performing such study. This involves mapping one tree, most often the symbiont’s, to the other using a so-called event-based model. The events considered in general are cospeciation, duplication, host switch, and loss. The host and the symbiont phylogenies are usually considered as given and without any errors. The objective here was to understand the strengths and weaknesses of the parsimonious model used in such mappings of one tree to another, and how the final results may be influenced when small errors are present, or are introduced in the input datasets. This may correspond either to a wrong choice of present-day symbiont-host associations in the case where multiple ones exist, or to small errors related to a wrong rooting of the symbiont tree. Our results show that the choice of leaf associations and of root placement may have a strong impact on the variability of the reconciliation output. We also noticed that the host switch event has an important role in particular for the rooting problem. The second goal of this Ph.D. was to introduce some events that are little or not formally considered in the literature. One of them is the spread, which corresponds to the invasion of different hosts by a same symbiont. In this case, as when spreads are not considered, the optimal reconciliations obtained will depend on the choice made for the costs of the events. The need to develop statistical methods to assign the most appropriate ones therefore remains of actuality. Two types of spread are introduced: vertical and horizontal. The first case corresponds to what could be called also a freeze in the sense that the evolution of the symbiont “freezes” while the symbiont continues to be associated with a host and with the new species that descend from this host. The second includes both an invasion, of the symbiont which remains with the initial host but at the same time gets associated with (“invades”) another one incomparable with the first, and a freeze, actually a double freeze as the evolution of the symbiont “freezes” in relation to the evolution of the host to which it was initially associated and in relation to the evolution of the second one it “invaded”. Our results show that the introduction of these events makes the model more realistic, but also that it is now possible to directly use datasets with a symbiont that is associated with more than one host at the same time, which was not feasible before

Modélisation des biais mutationnels et rôle de la sélection sur l’usage des codons

Laurin-Lemay, Simon 10 1900 (has links)
L’acquisition de données génomiques ne cesse de croître, ainsi que l’appétit pour les interpréter. Mais déterminer les processus qui ont façonné l’évolution des séquences codantes (et leur importance relative) est un défi scientifique passant par le développement de modèles statistiques de l’évolution prenant en compte de plus en plus d’hétérogénéités au niveau des processus mutationnels et de sélection. Identifier la sélection est une tâche qui nécessite typiquement de détecter un écart entre deux modèles : un modèle nulle ne permettant pas de régime évolutif adaptatif et un modèle alternatif qui lui en permet. Lorsqu’un test entre ces deux modèles rejette le modèle nulle, on considère avoir détecter la présence d’évolution adaptative. La tâche est d’autant plus difficile que le signal est faible et confondu avec diverses hétérogénéités négligées par les modèles. La détection de la sélection sur l’usage des codons spécifiquement est controversée, particulièrement chez les Vertébrés. Plusieurs raisons peuvent expliquer cette controverse : (1) il y a un biais sociologique à voir la sélection comme moteur principal de l’évolution, à un tel point que les hétérogénéités relatives aux processus de mutation sont historiquement négligées ; (2) selon les principes de la génétique des populations, la petite taille efficace des populations des Vertébrés limite le pouvoir de la sélection sur les mutations synonymes conférant elles-mêmes un avantage minime ; (3) par contre, la sélection sur l’usage des codons pourrait être très localisée le long des séquences codantes, à des sites précis, relevant de contraintes de sélection relatives à des motifs utilisés par la machinerie d’épissage, par exemple. Les modèles phylogénétiques de type mutation-sélection sont les outils de prédilection pour aborder ces questions, puisqu’ils modélisent explicitement les processus mutationnels ainsi que les contraintes de sélection. Toutes les hétérogénéités négligées par les modèles mutation-sélection de Yang and Nielsen [2008] peuvent engendrer de faux positifs allant de 20% (préférence site-spécifique en acides aminés) à 100% (hypermutabilité des transitions en contexte CpG) [Laurin-Lemay et al., 2018b]. En particulier, l’hypermutabilité des transitions du contexte CpG peut à elle seule expliquer la sélection détectée par Yang and Nielsen [2008] sur l’usage des codons. Mais, modéliser des phénomènes qui prennent en compte des interdépendances dans les données (par exemple l’hypermutabilité du contexte CpG) augmente de beaucoup la complexité des fonctions de vraisemblance. D’autre part, aujourd’hui le niveau de sophistication des modèles fait en sorte que des vecteurs de paramètres de haute dimensionnalité sont nécessaires pour modéliser l’hétérogénéité des processus étudiés, dans notre cas de contraintes de sélection sur la protéine. Le calcul bayésien approché (Approximate Bayesian Computation ou ABC) permet de contourner le calcul de la vraisemblance. Cette approche diffère de l’échantillonnage par Monte Carlo par chaîne de Markov (MCMC) communément utilisé pour faire l’approximation de la distribution a posteriori. Nous avons exploré l’idée de combiner ces approches pour une problématique spécifique impliquant des paramètres de haute dimensionnalité et de nouveaux paramètres prenant en compte des dépendances entre sites. Dans certaines conditions, lorsque les paramètres de haute dimensionnalité sont faiblement corrélés aux nouveaux paramètres d’intérêt, il est possible d’inférer ces mêmes paramètres de haute dimensionnalité avec la méthode MCMC, et puis les paramètres d’intérêt au moyen de l’ABC. Cette nouvelle approche se nomme CABC [Laurin-Lemay et al., 2018a], pour calcul bayésien approché conditionnel (Conditional Approximate Bayesian Computation : CABC). Nous avons pu vérifier l’efficacité de la méthode CABC en étudiant un cas d’école, soit celui de l’hypermutabilité des transitions en contexte CpG chez les Eutheria [Laurin-Lemay et al., 2018a]. Nous trouvons que 100% des 137 gènes testés possèdent une hypermutabilité des transitions significative. Nous avons aussi montré que les modèles incorporant l’hypermutabilité des transitions en contexte CpG prédisent un usage des codons plus proche de celui des gènes étudiés. Ceci suggère qu’une partie importante de l’usage des codons peut être expliquée à elle seule par les processus mutationnels et non pas par la sélection. Finalement nous explorons plusieurs pistes de recherche suivant nos développements méthodologiques : l’application de la détection de l’hypermutabilité des transitions en contexte CpG à l’échelle des Vertébrés ; l’expansion du modèle pour reconnaître des contextes autres que seul le CpG (e.g., hypermutabilité des transitions et transversions en contexte CpG et TpA) ; ainsi que des perspectives méthodologiques d’amélioration de la performance du CABC. / The acquisition of genomic data continues to grow, as does the appetite to interpret them. But determining the processes that shaped the evolution of coding sequences (and their relative importance) is a scientific challenge that requires the development of statistical models of evolution that increasingly take into account heterogeneities in mutation and selection processes. Identifying selection is a task that typically requires comparing two models: a null model that does not allow for an adaptive evolutionary regime and an alternative model that allows it. When a test between these two models rejects the null, we consider to have detected the presence of adaptive evolution. The task is all the more difficult as the signal is weak and confounded with various heterogeneities neglected by the models. The detection of selection on codon usage is controversial, particularly in Vertebrates. There are several reasons for this controversy: (1) there is a sociological bias in seeing selection as the main driver of evolution, to such an extent that heterogeneities relating to mutation processes are historically neglected; (2) according to the principles of population genetics, the small effective size of vertebrate populations limits the power of selection over synonymous mutations conferring a minimal advantage; (3) On the other hand, selection on the use of codons could be very localized along the coding sequences, at specific sites, subject to selective constraints related to DNA patterns used by the splicing machinery, for example. Phylogenetic mutation-selection models are the preferred tools to address these issues, as they explicitly model mutation processes and selective constraints. All the heterogeneities neglected by the mutation-selection models of Yang and Nielsen [2008] can generate false positives, ranging from 20% (site-specific amino acid preference) to 100% (hypermutability of transitions in CpG context)[Laurin-Lemay et al., 2018b]. In particular, the hypermutability of transitions in the CpG context alone can explain the selection on codon usage detected by Yang and Nielsen [2008]. However, modelling phenomena that take into account data interdependencies (e.g., hypermutability of the CpG context) greatly increases the complexity of the likelihood function. On the other hand, today’s sophisticated models require high-dimensional parameter vectors to model the heterogeneity of the processes studied, in our case selective constraints on the protein. Approximate Bayesian Computation (ABC) is used to bypass the calculation of the likelihood function. This approach differs from the Markov Chain Monte Carlo (MCMC) sampling commonly used to approximate the posterior distribution. We explored the idea of combining these approaches for a specific problem involving high-dimensional parameters and new parameters taking into account dependencies between sites. Under certain conditions, when the high dimensionality parameters are weakly correlated to the new parameters of interest, it is possible to infer the high dimensionality parameters with the MCMC method, and then the parameters of interest using the ABC. This new approach is called Conditional Approximate Bayesian Computation (CABC) [Laurin-Lemay et al., 2018a]. We were able to verify the effectiveness of the CABC method in a case study, namely the hypermutability of transitions in the CpG context within Eutheria [Laurin-Lemay et al.,2018a]. We find that 100% of the 137 genes tested have significant hypermutability of transitions. We have also shown that models incorporating hypermutability of transitions in CpG contexts predict a codon usage closer to that of the genes studied. This suggests that a significant part of codon usage can be explained by mutational processes alone. Finally, we explore several avenues of research emanating from our methodological developments: the application of hypermutability detection of transitions in CpG contexts to the Vertebrate scale; the expansion of the model to recognize contexts other than only CpG (e.g., hypermutability of transitions and transversions in CpG and TpA context); and methodological perspectives to improve the performance of the CABC approach.

Page generated in 0.1323 seconds