321 |
Bayesian Model Selection for High-dimensional High-throughput DataJoshi, Adarsh 2010 May 1900 (has links)
Bayesian methods are often criticized on the grounds of subjectivity. Furthermore, misspecified
priors can have a deleterious effect on Bayesian inference. Noting that model
selection is effectively a test of many hypotheses, Dr. Valen E. Johnson sought to eliminate
the need of prior specification by computing Bayes' factors from frequentist test statistics.
In his pioneering work that was published in the year 2005, Dr. Johnson proposed
using so-called local priors for computing Bayes? factors from test statistics. Dr. Johnson
and Dr. Jianhua Hu used Bayes' factors for model selection in a linear model setting. In
an independent work, Dr. Johnson and another colleage, David Rossell, investigated two
families of non-local priors for testing the regression parameter in a linear model setting.
These non-local priors enable greater separation between the theories of null and alternative
hypotheses.
In this dissertation, I extend model selection based on Bayes' factors and use nonlocal
priors to define Bayes' factors based on test statistics. With these priors, I have been
able to reduce the problem of prior specification to setting to just one scaling parameter.
That scaling parameter can be easily set, for example, on the basis of frequentist operating
characteristics of the corresponding Bayes' factors. Furthermore, the loss of information by basing a Bayes' factors on a test statistic is minimal.
Along with Dr. Johnson and Dr. Hu, I used the Bayes' factors based on the likelihood
ratio statistic to develop a method for clustering gene expression data. This method has
performed well in both simulated examples and real datasets. An outline of that work is
also included in this dissertation. Further, I extend the clustering model to a subclass of
the decomposable graphical model class, which is more appropriate for genotype data sets,
such as single-nucleotide polymorphism (SNP) data. Efficient FORTRAN programming has
enabled me to apply the methodology to hundreds of nodes.
For problems that produce computationally harder probability landscapes, I propose a
modification of the Markov chain Monte Carlo algorithm to extract information regarding
the important network structures in the data. This modified algorithm performs well in
inferring complex network structures. I use this method to develop a prediction model for
disease based on SNP data. My method performs well in cross-validation studies.
|
322 |
Comparison Of Missing Value Imputation Methods For Meteorological Time Series DataAslan, Sipan 01 September 2010 (has links) (PDF)
Dealing with missing data in spatio-temporal time series constitutes important branch of general missing data problem. Since the statistical properties of time-dependent data characterized by sequentiality of observations then any interruption of consecutiveness in time series will cause severe problems. In order to make reliable analyses in this case missing data must be handled cautiously without disturbing the series statistical properties, mainly as temporal and spatial dependencies.
In this study we aimed to compare several imputation methods for the appropriate completion of missing values of the spatio-temporal meteorological time series. For this purpose, several missing imputation methods are assessed on their imputation performances for artificially created missing data in monthly total precipitation and monthly mean temperature series which are obtained from the climate stations of Turkish State Meteorological Service. Artificially created missing data are estimated by using six methods. Single Arithmetic Average (SAA), Normal Ratio (NR) and NR Weighted with Correlations (NRWC) are the three simple methods used in the study. On the other hand, we used two computational intensive methods for missing data imputation which are called Multi Layer Perceptron type Neural Network (MLPNN) and Monte Carlo Markov Chain based on Expectation-Maximization Algorithm (EM-MCMC). In addition to these, we propose a modification in the EM-MCMC method in which results of simple imputation methods are used as auxiliary variables. Beside the using accuracy measure based on squared errors we proposed Correlation Dimension (CD) technique for appropriate evaluation of imputation performances which is also important subject of Nonlinear Dynamic Time Series Analysis.
|
323 |
Modélisation de signaux fortement non stationnaires à phase et à amplitude locales polynomiales.Jabloun, Meryem 10 July 2007 (has links) (PDF)
Ce travail de recherche est consacré à l'élaboration et le développement d'une nouvelle méthode d'estimation<br />et de reconstruction de signaux fortement non-stationnaires, modulés non-linéairement à la fois<br />en amplitude et en fréquence. L'estimation de tels signaux dans un contexte trés bruité est un problème<br />délicat et les méthodes existantes de la littérature présentent plusieurs inconvénients dans ce cas.<br />Nous avons montré comment une approche locale permet une meilleure adaptabilité du modèle à la<br />nature des variations locales des amplitudes et des fréquences instantanées. Les résultats de l'estimation<br />sont par conséquent améliorés. L'originalité de la méthode proposée tient à l'application de modèles paramétriques bien adaptés sur des segments temporels de courtes durées extraits du signal étudié. Nous<br />avons proposé une stratégie de segmentation puis une stratégie de fusion des segments estimés permettant<br />la reconstruction du signal dans la totalité de sa durée. L'approche proposée permet de s'affranchir d'un<br />modèle global du signal requérant un ordre d'approximation élevé.<br />La validation de l'efficacité de l'estimation a été effectuée au préalable sur un segment temporel court.<br />Le modèle considéré localement consiste en une approximation polynomiale de la fréquence et de l'amplitude<br />exprimée dans une base polynomiale discrète et orthonormale que nous avons calculée. Cette base<br />permet de réduire le couplage entre les paramètres du modèle. Nous proposons et comparons deux techniques<br />différentes pour estimer ces derniers. La première est fondée sur la maximisation de la fonction<br />de vraisemblance en utilisant la technique d'optimisation stochastique le recuit simulé. Tandis que la<br />deuxième se base sur une approche Bayésienne employant les méthodes MCMC simulées par l'algorithme<br />de Metroplois-Hastings.<br />Nous montrons, sur des simulations et également sur des signaux réels, que l'approche proposée fournit<br />de bons résultats d'estimation par comparaison à celles de la HAF.
|
324 |
Dimension reduction of streaming data via random projectionsCosma, Ioana Ada January 2009 (has links)
A data stream is a transiently observed sequence of data elements that arrive unordered, with repetitions, and at very high rate of transmission. Examples include Internet traffic data, networks of banking and credit transactions, and radar derived meteorological data. Computer science and engineering communities have developed randomised, probabilistic algorithms to estimate statistics of interest over streaming data on the fly, with small computational complexity and storage requirements, by constructing low dimensional representations of the stream known as data sketches. This thesis combines techniques of statistical inference with algorithmic approaches, such as hashing and random projections, to derive efficient estimators for cardinality, l_{alpha} distance and quasi-distance, and entropy over streaming data. I demonstrate an unexpected connection between two approaches to cardinality estimation that involve indirect record keeping: the first using pseudo-random variates and storing selected order statistics, and the second using random projections. I show that l_{alpha} distances and quasi-distances between data streams, and entropy, can be recovered from random projections that exploit properties of alpha-stable distributions with full statistical efficiency. This is achieved by the method of L-estimation in a single-pass algorithm with modest computational requirements. The proposed estimators have good small sample performance, improved by the methods of trimming and winsorising; in other words, the value of these summary statistics can be approximated with high accuracy from data sketches of low dimension. Finally, I consider the problem of convergence assessment of Markov Chain Monte Carlo methods for simulating from complex, high dimensional, discrete distributions. I argue that online, fast, and efficient computation of summary statistics such as cardinality, entropy, and l_{alpha} distances may be a useful qualitative tool for detecting lack of convergence, and illustrate this with simulations of the posterior distribution of a decomposable Gaussian graphical model via the Metropolis-Hastings algorithm.
|
325 |
Contributions à l'apprentissage et l'inférence adaptatifs : Applications à l'ajustement d'hyperparamètres et à la physique des astroparticulesBardenet, Rémi 19 November 2012 (has links) (PDF)
Les algorithmes d'inférence ou d'optimisation possèdent généralement des hyperparamètres qu'il est nécessaire d'ajuster. Nous nous intéressons ici à l'automatisation de cette étape d'ajustement et considérons différentes méthodes qui y parviennent en apprenant en ligne la structure du problème considéré.La première moitié de cette thèse explore l'ajustement des hyperparamètres en apprentissage artificiel. Après avoir présenté et amélioré le cadre générique de l'optimisation séquentielle à base de modèles (SMBO), nous montrons que SMBO s'applique avec succès à l'ajustement des hyperparamètres de réseaux de neurones profonds. Nous proposons ensuite un algorithme collaboratif d'ajustement qui mime la mémoire qu'ont les humains d'expériences passées avec le même algorithme sur d'autres données.La seconde moitié de cette thèse porte sur les algorithmes MCMC adaptatifs, des algorithmes d'échantillonnage qui explorent des distributions de probabilité souvent complexes en ajustant leurs paramètres internes en ligne. Pour motiver leur étude, nous décrivons d'abord l'observatoire Pierre Auger, une expérience de physique des particules dédiée à l'étude des rayons cosmiques. Nous proposons une première partie du modèle génératif d'Auger et introduisons une procédure d'inférence des paramètres individuels de chaque événement d'Auger qui ne requiert que ce premier modèle. Ensuite, nous remarquons que ce modèle est sujet à un problème connu sous le nom de label switching. Après avoir présenté les solutions existantes, nous proposons AMOR, le premier algorithme MCMC adaptatif doté d'un réétiquetage en ligne qui résout le label switching. Nous présentons une étude empirique et des résultats théoriques de consistance d'AMOR, qui mettent en lumière des liens entre le réétiquetage et la quantification vectorielle.
|
326 |
Detecting Changes in the Gut Microbiome following Human Biotherapy via Pyrosequencing of the 16S rRNA GenePinder, Shaun 25 April 2013 (has links)
Human biotherapy (HBT) or fecal transplants have been shown to be an effective treatment for patients with recurrent Clostridium difficile infection (CDI). This study examines the microbial populations present in CDI patients pre- and post-HBT by extracting bacterial DNA from stool samples and performing pyrosequencing of the 16S rRNA gene. We then compared these microbial populations to those of the donors. We examined 19 pairs of patient samples, of which 14 were clinically cured of CDI, and 5 patients were failures. The successful treatment of CDI was associated with an increase in diversity and richness of the patient's fecal microbiome. The majority of those cured showed an increase in the proportion of Firmicutes and decrease in the proportion of Proteobacteria, although varying antibiotic exposure and innate variability between patients was observed. / MSc thesis / NSERC, CIHR, St. Joseph's Healthcare Hamilton
|
327 |
Estimation bayésienne nonparamétrique de copulesGuillotte, Simon January 2008 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal
|
328 |
Méthodes bayésiennes pour la génétique des populations : relations entre structure génétique des populations et environnementJay, Flora 14 November 2011 (has links) (PDF)
Nous présentons une nouvelle méthode pour étudier les relations entre la structure génétique des populations et l'environnement. Cette méthode repose sur des modèles hiérarchiques bayésiens qui utilisent conjointement des données génétiques multi-locus et des données spatiales, environnementales et/ou culturelles. Elle permet d'estimer la structure génétique des populations, d'évaluer ses liens avec des covariables non génétiques, et de projeter la structure génétique des populations en fonction de ces covariables. Dans un premier temps, nous avons appliqué notre approche à des données de génétique humaine pour évaluer le rôle de la géographie et des langages dans la structure génétique des populations amérindiennes. Dans un deuxième temps, nous avons étudié la structure génétique des populations pour 20 espèces de plantes alpines et nous avons projeté les modifications intra spécifiques qui pourront être causées par le réchauffement climatique.
|
329 |
Modélisation markovienne des dynamiques d'usage des sols. Cas des parcelles situées sur le bord du corridor forestier Ranomafana-AndringitraRaherinirina, Angelo 02 August 2013 (has links) (PDF)
Nous proposons une démarche markovienne d'inférence et de modélisation de dynamiques agraires dans le cadre d'usage de parcelles situées en lisière du corridor forestier reliant les deux parcs nationaux de Ranomafana et d'Andringitra. La préservation de la forêt de la côte est de Madagascar est cruciale, il est donc pertinent de développer des outils permettant de mieux comprendre les dynamiques de déforestation puis de l'usage des parcelles et enfin de leur éventuel retour à l'état de forêt. Nous nous appuyons sur deux jeux de données de terrain établis par l'IRD. Dans ce genre d'étude, une étape préliminaire consiste à construire la matrice de transition empirique, cela s'apparente donc à une modélisation markovienne de la dynamique. Dans ce cadre nous considérons l'approche par maximum de vraisemblance et l'approche bayésienne. Cette der- nière approche nous permet d'intégrer des informations non-présentes dans les données mais reconnues par les spécialistes, elle fait appel à des techniques d'approximation de Monte Carlo par chaînes de Markov (MCMC). Nous étudions les propriétés asymptotiques des modèles obtenus à l'aide de ces deux approches et notamment le temps de convergence vers la loi quasi-stationnaire dans le premier cas et vers la loi stationnaire dans le second. Nous testons différentes hypothèses portant sur les modèles. Cette approche markovienne n'est plus valide sur le deuxième jeu de données, plus étendu, où il a fallu faire appel à une approche semi-markovienne : les lois des temps de séjour dans un état donné ne sont plus nécessairement géométriques et peuvent dépendre de l'état suivant. À nouveau nous faisons appel aux approches par maximum de vraisemblance et bayésienne. Nous étudions le comportement asymptotique de chacun de ces modèles. En termes applicatifs, nous avons pu déterminer les échelles de temps de ces dynamiques.
|
330 |
Optimisation des méthodes algorithmiques en inférence bayésienne. Modélisation dynamique de la transmission d'une infection au sein d'une population hétérogène.Gajda, Dorota 13 October 2011 (has links) (PDF)
Ce travail se décompose en deux grandes parties, "Estimations répétées dans le cadre de la modélisation bayésienne" et "Modélisation de la transmission de maladies infectieuses dans une population. Estimation des paramètres.". Les techniques développées dans la première partie sont utilisées en fin de la seconde partie. La première partie est consacrée à des optimisations d'algorithmes stochastiques très souvent utilisés, notamment dans le contexte des modélisations Bayésiennes. Cette optimisation est particulièrement faite lors de l'étude empirique d'estimateurs des paramètres d'un modèle où les qualités des estimateurs sont évaluées sur un grand nombre de jeux de données simulées. Quand les lois a posteriori ne sont pas explicites, le recours à des algorithmes stochastiques itératifs (de la famille des algorithmes dits de Monte Carlo par Chaîne de Makov) pour approcher les lois a posteriori est alors très couteux en temps car doit être fait pour chaque jeu de données. Dans ce contexte, ce travail consiste en l'étude de solutions évitant un trop grand nombre d'appels à ces algorithmes mais permettant bien-sûr d'obtenir malgré tout des résultats précis. La principale technique étudiée dans cette partie est celle de l'échantillonnage préférentiel. La seconde partie est consacrée aux études de modèles épidémiques, en particulier le modèle compartimental dit SIS (Susceptible-Infecté-Susceptible) dans sa version stochastique. L'approche stochastique permet de prendre en compte l'hétérogénéité de l'évolution de la maladie dans la population. les approches par des processus Markoviens sont étudiés où la forme des probabilités de passage entre les états est non linéaire. La solution de l'équation différentielle en probabilité n'est alors en général pas explicite. Les principales techniques utilisées dans cette partie sont celles dites de développement de l'équation maîtresse ("master equation") appliquées au modèle SIS avec une taille de population constante. Les propriétés des estimateurs des paramètres sont étudiées dans le cadre fréquentiste et bayésien. Concernant l'approche Bayésienne, les solutions d'optimisation algorithmique de la première partie sont appliquées.
|
Page generated in 0.0256 seconds