311 |
Bayesian Simultaneous Intervals for Small Areas: An Application to Mapping Mortality Rates in U.S. Health Service AreasErhardt, Erik Barry 05 January 2004 (has links)
It is customary when presenting a choropleth map of rates or counts to present only the estimates (mean or mode) of the parameters of interest. While this technique illustrates spatial variation, it ignores the variation inherent in the estimates. We describe an approach to present variability in choropleth maps by constructing 100(1-alpha)% simultaneous intervals. The result provides three maps (estimate with two bands). We propose two methods to construct simultaneous intervals from the optimal individual highest posterior density (HPD) intervals to ensure joint simultaneous coverage of 100(1-alpha)%. Both methods exhibit the main feature of multiplying the lower bound and dividing the upper bound of the individual HPD intervals by parameters 0
|
312 |
Exploiter l'approche hiérarchique bayésienne pour la modélisation statistique de structures spatiales: application en écologie des populationsAncelet, Sophie 01 July 2008 (has links) (PDF)
Dans la plupart des questions écologiques, les phénomènes aléatoires d'intérêt sont spatialement structurés et issus de l'effet combiné de multiples variables aléatoires, observées ou non, et inter-agissant à diverses échelles. En pratique, dès lors que les données de terrain ne peuvent être directement traitées avec des structures spatiales standards, les observations sont généralement considérées indépendantes. Par ailleurs, les modèles utilisés sont souvent basés sur des hypothèses simplificatrices trop fortes par rapport à la complexité des phénomènes étudiés. Dans ce travail, la démarche de modélisation hiérarchique est combinée à certains outils de la statistique spatiale afin de construire des structures aléatoires fonctionnelles "sur-mesure" permettant de représenter des phénomènes spatiaux complexes en écologie des populations. L'inférence de ces différents modèles est menée dans le cadre bayésien avec des algorithmes MCMC. Dans un premier temps, un modèle hiérarchique spatial (Geneclust) est développé pour identifier des populations génétiquement homogènes quand la diversité génétique varie continûment dans l'espace. Un champ de Markov caché, qui modélise la structure spatiale de la diversité génétique, est couplé à un modèle bivarié d'occurrence de génotypes permettant de tenir compte de l'existence d'unions consanguines chez certaines populations naturelles. Dans un deuxième temps, un processus de Poisson composé particulier,appelé loi des fuites, est présenté sous l'angle de vue hiérarchique pour décrire le processus d'échantillonnage d'organismes vivants. Il permet de traiter le délicat problème de données continues présentant une forte proportion de zéros et issues d'échantillonnages à efforts variables. Ce modèle est également couplé à différents modèles sur grille (spatiaux, régionalisés) afin d'introduire des dépendances spatiales entre unités géographiques voisines puis, à un champ géostatistique bivarié construit par convolution sur grille discrète afin de modéliser la répartition spatiale conjointe de deux espèces. Les capacités d'ajustement et de prédiction des différents modèles hiérarchiques proposés sont comparées aux modèles traditionnellement utilisés à partir de simulations et de jeux de données réelles (ours bruns de Suède, invertébrés épibenthiques du Golfe-du-Saint-Laurent (Canada)).
|
313 |
Extraction de réseaux linéiques à partir d'images satellitaires et aériennes par processus ponctuels marquésLacoste, Caroline 30 September 2004 (has links) (PDF)
Cette thèse aborde le problème de l'extraction non supervisée des réseaux linéiques (routes, rivières, etc.) à partir d'images satellitaires et aériennes. Nous utilisons des processus objet, ou processus ponctuels marqués, comme modèles a priori. Ces modèles permettent de bénéficier de l'apport d'un cadre stochastique (robustesse au bruit, corpus algorithmique, etc.) tout en manipulant des contraintes géométriques fortes. Un recuit simulé sur un algorithme de type Monte Carlo par Chaîne de Markov (MCMC) permet une optimisation globale sur l'espace des configurations d'objets, indépendamment de l'initialisation.<br />Nous proposons tout d'abord une modélisation du réseau linéique par un processus dont les objets sont des segments interagissant entre eux. Le modèle a priori est construit de façon à exploiter au mieux la topologie du réseau recherche au travers de potentiels fondés sur la qualité de chaque interaction. Les propriétés radiométriques sont prises en compte dans un terme d'attache aux données fondé sur des mesures statistiques.<br />Nous étendons ensuite cette modélisation à des objets plus complexes. La manipulation de lignes brisées permet une extraction plus précise du réseau et améliore la détection des bifurcations.<br />Enfin, nous proposons une modélisation hiérarchique des réseaux hydrographiques dans laquelle les affluents d'un fleuve sont modélisés par un processus de lignes brisées dans le voisinage de ce fleuve.<br />Pour chacun des modèles, nous accélérons la convergence de l'algorithme MCMC par l'ajout de perturbations adaptées.<br />La pertinence de cette modélisation par processus objet est vérifiée sur des images satellitaires et aériennes, optiques et radar.
|
314 |
Stochastic process analysis for Genomics and Dynamic Bayesian Networks inference.Lebre, Sophie 14 September 2007 (has links) (PDF)
This thesis is dedicated to the development of statistical and computational methods for the analysis of DNA sequences and gene expression time series.<br /><br />First we study a parsimonious Markov model called Mixture Transition Distribution (MTD) model which is a mixture of Markovian transitions. The overly high number of constraints on the parameters of this model hampers the formulation of an analytical expression of the Maximum Likelihood Estimate (MLE). We propose to approach the MLE thanks to an EM algorithm. After comparing the performance of this algorithm to results from the litterature, we use it to evaluate the relevance of MTD modeling for bacteria DNA coding sequences in comparison with standard Markovian modeling.<br /><br />Then we propose two different approaches for genetic regulation network recovering. We model those genetic networks with Dynamic Bayesian Networks (DBNs) whose edges describe the dependency relationships between time-delayed genes expression. The aim is to estimate the topology of this graph despite the overly low number of repeated measurements compared with the number of observed genes. <br /><br />To face this problem of dimension, we first assume that the dependency relationships are homogeneous, that is the graph topology is constant across time. Then we propose to approximate this graph by considering partial order dependencies. The concept of partial order dependence graphs, already introduced for static and non directed graphs, is adapted and characterized for DBNs using the theory of graphical models. From these results, we develop a deterministic procedure for DBNs inference. <br /><br />Finally, we relax the homogeneity assumption by considering the succession of several homogeneous phases. We consider a multiple changepoint<br />regression model. Each changepoint indicates a change in the regression model parameters, which corresponds to the way an expression level depends on the others. Using reversible jump MCMC methods, we develop a stochastic algorithm which allows to simultaneously infer the changepoints location and the structure of the network within the phases delimited by the changepoints. <br /><br />Validation of those two approaches is carried out on both simulated and real data analysis.
|
315 |
Estimation par maximum de vraisemblance dans des problèmes inverses non linéairesKUHN, Estelle 12 December 2003 (has links) (PDF)
Cette thèse est consacrée à l'estimation par maximum de vraisemblance dans des problèmes inverses. Nous considérons des modèles statistiques à données manquantes, dans un cadre paramétrique au cours des trois premiers chapitres. Le Chapitre 1 présente une variante de l'algorithme EM (Expectation Maximization) qui combine une approximation stochastique à une méthode de Monte Carlo par chaînes de Markov : les données manquantes sont simulées selon une probabilité de transition bien choisie. Nous prouvons la convergence presque sûre de la suite générée par l'algorithme vers un maximum local de la vraisemblance des observations. Nous présentons des applications en déconvolution et en détection de ruptures. Dans le Chapitre 2, nous appliquons cet algorithme aux modèles non linéaires à effets mixtes et effectuons outre l'estimation des paramètres du modèle, des estimations de la vraisemblance du modèle et de l'information de Fisher. Les performances de l'algorithme sont illustrées via des comparaisons avec d'autres méthodes sur des exemples de pharmacocinétique et de pharmacodynamique. Le Chapitre 3 présente une application de l'algorithme en géophysique. Nous effectuons une inversion jointe, entre les temps de parcours des ondes sismiques et leurs vitesses et entre des mesures gravimétriques de surface et les densités du sous-sol, en estimant les paramètres du modèle, qui étaient en général fixés arbitrairement. De plus, nous prenons en compte une relation linéaire entre les densités et les vitesses des ondes. Le Chapitre 4 est consacré à l'estimation non paramétrique de la densité des données manquantes. Nous exhibons un estimateur logspline de cette densité qui maximise la vraisemblance des observations dans un modèle logspline et appliquons notre algorithme à ce modèle paramétrique. Nous étudions la convergence de cet estimateur vers la vraie densité lorsque la dimension du modèle logspline et le nombre d'observations tendent vers l'infini. Nous présentons quelques applications.
|
316 |
Une approche bayésienne de l'inversion. Application à l'imagerie de diffraction dans les domaines micro-onde et optiqueAyasso, Hacheme 10 December 2010 (has links) (PDF)
Dans ce travail, nous nous intéressons à l'imagerie de diffraction dans des configurations à deux ou trois dimensions avec pour objectif la reconstruction d'une image (fonction contraste) d'un objet inconnu à l'aide de plusieurs mesures du champ qu'il diffracte. Ce champ résulte de l'interaction entre l'objet et un champ incident connu dont la direction de propagation et la fréquence peuvent varier. La difficulté de ce problème réside dans la non-linéarité du modèle direct et le caractère mal posé du problème inverse qui nécessite l'introduction d'une information a priori (régularisation). Pour cela, nous utilisons une approche bayésienne avec une estimation conjointe du contraste de l'objet, des courants induits et des autres paramètres du modèle. Le modèle direct est décrit par deux équations intégrales couplées exprimant les champs électriques observé et existant à l'intérieur de l'objet, dont les versions discrètes sont obtenues à l'aide de la méthode des moments. Pour l'inversion, l'approche bayésienne permet de modéliser notre connaissance a priori sur l'objet sous forme probabiliste. Les objets que nous étudions ici sont connus pour être constitués d'un nombre fini de matériaux homogènes répartis en régions compactes. Cette information a priori est introduite dans l'algorithme d'inversion à l'aide d'un mélange de gaussiennes, où chaque gaussienne représente une classe de matériaux, tandis que la compacité des régions est prise en compte au travers d'un modèle de Markov caché. La nature non linéaire du modèle direct et l'utilisation de cet a priori nous amènent à des estimateurs qui n'ont pas de formes explicites. Une approximation est donc nécessaire et deux voies sont possibles pour cela: une approche numérique, par exemple MCMC, et une approche analytique comme l'approche bayésienne variationnelle. Nous avons testé ces deux approches qui ont donné de bons résultats de reconstruction par rapport aux méthodes classiques. Cependant, l'approche bayésienne variationnelle permet de gagner énormément en temps de calcul par rapport à la méthode MCMC.
|
317 |
Bayesian Cluster Analysis : Some Extensions to Non-standard SituationsFranzén, Jessica January 2008 (has links)
<p>The Bayesian approach to cluster analysis is presented. We assume that all data stem from a finite mixture model, where each component corresponds to one cluster and is given by a multivariate normal distribution with unknown mean and variance. The method produces posterior distributions of all cluster parameters and proportions as well as associated cluster probabilities for all objects. We extend this method in several directions to some common but non-standard situations. The first extension covers the case with a few deviant observations not belonging to one of the normal clusters. An extra component/cluster is created for them, which has a larger variance or a different distribution, e.g. is uniform over the whole range. The second extension is clustering of longitudinal data. All units are clustered at all time points separately and the movements between time points are modeled by Markov transition matrices. This means that the clustering at one time point will be affected by what happens at the neighbouring time points. The third extension handles datasets with missing data, e.g. item non-response. We impute the missing values iteratively in an extra step of the Gibbs sampler estimation algorithm. The Bayesian inference of mixture models has many advantages over the classical approach. However, it is not without computational difficulties. A software package, written in Matlab for Bayesian inference of mixture models is introduced. The programs of the package handle the basic cases of clustering data that are assumed to arise from mixture models of multivariate normal distributions, as well as the non-standard situations.</p>
|
318 |
Empirical Bayes Methods for DNA Microarray DataLönnstedt, Ingrid January 2005 (has links)
<p>cDNA microarrays is one of the first high-throughput gene expression technologies that has emerged within molecular biology for the purpose of functional genomics. cDNA microarrays compare the gene expression levels between cell samples, for thousands of genes simultaneously. </p><p>The microarray technology offers new challenges when it comes to data analysis, since the thousands of genes are examined in parallel, but with very few replicates, yielding noisy estimation of gene effects and variances. Although careful image analyses and normalisation of the data is applied, traditional methods for inference like the Student <i>t</i> or Fisher’s <i>F</i>-statistic fail to work.</p><p>In this thesis, four papers on the topics of empirical Bayes and full Bayesian methods for two-channel microarray data (as e.g. cDNA) are presented. These contribute to proving that empirical Bayes methods are useful to overcome the specific data problems. The sample distributions of all the genes involved in a microarray experiment are summarized into prior distributions and improves the inference of each single gene.</p><p>The first part of the thesis includes biological and statistical background of cDNA microarrays, with an overview of the different steps of two-channel microarray analysis, including experimental design, image analysis, normalisation, cluster analysis, discrimination and hypothesis testing. The second part of the thesis consists of the four papers. Paper I presents the empirical Bayes statistic <i>B</i>, which corresponds to a <i>t</i>-statistic. Paper II is based on a version of <i>B</i> that is extended for linear model effects. Paper III assesses the performance of empirical Bayes models by comparisons with full Bayes methods. Paper IV provides extensions of <i>B</i> to what corresponds to <i>F</i>-statistics.</p>
|
319 |
Empirical Bayes Methods for DNA Microarray DataLönnstedt, Ingrid January 2005 (has links)
cDNA microarrays is one of the first high-throughput gene expression technologies that has emerged within molecular biology for the purpose of functional genomics. cDNA microarrays compare the gene expression levels between cell samples, for thousands of genes simultaneously. The microarray technology offers new challenges when it comes to data analysis, since the thousands of genes are examined in parallel, but with very few replicates, yielding noisy estimation of gene effects and variances. Although careful image analyses and normalisation of the data is applied, traditional methods for inference like the Student t or Fisher’s F-statistic fail to work. In this thesis, four papers on the topics of empirical Bayes and full Bayesian methods for two-channel microarray data (as e.g. cDNA) are presented. These contribute to proving that empirical Bayes methods are useful to overcome the specific data problems. The sample distributions of all the genes involved in a microarray experiment are summarized into prior distributions and improves the inference of each single gene. The first part of the thesis includes biological and statistical background of cDNA microarrays, with an overview of the different steps of two-channel microarray analysis, including experimental design, image analysis, normalisation, cluster analysis, discrimination and hypothesis testing. The second part of the thesis consists of the four papers. Paper I presents the empirical Bayes statistic B, which corresponds to a t-statistic. Paper II is based on a version of B that is extended for linear model effects. Paper III assesses the performance of empirical Bayes models by comparisons with full Bayes methods. Paper IV provides extensions of B to what corresponds to F-statistics.
|
320 |
Gravitational wave observation of compact binaries Detection, parameter estimation and template accuracyTrias Cornellana, Miquel 07 February 2011 (has links)
La tesi tracta, des del punt de vista de l’anàlisi de dades, la possibilitat de detecció directa d’ones gravitatòries emeses per sistemes binaris d’objectes compactes de massa similar: forats negres, estels de neutrons, nanes blanques. En els capítols introductoris,
a) es dóna una descripció detallada i exhaustiva de com passar dels patrons d’ona teòrics a la senyal detectada;
b) s’introdueixen les eines més emprades en l’anàlisi de dades d’ones gravitatòries, amb especial menció a la discussió sobre les amplituds efectiva i característica.
A més, els resultats originals de la tesi segueixen tres línies de recerca diferents:
1) S’ha predit la precisió amb la que el futur detector interferomètric espacial LISA, estimarà els paràmetres (posició, masses, velocitat de rotació, paràmetres cosmològics…) de les observacions de xocs entre dos forats negres supermassius en la fase “inspiral”.
2) S’ha desenvolupat un algorisme propi de cerca de senyals gravitatòries procedents de sistemes binaris estel•lars, basat en teories de probabilitat Bayesiana i MCMC. Aquest algorisme distingeix alhora milers de senyals superposades en una única sèrie temporal de dades, extraient paràmetres individuals de cadascuna d’elles.
3) S’ha definit de manera matemàtica rigorosa com determinar el rang de validesa (per a extracció de paràmetres i detecció) de models aproximats de patrons d’ones gravitatòries, aplicant-ho a un cas concret de models semi-analítics / La tesis trata, desde el punto de vista del análisis de datos, la posibilidad de detección directa de ondas gravitacionales emitidas por sistemas binarios de objetos compactos de masa similar: agujeros negros, estrellas de neutrones, enanas blancas. En los capítulos introductorios,
a) se desarrolla una descripción detallada y exhaustiva de como pasar de los patrones de onda teóricos a la señal detectada;
b) se introducen las herramientas más utilizadas en el análisis de datos de ondas gravitacionales, con especial mención a la discusión sobre las amplitudes efectiva y característica.
Además, los resultados originales de la tesis siguen tres líneas de investigación diferentes:
1) Se ha predicho la precisión con la que el futuro detector interferométrico espacial LISA, estimará los parámetros (posición, masas, velocidad de rotación, parámetros cosmológicos…) de las observaciones de choques entre dos agujeros negros supermasivos en la fase “inspiral”.
2) Se ha desarrollado un algoritmo propio de búsqueda de señales gravitacionales procedentes de sistemas binarios estelares, basado en teorías de probabilidad Bayesiana y MCMC. Este algoritmo distingue a la vez miles de señales superpuestas en una única serie temporal de datos, extrayendo parámetros individuales de cada una de ellas.
3) Se ha definido de manera matemática rigurosa como determinar el rango de validez (para extracción de parámetros y detección) de modelos aproximados de patrones de ondas gravitacionales, aplicándolo a un caso concreto de modelos semi-analíticos. / In this PhD thesis one studies, from the data analysis perspective, the possibility of direct detection of gravitational waves emitted by similar mass compact binary objects: black holes, neutron stars, white dwarfs. In the introductory chapters,
a) a detailed and exhaustive description about how to derive the detected strain from the theoretical emitted waveform predictions is given;
b) the most used gravitational wave data analysis results are derived, being worth pointing out the discussion about effective and characteristic amplitudes.
Moreover, three different research lines have been followed in the thesis:
1) It has been predicted the parameter estimation (position, masses, spin, cosmological parameters…) of supermassive black hole binary inspiral signals, observed with the future interferometric space detector, LISA.
2) A new algorithm, based on Bayesian probability and MCMC techniques, has been developed in order to search for gravitational wave signals from stellar-mass binary systems. The algorithm is able to distinguish thousands of overlapping signals from a single observed time series, allowing for individual parameter extraction.
3) It has been, mathematically and rigorously, defined how to compute the validity range (for parameter estimation and detection purposes) of approximated gravitational waveform models, applying it to the particular case of closed-form models
|
Page generated in 0.0302 seconds