Return to search

Modelo de mistura com número de componentes desconhecido: estimação via método split-merge

Made available in DSpace on 2016-06-02T20:04:50Z (GMT). No. of bitstreams: 1
2715.pdf: 5847504 bytes, checksum: 33fc1cbb82d98f376e09b5096d9e726c (MD5)
Previous issue date: 2009-11-30 / Financiadora de Estudos e Projetos / We propose the split-merge MCMC and birth-split-merge MCMC algorithms to analyse mixture models with an unknown number of components. The strategy for splitting is based on data and posterior distribution. Allocation probabilities are calculated based on component parameters which are generated from the posterior distribution given the previously allocated observations. The split-merge proposals are developed to be reversible and are accepted according to Metropolis-Hastings probability. This procedure makes possible a greater change in configuration of latent variables, in a single iteration of algorithms, allow a major exploration of clusters and avoid possible local modes. As an advantage, our approach determines a quick split proposal in contrary to former split procedures which require substantial computational effort. In the birth-split-merge MCMC algorithm, the birth movement is obtained directly from the procedure to update the latent variables and occurs when an observation determine a new cluster. The performance of the method is verified using artificial data sets and two real data sets. The first real data set consist of benchmark data of velocities from distant galaxies diverging from our own while the second is Escherichia Coli bacterium gene expression data. / Propomos uma abordagem bayesiana hierárquica e os algoritmos split-merge MCMC e birth-split-merge MCMC para a estimação conjunta dos parâmetros e do número de componentes de um modelo com mistura de distribuições. A proposta split é baseada nos dados e na distribuição a posteriori dos parâmetros. Nesta proposta, utilizamos probabilidades de alocação que são calculadas de acordo com os parâmetros associados a cada componente, que são gerados da distribuição a posteriori dado as observações previamente alocadas. As propostas split e merge são desenvolvidas para serem reversíveis e são aceitas de acordo com a probabilidade de aceitação de Metropolis-Hastings, para garantir a existência da distribuição estacionária. O algoritmo birth-split-merge apresenta as mesmas propostas split-merge porém este algoritmo permite que ao atualizar uma variável latente, esta seja capaz de determinar o nascimento" (birth) de uma nova componente. Verificamos a performance dos algoritmos propostos utilizando dados artificiais, gerados via simulação, e dois conjuntos de dados reais. O primeiro é o bem conhecido conjunto de dados sobre a velocidade de galáxias e o segundo é um conjunto de dados de expressão gênica. A contribuição teórica presente nesta tese é o desenvolvimento de um pocesso estocástico com base nos movimentos split-merge, que são baseados nos dados. Ou seja, se a amostra é proveniente de uma população composta por k subpopulações, nosso método busca informações sobre as k subpopulações diretamente nos dados observados. Com isso, quando propomos o surgimento de uma nova componente esta sempre tem dados associados, i.e., determina uma partição nos dados observados, e os parâmetros são gerados da distribuição a posteriori, o que não ocorre nos métodos alternativos.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/4480
Date30 November 2009
CreatorsSaraiva, Erlandson Ferreira
ContributorsMilan, Luis Aparecido
PublisherUniversidade Federal de São Carlos, Programa de Pós-graduação em Estatística, UFSCar, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Formatapplication/pdf
Sourcereponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0048 seconds