Spelling suggestions: "subject:"mistura dde distribuições"" "subject:"mistura dde istribuições""
1 |
Modelo de mistura com número de componentes desconhecido: estimação via método split-mergeSaraiva, Erlandson Ferreira 30 November 2009 (has links)
Made available in DSpace on 2016-06-02T20:04:50Z (GMT). No. of bitstreams: 1
2715.pdf: 5847504 bytes, checksum: 33fc1cbb82d98f376e09b5096d9e726c (MD5)
Previous issue date: 2009-11-30 / Financiadora de Estudos e Projetos / We propose the split-merge MCMC and birth-split-merge MCMC algorithms to analyse mixture models with an unknown number of components. The strategy for splitting is based on data and posterior distribution. Allocation probabilities are calculated based on component parameters which are generated from the posterior distribution given the previously allocated observations. The split-merge proposals are developed to be reversible and are accepted according to Metropolis-Hastings probability. This procedure makes possible a greater change in configuration of latent variables, in a single iteration of algorithms, allow a major exploration of clusters and avoid possible local modes. As an advantage, our approach determines a quick split proposal in contrary to former split procedures which require substantial computational effort. In the birth-split-merge MCMC algorithm, the birth movement is obtained directly from the procedure to update the latent variables and occurs when an observation determine a new cluster. The performance of the method is verified using artificial data sets and two real data sets. The first real data set consist of benchmark data of velocities from distant galaxies diverging from our own while the second is Escherichia Coli bacterium gene expression data. / Propomos uma abordagem bayesiana hierárquica e os algoritmos split-merge MCMC e birth-split-merge MCMC para a estimação conjunta dos parâmetros e do número de componentes de um modelo com mistura de distribuições. A proposta split é baseada nos dados e na distribuição a posteriori dos parâmetros. Nesta proposta, utilizamos probabilidades de alocação que são calculadas de acordo com os parâmetros associados a cada componente, que são gerados da distribuição a posteriori dado as observações previamente alocadas. As propostas split e merge são desenvolvidas para serem reversíveis e são aceitas de acordo com a probabilidade de aceitação de Metropolis-Hastings, para garantir a existência da distribuição estacionária. O algoritmo birth-split-merge apresenta as mesmas propostas split-merge porém este algoritmo permite que ao atualizar uma variável latente, esta seja capaz de determinar o nascimento" (birth) de uma nova componente. Verificamos a performance dos algoritmos propostos utilizando dados artificiais, gerados via simulação, e dois conjuntos de dados reais. O primeiro é o bem conhecido conjunto de dados sobre a velocidade de galáxias e o segundo é um conjunto de dados de expressão gênica. A contribuição teórica presente nesta tese é o desenvolvimento de um pocesso estocástico com base nos movimentos split-merge, que são baseados nos dados. Ou seja, se a amostra é proveniente de uma população composta por k subpopulações, nosso método busca informações sobre as k subpopulações diretamente nos dados observados. Com isso, quando propomos o surgimento de uma nova componente esta sempre tem dados associados, i.e., determina uma partição nos dados observados, e os parâmetros são gerados da distribuição a posteriori, o que não ocorre nos métodos alternativos.
|
2 |
Modelo de mistura padrão de longa duração com censura uniforme-exponencialChaves, Josenildo de Souza 25 March 2010 (has links)
Made available in DSpace on 2016-06-02T20:04:51Z (GMT). No. of bitstreams: 1
2932.pdf: 982095 bytes, checksum: ce563edc7be982c4acf4c88ef1c3c32b (MD5)
Previous issue date: 2010-03-25 / Financiadora de Estudos e Projetos / In survival data analysis it is common the occurrence of a large number of individuals to the right. This fact can indicate that, in a fraction of the individuals the event of interest will never happen, in other words, a fraction of individuals of the population is cured or immune. This case is not usually taken into account by the usual survival theory that, in general, considers that the individuals at risk will not achieve cure during the follow-up period. Therefore, the survival models with cure fraction, or long-term survival models, have received a lot of attention in recent years. We consider the exponential distribution for the survival time of individuals at risk and the uniform-exponential distribution for the censoring time. In many situations, it is evident that the censoring mechanism is informative. Lagakos & Williams (1978) proposed a class of models where the acting of the censoring mechanism in the survival time is evaluated and Lagakos (1979) presented several situations in which the assumption of noninformative censoring is violated. The main purpose of this work is to verify the impact of informative uniform-exponential censoring in the survival data analysis under the standard mixture model. / Na análise de dados de sobrevivência é frequente a ocorrência de um grande número de indivíduos censurados à direita. Este fato pode ser a indicação de que para uma fração de indivíduos no estudo o evento de interesse nunca vai ocorrer, ou seja, uma fração de indivíduos da população é de curados ou imunes. Este caso não é admitido pela teoria de sobrevivência usual, que em geral considera que todos os indivíduos em risco não terão cura durante o período de acompanhamento. Por isso, os modelos de sobrevivência com fração de cura, ou de longa duração, têm recebido muita atenção em anos recentes. Utilizamos a distribuição exponencial para o tempo de sobrevivência dos indivíduos em risco e a uniforme-exponencial para o tempo de censura. Em muitas situações é evidente que o mecanismo de censura é informativo. Lagakos & Williams (1978) propuseram uma classe de modelos em que o papel do mecanismo de censura em análise de sobrevivência é avaliado e Lagakos (1979) apresentou várias situações em que a suposição de censura não-informativa é violada. Este trabalho tem como objetivo principal verificar o impacto da censura informativa uniforme-exponencial na análise de dados de sobrevivência sob o modelo de mistura padrão.
|
3 |
Modelo de mistura padrão com tempo de falha exponencial e censura informativaFreitas, Luiz Antonio de 25 June 2010 (has links)
Made available in DSpace on 2016-06-02T20:04:51Z (GMT). No. of bitstreams: 1
3147.pdf: 1261036 bytes, checksum: 5b16b6f20a2eacfa466c5fdb1e546d3a (MD5)
Previous issue date: 2010-06-25 / Financiadora de Estudos e Projetos / In this work we consider the long-term survival model introduced by Berkson & Gage (1952), for modeling survival data of nonhomogeneous populations, where a subpopulation does not present the event of interest, despite a long follow-up period. The cure rate models presented in the literature usually are developed under the assumption that censorship is noninformative. In the usual survival models Lawless (1982) considers that the variable of censoring is informative if its density function and its distribution function involve some parameter of interest. We propose a new definition of informative censoring in a similar way. This de_nition is extended for the unified long-term survival models (Rodrigues et al., 2009). Moreover, we verify, with simulated data, the impact caused by informative censoring in the coverage probabilities and in the lengths of asymptotic confidence intervals of the parameters of interest. A Bayesian approach with Jeffreys prior is also proposed. An example with real data is analysed. / Neste trabalho consideramos o modelo de sobrevivência de longa duração introduzido por Berkson & Gage (1952), que serve para modelar dados de populações não homogêneas, em que parte da população não apresenta o evento de interesse mesmo após um longo período de observação. Os modelos com fração de cura apresentados na literatura são usualmente desenvolvidos sob a suposição de censura não informativa. Sob o modelo usual de sobrevivência, Lawless (1982) considera que a variável de censura _e informativa se suas funções de densidade e de distribuição acumulada envolvem algum parâmetro de interesse. Neste trabalho enunciamos uma nova definição de censura informativa, que _e similar _a de Lawless (1982). Esta definição é extendida para o modelo unificado de longa duração proposto por (Rodrigues et al., 2009). Também verificamos, com uso de dados simulados, o impacto da censura informativa na cobertura e no comprimento dos intervalos assintóticos dos parâmetros de interesse. Uma abordagem bayesiana com distribuições a priori de Jeffreys é proposta. Um exemplo com dados reais é analisado.
|
4 |
Aspectos práticos da estimação do modelo de mistura via processo de DirichletPaz, Rosineide Fernando da 03 April 2013 (has links)
Made available in DSpace on 2016-06-02T20:06:07Z (GMT). No. of bitstreams: 1
5124.pdf: 1092134 bytes, checksum: 388bf73f3290c7488cfc2f6292329274 (MD5)
Previous issue date: 2013-04-03 / Financiadora de Estudos e Projetos / We review the Dirichlet process mixture model and investigate its performance as a classification method. The first aspect considered is its sensibility to the choice of location parameter of the base distribution. The second aspect considers the performance of the model regarding the departure of the parameters of the component distributions. Simulation results with mixture of normal distributions indicate sensibility to location parameters choices, of the base distribution, and good performance even when components with normal distributions differ only in variances. Finally, we apply the method to three data sets. / Neste trabalho, analisamos os aspectos práticos de um modelo bayesiano não paramétrico conhecido como modelo de mistura por processo de Dirichlet. Procedemos a um estudo de simulação com o objetivo de investigar a performance do modelo, no que diz respeito à classi _cação de dados oriundo de populações heterogêneas, em subgrupos (ou componentes). Os dados em cada componente identificado são assumidos terem uma distribuição normal, de forma que os dados de todos os componentes, juntos são assumidos serem originados de uma mistura de distribuições normais. Para veri_car este desempenho, procedemos a uma análise para investigar dois aspectos. O primeiro aspecto considerado está relacionado a sensibilidade do modelo, quanto a escolha do parâmetro de locação da distribuição base adotada, normal-gama-invertida, para o processo de Dirichlet, o qual é usado como distribuição a priori para o modelo, como em um simples problema de Bayes. O segundo aspecto diz respeito à performance do modelo em relação ao afastamento dos parâmetros, média e variância, das distribuições dos componentes. Os resultados das simulações com estas misturas de distribui ções normais, indicam sensibilidade do método para a escolha do parâmetro de locação da distribuição base normal-gama-invertida e também indicam uma boa performance, mesmo quando os componentes com distribuições normais diferem entre si apenas na variabilidade dos dados. Finalmente, aplicamos este método para três conjuntos de dados reais, sendo o último uma aplicação em dados de mistura de modelos de regressão.
|
5 |
Modelo com mistura de multinomiais aplicado à identificação de proteínas similares.Coimbra, Ricardo Galante 24 February 2005 (has links)
Made available in DSpace on 2016-06-02T20:06:08Z (GMT). No. of bitstreams: 1
DissRGC.pdf: 2581095 bytes, checksum: 4a2f54d065969def7422a978d84a16f4 (MD5)
Previous issue date: 2005-02-24 / The proteins are important molecules from the cells, whereas they take part since the construction of cell´s framing until the transmission of the genetic information between the generations. A protein can be characterized by its function and its function is determined by the sequence of amino acids that determines its structure. To determined the protein's function is important, for instance, in a research about the cure of diseases or searching for new drugs. In this research we use a bayesian statistical methodology with mixture of multinomial and latent variables to identify proteins with similar function. We use simulations to verify the performance of the statistical model for identifying the similar proteins. At the end we apply the modeling to a real data set. / As proteínas são moléculas importantes das células, pois participam desde a construção das estruturas celulares até a transmissão de informações genéticas entre gerações. Uma proteína pode ser caracterizada pela sua função, sendo que esta função é determinada pela sequência de aminoácidos que compõe a sua estrutura. Determinar a função protéica é importante quando, por exemplo, se pesquisa a cura de doenças ou se pesquisa a fabricação de novos medicamentos. Neste trabalho utilizamos uma metodologia bayesiana de inferência estatística para inferir sobre o modelo com mistura de distribuições multinomiais e variáveis latentes para identificar proteínas com funções similares. Verificamos a performance da modelagem proposta em separar em grupos as proteínas com funções similares através de simulação.
|
6 |
Alternative regression models to Beta distribution under Bayesian approach / Modelos de regressão alternativos à distribuição Beta sob abordagem bayesianaPaz, Rosineide Fernando da 25 August 2017 (has links)
The Beta distribution is a bounded domain distribution which has dominated the modeling the distribution of random variable that assume value between 0 and 1. Bounded domain distributions arising in various situations such as rates, proportions and index. Motivated by an analysis of electoral votes percentages (where a distribution with support on the positive real numbers was used, although a distribution with limited support could be more suitable) we focus on alternative distributions to Beta distribution with emphasis in regression models. In this work, initially we present the Simplex mixture model as a flexible model to modeling the distribution of bounded random variable then we extend the model to the context of regression models with the inclusion of covariates. The parameters estimation is discussed for both models considering Bayesian inference. We apply these models to simulated data sets in order to investigate the performance of the estimators. The results obtained were satisfactory for all the cases investigated. Finally, we introduce a parameterization of the L-Logistic distribution to be used in the context of regression models and we extend it to a mixture of mixed models. / A distribuição beta é uma distribuição com suporte limitado que tem dominado a modelagem de variáveis aleatórias que assumem valores entre 0 e 1. Distribuições com suporte limitado surgem em várias situações como em taxas, proporções e índices. Motivados por uma análise de porcentagens de votos eleitorais, em que foi assumida uma distribuição com suporte nos números reais positivos quando uma distribuição com suporte limitado seira mais apropriada, focamos em modelos alternativos a distribuição beta com enfase em modelos de regressão. Neste trabalho, apresentamos, inicialmente, um modelo de mistura de distribuições Simplex como um modelo flexível para modelar a distribuição de variáveis aleatórias que assumem valores em um intervalo limitado, em seguida estendemos o modelo para o contexto de modelos de regressão com a inclusão de covariáveis. A estimação dos parâmetros foi discutida para ambos os modelos, considerando o método bayesiano. Aplicamos os dois modelos a dados simulados para investigarmos a performance dos estimadores usados. Os resultados obtidos foram satisfatórios para todos os casos investigados. Finalmente, introduzimos a distribuição L-Logistica no contexto de modelos de regressão e posteriormente estendemos este modelo para o contexto de misturas de modelos de regressão mista.
|
7 |
Inferência em modelos de mistura via algoritmo EM estocástico modificado / Inference on Mixture Models via Modified Stochastic EMAssis, Raul Caram de 02 June 2017 (has links)
Apresentamos o tópico e a teoria de Modelos de Mistura de Distribuições, revendo aspectos teóricos e interpretações de tais misturas. Desenvolvemos a teoria dos modelos nos contextos de máxima verossimilhança e de inferência bayesiana. Abordamos métodos de agrupamento já existentes em ambos os contextos, com ênfase em dois métodos, o algoritmo EM estocástico no contexto de máxima verossimilhança e o Modelo de Mistura com Processos de Dirichlet no contexto bayesiano. Propomos um novo método, uma modificação do algoritmo EM Estocástico, que pode ser utilizado para estimar os parâmetros de uma mistura de componentes enquanto permite soluções com número distinto de grupos. / We present the topics and theory of Mixture Models in a context of maximum likelihood and Bayesian inferece. We approach clustering methods in both contexts, with emphasis on the stochastic EM algorithm and the Dirichlet Process Mixture Model. We propose a new method, a modified stochastic EM algorithm, which can be used to estimate the parameters of a mixture model and the number of components.
|
8 |
Modelos de mistura de distribuições na segmentação de imagens SAR polarimétricas multi-look / Multi-look polarimetric SAR image segmentation using mixture modelsHorta, Michelle Matos 04 June 2009 (has links)
Esta tese se concentra em aplicar os modelos de mistura de distribuições na segmentação de imagens SAR polarimétricas multi-look. Dentro deste contexto, utilizou-se o algoritmo SEM em conjunto com os estimadores obtidos pelo método dos momentos para calcular as estimativas dos parâmetros do modelo de mistura das distribuições Wishart, Kp ou G0p. Cada uma destas distribuições possui parâmetros específicos que as diferem no ajuste dos dados com graus de homogeneidade variados. A distribuição Wishart descreve bem regiões com características mais homogêneas, como cultivo. Esta distribuição é muito utilizada na análise de dados SAR polarimétricos multi-look. As distribuições Kp e G0p possuem um parâmetro de rugosidade que as permitem descrever tanto regiões mais heterogêneas, como vegetação e áreas urbanas, quanto regiões homogêneas. Além dos modelos de mistura de uma única família de distribuições, também foi analisado o caso de um dicionário contendo as três famílias. Há comparações do método SEM proposto para os diferentes modelos com os métodos da literatura k-médias e EM utilizando imagens reais da banda L. O método SEM com a mistura de distribuições G0p forneceu os melhores resultados quando os outliers da imagem são desconsiderados. A distribuição G0p foi a mais flexível ao ajuste dos diferentes tipos de alvo. A distribuição Wishart foi robusta às diferentes inicializações. O método k-médias com a distribuição Wishart é robusto à segmentação de imagens contendo outliers, mas não é muito flexível à variabilidade das regiões heterogêneas. O modelo de mistura do dicionário de famílias melhora a log-verossimilhança do método SEM, mas apresenta resultados parecidos com os do modelo de mistura G0p. Para todos os tipos de inicialização e grupos, a distribuição G0p predominou no processo de seleção das distribuições do dicionário de famílias. / The main focus of this thesis consists of the application of mixture models in multi-look polarimetric SAR image segmentation. Within this context, the SEM algorithm, together with the method of moments, were applied in the estimation of the Wishart, Kp and G0p mixture model parameters. Each one of these distributions has specific parameters that allows fitting data with different degrees of homogeneity. The Wishart distribution is suitable for modeling homogeneous regions, like crop fields for example. This distribution is widely used in multi-look polarimetric SAR data analysis. The distributions Kp and G0p have a roughness parameter that allows them to describe both heterogeneous regions, as vegetation and urban areas, and homogeneous regions. Besides adopting mixture models of a single family of distributions, the use of a dictionary with all the three family of distributions was proposed and analyzed. Also, a comparison between the performance of the proposed SEM method, considering the different models in real L-band images and two widely known techniques described in literature (k-means and EM algorithms), are shown and discussed. The proposed SEM method, considering a G0p mixture model combined with a outlier removal stage, provided the best classication results. The G0p distribution was the most flexible for fitting the different kinds of data. The Wishart distribution was robust for different initializations. The k-means algorithm with Wishart distribution is robust for segmentation of SAR images containing outliers, but it is not so flexible to variabilities in heterogeneous regions. The mixture model considering the dictionary of distributions improves the SEM method log-likelihood, but presents similar results to those of G0p mixture model. For all types of initializations and clusters, the G0p prevailed in the distribution selection process of the dictionary of distributions.
|
9 |
Inferência em modelos de mistura via algoritmo EM estocástico modificado / Inference on mixture models via modified stochastic EM algorithmAssis, Raul Caram de 02 June 2017 (has links)
Submitted by Ronildo Prado (ronisp@ufscar.br) on 2017-08-22T14:32:30Z
No. of bitstreams: 1
DissRCA.pdf: 1727058 bytes, checksum: 78d5444e767bf066e768b88a3a9ab535 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-22T14:32:38Z (GMT) No. of bitstreams: 1
DissRCA.pdf: 1727058 bytes, checksum: 78d5444e767bf066e768b88a3a9ab535 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-22T14:32:44Z (GMT) No. of bitstreams: 1
DissRCA.pdf: 1727058 bytes, checksum: 78d5444e767bf066e768b88a3a9ab535 (MD5) / Made available in DSpace on 2017-08-22T14:32:50Z (GMT). No. of bitstreams: 1
DissRCA.pdf: 1727058 bytes, checksum: 78d5444e767bf066e768b88a3a9ab535 (MD5)
Previous issue date: 2017-06-02 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / We present the topics and theory of Mixture Models in a context of maximum likelihood and Bayesian inferece. We approach clustering methods in both contexts, with emphasis on the stochastic EM algorithm and the Dirichlet Process Mixture Model. We propose a new method, a modified stochastic EM algorithm, which can be used to estimate the parameters of a mixture model and the number of components. / Apresentamos o tópico e a teoria de Modelos de Mistura de Distribuições, revendo aspectos teóricos e interpretações de tais misturas. Desenvolvemos a teoria dos modelos nos contextos de máxima verossimilhança e de inferência bayesiana. Abordamos métodos de agrupamento já existentes em ambos os contextos, com ênfase em dois métodos, o algoritmo EM estocástico no contexto de máxima verossimilhança e o Modelo de Mistura com Processos de Dirichlet no contexto bayesiano. Propomos um novo método, uma modificação do algoritmo EM Estocástico, que pode ser utilizado para estimar os parâmetros de uma mistura de componentes enquanto permite soluções com número distinto de grupos.
|
10 |
Métodos estatísticos aplicados à análise da expressão gênica.Saraiva, Erlandson Ferreira 23 February 2006 (has links)
Made available in DSpace on 2016-06-02T20:06:11Z (GMT). No. of bitstreams: 1
DissEFS.pdf: 1135537 bytes, checksum: b92ac0d09924bd51723ad77018da04de (MD5)
Previous issue date: 2006-02-23 / Financiadora de Estudos e Projetos / The technology of the DNA-Arrays is a tool used to identify and to compare levels of expression of a great number of genes or fragments of genes, in di¤erent conditions.
With this comparison, it is possible to identify genes possibly causing illnesses of genetic origin (cancer for example). Great amounts of numerical data (related the measures of
levels of expression of the genes) are generated and statistical methods are important for analysis of this data with objective to identify the genes that present evidences for
di¤erent levels of expression. The objective of our research is to develop and to describe methods statistical, capable of identifing genes that present evidences for di¤erent levels
of expression. We describe the test t, considered for Baldi and Long (2001) and consider three others methods. The first method considered is based on the use of parametric
Bayes inference and the methods for selection of models, Bayes factor and DIC; the second method is based an semi-parametric bayesian inference, model of mixtures of
Dirichlet processes. The third method is based on the use of a model with infinite mixtures of distributions that applied the analysis of the genica expression determines groups of
similar levels of expression. / A tecnologia dos arranjos de DNA (DNA-array) é uma ferramenta utilizada para identificar e comparar níveis de expressão de um grande número de genes ou fragmentos de genes simultaneamente, em condições diferentes. Com esta comparação, é possível determinar possíveis genes causadores de doenças de origem genética (por exemplo, o câncer). Nestes experimentos, grandes quantidades de dados numéricos (relacionados às medidas de níveis de expressão dos genes) são gerados e métodos estatísticos são im- portantes para análise dos dados, com objetivo de identificar os genes que apresentam evidências para níveis de expressão diferentes. O objetivo de nossa pesquisa é comparar o desempenho e desenvolver métodos estatísticos, capazes de identificar genes que apresentam evidências para níveis de expressão diferentes, quando comparamos situações de interesse (tratamentos) com uma situação de controle. Para isto, descrevemos o teste t, proposto por Baldi e Long (2001) e propomos três métodos para identificar genes com evidências para níveis de expressão diferentes. O primeiro método proposto é baseado na utilização da inferência bayesiana paramétrica e dos métodos de seleção de modelos, fator de Bayes e DIC; o segundo método é baseado na inferência bayesiana semi-paramétrica conhecida como modelo de misturas de processos Dirichlet; e o terceiro método é baseado na utilização de um modelo com mistura infinita de distribuições, que aplicado à análise da expressão gênica determina grupos de níveis de expressão gênica similares, baseados nos efeitos de tratamento.
|
Page generated in 0.0849 seconds