Return to search

Comparing two populations using Bayesian Fourier series density estimation / Comparação de duas populações utilizando estimação bayesiana de densidades por séries de Fourier

Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-06-28T18:26:17Z
No. of bitstreams: 1
DissMHAI.pdf: 1513128 bytes, checksum: 1bb98ae57371ab00d2c86311b02054cb (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-07T17:53:27Z (GMT) No. of bitstreams: 1
DissMHAI.pdf: 1513128 bytes, checksum: 1bb98ae57371ab00d2c86311b02054cb (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-07T17:53:36Z (GMT) No. of bitstreams: 1
DissMHAI.pdf: 1513128 bytes, checksum: 1bb98ae57371ab00d2c86311b02054cb (MD5) / Made available in DSpace on 2017-08-07T17:57:44Z (GMT). No. of bitstreams: 1
DissMHAI.pdf: 1513128 bytes, checksum: 1bb98ae57371ab00d2c86311b02054cb (MD5)
Previous issue date: 2017-04-12 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Given two samples from two populations, one could ask how similar the populations are, that is,
how close their probability distributions are. For absolutely continuous distributions, one way
to measure the proximity of such populations is to use a measure of distance (metric) between
the probability density functions (which are unknown given that only samples are observed). In
this work, we work with the integrated squared distance as metric. To measure the uncertainty
of the squared integrated distance, we first model the uncertainty of each of the probability
density functions using a nonparametric Bayesian method. The method consists of estimating the
probability density function f (or its logarithm) using Fourier series {f0;f1; :::;fI}. Assigning a
prior distribution to f is then equivalent to assigning a prior distribution to the coefficients of this
series. We used the prior suggested by Scricciolo (2006) (sieve prior), which not only places a
prior on such coefficients, but also on I itself, so that in reality we work with a Bayesian mixture
of finite dimensional models. To obtain posterior samples of such mixture, we marginalize out
the discrete model index parameter I and use a statistical software called Stan. We conclude
that the Bayesian Fourier series method has good performance when compared to kernel density
estimation, although both methods often have problems in the estimation of the probability
density function near the boundaries. Lastly, we showed how the methodology of Fourier series
can be used to access the uncertainty regarding the similarity of two samples. In particular, we
applied this method to dataset of patients with Alzheimer. / Dadas duas amostras de duas populações, pode-se questionar o quão parecidas as duas populações
são, ou seja, o quão próximas estão suas distribuições de probabilidade. Para distribuições
absolutamente contínuas, uma maneira de mensurar a proximidade dessas populações é utilizando
uma medida de distância (métrica) entre as funções densidade de probabilidade (as
quais são desconhecidas, em virtude de observarmos apenas as amostras). Nesta dissertação,
utilizamos a distância quadrática integrada como métrica. Para mensurar a incerteza da distância
quadrática integrada, primeiramente modelamos a incerteza sobre cada uma das funções densidade
de probabilidade através de uma método bayesiano não paramétrico. O método consiste em
estimar a função de densidade de probabilidade f (ou seu logaritmo) usando séries de Fourier
{f0;f1; :::;fI}. Atribuir uma distribuição a priori para f é então equivalente a atribuir uma
distribuição a priori aos coeficientes dessa serie. Utilizamos a priori sugerida em Scricciolo
(2006) (priori de sieve), a qual não coloca uma priori somente nesses coeficientes, mas também
no próprio I, de modo que, na realidade, trabalhamos com uma mistura bayesiana de modelos de
dimensão finita. Para obter amostras a posteriori dessas misturas, marginalizamos o parâmetro
(discreto) de indexação de modelos, I, e usamos um software estatístico chamado Stan. Concluímos
que o método bayesiano de séries de Fourier tem boa performance quando comparado ao
de estimativa de densidade kernel, apesar de ambos os métodos frequentemente apresentarem
problemas na estimação da função de densidade de probabilidade perto das fronteiras. Por fim,
mostramos como a metodologia de series de Fourier pode ser utilizada para mensurar a incerteza
a cerca da similaridade de duas amostras. Em particular, aplicamos este método a um conjunto
de dados de pacientes com doença de Alzheimer.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/8920
Date12 April 2017
CreatorsInacio, Marco Henrique de Almeida
ContributorsIzbicki, Rafael
PublisherUniversidade Federal de São Carlos, Câmpus São Carlos, Programa de Pós-graduação em Estatística, UFSCar
Source SetsIBICT Brazilian ETDs
LanguageEnglish
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds