Spelling suggestions: "subject:"modelos lineares generalizados"" "subject:"modelos lineares generalizado""
71 |
Modelos lineares generalizadas para series temporais com memoria longa / Generalized linear models for long memory time seriesBorges, Cristiano Amâncio Vieira 15 August 2018 (has links)
Orientador: Mauricio Enrique Zevallos Herencia / Dissertação (mestrado) - Universidade Estadadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-15T13:14:28Z (GMT). No. of bitstreams: 1
Borges_CristianoAmancioVieira_M.pdf: 2172730 bytes, checksum: 3a0a212a114d920caf7bafe3f7a04868 (MD5)
Previous issue date: 2010 / Resumo: A modelagem de séries temporais não gaussianas é um tema de alta relevância na análise de séries temporais. Utilizando-se de estimação por verossimilhança parcial, Kedem e Fokianos (2002) estenderam sistematicamente a metodologia dos Modelos Lineares Generalizados (MLG) para séries temporais em que tanto a série de interesse quanto as covariáveis são estocasticamente dependentes. Entretanto, a análise estatística de séries com memória longa (ML), seja na resposta ou nas covariáveis, não é discutida em detalhes. O primeiro objetivo desta dissertação é investigar, através de simulações, as propriedades dos estimadores de máxima verossimilhança parcial dos coeficientes do MLG quando utilizado para séries temporais com ML. O segundo objetivo consiste em um estudo sobre a qualidade das previsões obtidas para vários modelos ajustados a dados de séries com ML, utilizando a metodologia proposta por Kedem e Fokianos (2002). Os modelos considerados nesta dissertação são modelos para séries de contagens, séries binárias e séries categóricas ordinais. Finalmente, as metodologias são ilustradas através de aplicações em conjuntos de dados reais de finanças e de poluição do ar. / Abstract: Non-gaussian time series modeling is a high relevance issue of time series analysis. Kedem and Fokianos (2002) have used partial likelihood estimation to extend the Generalized Linear Models (GLM) methodology systematically to time series where the response and covariate data are both stochastically dependent. However, statistical analysis of time series with long memory (LM), whether in the response or in the covariates, is not discussed in detail. The first purpose of this paper is to investigate, via simulations, the properties of the partial maximum likelihood estimators of the GLM coefficients as used for modeling LM time series. As a second purpose, we have assessed the quality of the forecasts obtained from several adjusted models (using the methodology proposed by Kedem and Fokianos (2002)) as applied to data with LM series. The models we have chosen for our work include count series, binary series, and categorical ordinal time series models. Finally, the methodologies are illustrated with applications to financial and air pollution real data. / Mestrado / Series Temporais / Mestre em Estatística
|
72 |
Melhoramento do resíduo de Wald em modelos lineares generalizados / Improvement of Wald residual in generalized linear modelsMariana Ragassi Urbano 18 December 2008 (has links)
A teoria dos modelos lineares generalizados é muito utilizada na estatística, para a modelagem de observações provenientes da distribuição Normal, mas, principalmente, na modelagem de observações cuja distribuição pertença à família exponencial de distribuições. Alguns exemplos são as distribuições binomial, gama, normal inversa, dentre outras. Ajustado um modelo, para vericar a adequação do ajuste, são aplicadas técnicas de diagnósticos e feita uma análise de resíduos. As propriedades dos resíduos para modelos lineares generalizados não são muito conhecidas e resultados assintóticos são o único recurso. Este trabalho teve como objetivo estudar as propriedades assintóticas do resíduo de Wald, e realizar correções para que sua distribuição se aproxime de uma distribuição normal padrão. Uma aplicação das correções para o resíduo de Wald foi feita para cinco conjuntos de dados. Em dois conjuntos, a variável resposta apresentava-se na forma de contagem, e para a modelagem utilizou-se a distribuição de Poisson. Dois outros conjuntos são provenientes de delineamentos experimentais inteiramente casualizados, com variável resposta contínua e para a modelagem utilizou-se a distribuição normal, e para o último conjunto, o interesse era modelar a proporção, e utilizou-se a distribuição binomial. Um estudo de simulação foi conduzido, utilizando-se o método de Monte Carlo, e concluiu-se, que com as correções realizadas no resíduo de Wald, houve uma melhora signicativa em sua distribuição, sendo que a versão melhorada do resíduo tem distribuição que aproxima mais de uma distribuição normal padrão. / The theory of generalized linear models is very used in statistics, not only for modeling data normally distributed, but in the modeling of data whose distribution belongs to the exponential family of distributions. Some examples are binomial, gamma and inverse Gaussian distribution, among others. After tting a model in order to check the adequacy of tting, diagnostic techniques are used. The properties of residuals in generalized linear models are not well known, and asymptotic results are the only recourse. This work aims to study the asymptotic properties of Wald residual, and to obtain corrections to make the distribution of the modied residuals closer to standard normal. An application of the corrections for Wald residuals was done to ve datasets. In two datasets the response variables were counts, and to model, was used the Poisson distribution. Other two datasets are provided from a completely randomized design with a continuous response, and to model, was used the normal distribution, and, in the last dataset the interest was to model the proportion and the binomial distribution was used. A Monte Carlo simulation, was performed showing that the distribution of the corrected Wald residuals, is more close to the standard normal distribution.
|
73 |
Modelos lineares generalizados e modelos de dispersão aplicados à modelagem de sinistros agrícolas / Generalized linear models and model dispersion applied to modelling agricultural claimsKeliny Martins de Melo Sousa 12 February 2010 (has links)
O presente trabalho tem por objetivo utilizar a abordagem dos modelos lineares generalizados e os modelos de dispersão no contexto do seguro agrícola. Os modelos lineares generalizados (MLG\'s) constituem uma extensão dos modelos lineares de regressão múltipla introduzida por Nelder e Wedderburn (1972), que inclui modelos cuja variável resposta pertence à família exponencial de distribuições. O MLG é formado por um componente aleatório, que possui distribuição pertencente à família exponencial, um componente sistemático, conectados por uma função de ligação. Jorgensen (1997) estende a utilização dos MLG para uma classe mais ampla de modelos probabilísticos, denominados modelos de dispersão. A estimação dos parâmetros foi baseada no método da máxima verossimilhança, e também, em função da amostra ser relativamente pequena, optou-se pelo método de bootstrap não-paramétrico. As duas abordagens foram aplicadas a dois conjuntos de dados de sinistros de 15 municípios do estado do Rio Grande do Sul. Os resultados mostraram que a precipitação acumulada tem influência na ocorrência de sinistros. Entretanto, na modelagem do montante do sinistro não foi encontrada nenhuma variável significativa. Usando o método de bootstrap, foi encontrada influência das variáveis precipitação acumulada e a temperatura média no numero de sinistros / The main objective of this work is to use the generalized linear models and dispersion models in the agricultural insurance context. The Generalized Linear Model (GLM) are an extension of the multiple regression linear models presented by Nelder e Wedderburn (1972). This approach include situations in which the response variable can be included in exponencial the family. The GLM is composed of a randomized component, a sistematic component and the link functions. JÁrgensen (1997) extend the application of the GLM for a more general class of probability models, called dispersion models. Both approaches were applied in two insurance datasets for 15 citys in Rio Grande do Sul. The parameters estimation was based in the maximum likelihood method, in addition, because of the relatively small sample, the non-parametric Bootstrap method was used. This study show, using GLM, that only the accumulated rainfall was statistically significant . However, any of the covariates was significant when modelling the amount of claims. In the analysis using Bootstrap method the accumulated rainfall and average temperature were significant when modelling the number of insurance clains.
|
74 |
Modelos estatísticos para dados politômicos nominais em estudos longitudinais com uma aplicação à área agronômica / Statistical models for nominal polytomous data in longitudinal studies with an application to agronomyVinicius Menarin 14 January 2016 (has links)
Estudos em que a resposta de interesse é uma variável categorizada são bastante comuns nas mais diversas áreas da Ciência. Em muitas situações essa resposta é composta por mais de duas categorias não ordenadas, denominada então de uma variável politômica nominal, e em geral o objetivo do estudo é associar a probabilidade de ocorrência de cada categoria aos efeitos de variáveis explicativas. Ademais, existem tipos especiais de estudos em que os dados são coletados diversas vezes para uma mesma unidade amostral ao longo do tempo, os estudos longitudinais. Estudos assim requerem o uso de modelos estatísticos que considerem em sua formulação algum tipo de estrutura que suporte a dependência que tende a surgir entre observações feitas em uma mesma unidade amostral. Neste trabalho são abordadas duas extensões do modelo de logitos generalizados, usualmente empregado quando a resposta é politômica nominal com observações independentes entre si. A primeira consiste de uma modificação das equações de estimação generalizadas para dados nominais que se utiliza de razões de chances locais para descrever a dependência entre as observações da variável resposta politômica ao longo dos diversos tempos observados. Este tipo de modelo é denominado de modelo marginal. A segunda proposta abordada consiste no modelo de logitos generalizados com a inclusão de efeitos aleatórios no preditor linear, que também leva em conta uma dependência entre as observações. Esta abordagem caracteriza o modelo de logitos generalizados misto. Há diferenças importantes inerentes às interpretações dos modelos marginais e mistos, que são discutidas e que devem ser levadas em consideração na escolha da abordagem adequada. Ambas as propostas são aplicadas em um conjunto de dados proveniente de um experimento da área agronômica realizado em campo, conduzido sob um delineamento casualizado em blocos com esquema fatorial para os tratamentos. O experimento foi acompanhado ao longo de seis estações do ano, caracterizando assim uma estrutura longitudinal, sendo a variável resposta o tipo de vegetação observado no campo (touceiras, plantas invasoras ou espaços vazios). Os resultados encontrados são satisfatórios, embora a dependência presente nos dados não seja tão caracterizada; por meio de testes como da razão de verossimilhanças e de Wald diversas diferenças significativas entre os tratamentos foram encontradas. Ainda, devido às diferenças metodológicas das duas abordagens, o modelo marginal baseado nas equações de estimação generalizadas mostra-se mais adequado para esses dados. / Studies where the response is a categorical variable are quite common in many fields of Sciences. In many situations this response is composed by more than two unordered categories characterizing a nominal polytomous outcome and, in general, the aim of the study is to associate the probability of occurrence of each category to the effects of variables. Furthermore, there are special types of study where many measurements are taken over the time for the same sampling unit, called longitudinal studies. Such studies require special statistical models that consider some kind of structure that support the dependence that tends to arise from the repeated measurements for the same sampling unit. This work focuses on two extensions of the baseline-category logit model usually employed in cases when there is a nominal polytomous response with independent observations. The first one consists in a modification of the well-known generalized estimating equations for longitudinal data based on local odds ratios to describe the dependence between the levels of the response over the repeated measurements. This type of model is also known as a marginal model. The second approach adds random effects to the linear predictor of the baseline-category logit model, which also considers a dependence between the observations. This characterizes a baseline-category mixed model. There are substantial differences inherent to interpretations when marginal and mixed models are compared, what should be considered in the choice of the most appropriated approach for each situation. Both methodologies are applied to the data of an agronomic experiment installed under a complete randomized block design with a factorial arrangement for the treatments. It was carried out over six seasons, characterizing the longitudinal structure, and the response is the type of vegetation observed in field (tussocks, weeds or regions with bare ground). The results are satisfactory, even if the dependence found in data is not so strong, and likelihood-ratio and Wald tests point to several differences between treatments. Moreover, due to methodological differences between the two approaches, the marginal model based on generalized estimating equations seems to be more appropriate for this data.
|
75 |
Estimação de parâmetros genéticos para características de crescimento, reprodução e categóricas em uma população de bovinos de corte compostos (Bos taurus x Box indicus) sob abordagem bayesiana e modelos lineares generalizados mistos / Estimation of genetic parameters for traits of growth, reproduction and categorical in a population of composite beef cattle (Bos taurus x Bos indicus) in Bayesian approach and generalized linear mixed modelsTiago Almeida de Oliveira 30 August 2012 (has links)
Os objetivos deste trabalho foram avaliar diferentes modelos de seleção com base nos efeitos aleatórios maternos considerados para características de crescimento e perímetro escrotal, estimar parâmetros genéticos para pesos do nascimento aos 12 meses (pesos ao nascer, a desmama e aos 12 meses de idade); perímetro escrotal aos 12 meses e correlações genéticas entre as características para bovinos compostos Montana Tropical, em análises uni, bicaracterísticas. Estimar parâmetros genéticos para as características categóricas de musculosidade, precocidade e conformação aos 12 meses em modelos uni e bicaracterísticas utilizando diferentes metodologias para análise (modelos mistos, modelos thresholds bayesianos e modelos lineares generalizados mistos) e compará-los. Nas análises feitas para as características de crescimento e perímetro escrotal os efeitos maternos influenciaram os pesos do nascimento aos 12 meses de idade. As estimativas de herdabilidade direta obtidas das análises bicaracterísticas foram superiores àquelas obtidas das análises unicaracterísticas e as estimativas pela análise bicaracterística para as herdabilidades foram 0,27 para peso ao nascer; 0,18 para peso à desmama; 0,20 para peso aos 12 meses; e 0,19 para perímetro escrotal aos 12 meses. As correlações genéticas estimadas entre pesos obtidos em idades jovens com peso ao ano foram moderadas a baixas (< 0,60). A correlação genética obtida entre perímetro escrotal e características de crescimento foram 0,04, e <0,01 com peso a desmama indicando baixa associação entre as características e de 0,38 com peso aos 12 meses o que pode ao longo do tempo gerar animais mais pesados aos 12 meses. A seleção com base em características de crescimento em qualquer idade pode promover ganhos genéticos moderados no peso corporal de animais do composto Montana Tropical. É importante considerar nas análises os pesos prévios à seleção para estimar parâmetros genéticos para pesos após a seleção. Para as características morfológicas as estimativas de herdabilidade foram de baixas a moderadas e houve diferença entre o modelo linear e o de limiar e o modelo linear generalizado misto, na obtenção de estimativas de herdabilidades e correlações genéticas, de características categóricas morfológicas multinomiais. As estimativas dos parâmetros genéticos obtidas por modelo de limiar foram superiores aos demais métodos avaliados, com valores de 0,42; 0,37 e 0,25 para musculosidade, precocidade e conformação aos 12 meses, e as correlações genéticas estimadas em conjunto com peso a desmama para musculosidade, precocidade e conformação aos 12 meses foram 0,89; 0,22 e 0,83 respectivamente. Os escores visuais de conformação, precocidade e musculatura aos 12 meses podem responder rapidamente à seleção individual. / The objectives this study were to evaluate different models of selection based on maternal random effects considered for growth traits and scrotal circumference; to estimate genetic parameters for weights from birth to 12 months (birth weight, weaning and 12 months old), scrotal circumference at 12 months and to estimate genetic correlations between traits for cattle composite Montana Tropical, by univariate and two-trait analysis. To estimate genetic parameters for categorical traits of muscling, precocity and conformation at 12 months in uni-and two-trait models using different methodologies for analysis (mixed models, Bayesian models thresholds and generalized linear mixed models) and compare them. In the analysis made for growth traits and scrotal circumference, maternal effects influenced the weights from birth to 12 months of age. Direct heritability estimates obtained from two-trait analyzes were higher than those obtained using univariate models, and the estimates of heritability for the two traits analysis were 0.27 for birth weight, 0.18 for weaning weight, 0.20 for weight at 12 months , and 0.19 for scrotal circumference at 12 months. The genetic correlation obtained between weights at young ages and yearling weight were moderate to low ( < 0.60). Genetic correlation obtained between scrotal circumference and growth traits were 0.04, and < 0.01 with weaning weight indicating a low correlation between the traits and 0.38 from weight at 12 months which may over time provide heavier animals at 12 months. Selection based on growth traits at any age can provide moderate genetic gains in body weight of animals of the composite Montana Tropical. It is important to consider in the analysis to selecting the prior weights to estimate genetic parameters for weights after selection. For the morphological traits, heritability estimates were low to moderate and there was a difference between the threshold and linear model and generalized linear mixed model, for estimates of heritability and genetic correlations of morphological multinomial categorical traits. Estimates of genetic parameters by the threshold model were higher than the other methods evaluated, with values of 0.42, 0.37 and 0.25 for muscling, precocity, and conformation at 12 months, and the genetic correlations estimated in with weaning weight for muscling, precocity and conformation at 12 months were 0.89, 0.22 and 0.83 respectively. The visual scores of conformation, precocity and muscling at 12 months can respond quickly to individual selection.
|
76 |
Biodiversidade e modelagem estatística da comunidade de poliquetas de fundos inconsolidados do complexo recifal Sebastião Gomes, Banco dos Abrolhos (BA, Brasil) / Biodiversity and statistical modeling of polychaete community in soft bottom of Sebastião Gomes reef complex, Abrolhos Bank (BA, Brazil)Michele Quesada da Silva 21 August 2013 (has links)
Embora recifes de coral sejam hotspots de biodiversidade para corais e peixes, não se sabe se são para pequenos invertebrados marinhos. Este estudo visou verificar se o complexo recifal Sebastião Gomes é um hotspot de biodiversidade de poliquetas, bem como caracterizar a comunidade estrutural e funcional desses organismos que habitam o sedimento ao redor do recife. Através de modelos lineares generalizados (glm), tendo como variáveis preditoras características do sedimento e/ou posicionamento das estações de coleta ao redor do recife (transectos perpendiculares às faces sul, oeste, norte e leste), buscou-se compreender os padrões de: diversidade alfa; abundância total de poliquetas; abundância das espécies mais representativas; e abundância dos diferentes hábitos tróficos. Foram coletados 2399 indivíduos identificados em 116 espécies, indicando que Sebastião Gomes pode ser um hotspot. Todos descritores da comunidade foram maiores próximos ao recife, onde predominaram sedimentos grossos e carbonáticos. Já a posição ao redor do recife foi importante apenas para alguns descritores, tais como abundância total e dos hábitos tróficos carnívoros e detritívoros, todos maiores nos transectos norte e leste, expostos aos ventos. A abundância de poliquetas foi mais baixa em todo transecto sul, mais suscetível à ressuspensão de sedimento causada pelas frentes frias que atingem essa região / Although coral reefs are biodiversity hotspots for corals and fishes, it is not known whether they are also for small marine invertebrates. The present study aimed to verify if Sebastião Gomes reef complex is a polychaete biodiversity hotspot, as well to describe the structural and functional community of these organisms which inhabit sediments around the reef. Generalized linear models (glm) with sediment features and station position around the reef (perpendicular transects to the South, West, East and North faces) as predictor variables were used to understand the patterns of: alpha diversity; total polychaete abundance; most representative species abundance; and abundance of different trophic habits. 2399 individuals identified in 116 species were collected, indicating that Sebastião Gomes may be a hotspot. All community descriptors were higher near the reef, where coarse and carbonate sediments preponderate. However, the position around the reef was important only for some descriptors, such as total abundance and abundance of carnivorous and deposit feeders. All of them higher in the North and East transects, that are exposed to wind. The polychaete abundance was lower in the whole South transect, nevertheless it is more susceptible to sediment resuspension caused by cold fronts that reach the region
|
77 |
Modelos para análise de dados discretos longitudinais com superdispersão / Models for analysis of longitudinal discrete data in the presence of overdispersionFernanda Bührer Rizzato 08 February 2012 (has links)
Dados longitudinais na forma de contagens e na forma binária são muito comuns, os quais, frequentemente, podem ser analisados por distribuições de Poisson e de Bernoulli, respectivamente, pertencentes à família exponencial. Duas das principais limitações para modelar esse tipo de dados são: (1) a ocorrência de superdispersão, ou seja, quando a variabilidade dos dados não é adequadamente descrita pelos modelos, que muitas vezes apresentam uma relação pré-estabelecida entre a média e a variância, e (2) a correlação existente entre medidas realizadas repetidas vezes na mesma unidade experimental. Uma forma de acomodar a superdispersão é pela utilização das distribuições binomial negativa e beta binomial, ou seja, pela inclusão de um efeito aleatório com distribuição gama quando se considera dados provenientes de contagens e um efeito aleatório com distribuição beta quando se considera dados binários, ambos introduzidos de forma multiplicativa. Para acomodar a correlação entre as medidas realizadas no mesmo indivíduo podem-se incluir efeitos aleat órios com distribuição normal no preditor linear. Esses situações podem ocorrer separada ou simultaneamente. Molenberghs et al. (2010) propuseram modelos que generalizam os modelos lineares generalizados mistos Poisson-normal e Bernoulli-normal, incorporando aos mesmos a superdispersão. Esses modelos foram formulados e ajustados aos dados, usando-se o método da máxima verossimilhança. Entretanto, para um modelo de efeitos aleatórios, é natural pensar em uma abordagem Bayesiana. Neste trabalho, são apresentados modelos Bayesianos hierárquicos para dados longitudinais, na forma de contagens e binários que apresentam superdispersão. A análise Bayesiana hierárquica é baseada no método de Monte Carlo com Cadeias de Markov (MCMC) e para implementação computacional utilizou-se o software WinBUGS. A metodologia para dados na forma de contagens é usada para a análise de dados de um ensaio clínico em pacientes epilépticos e a metodologia para dados binários é usada para a análise de dados de um ensaio clínico para tratamento de dermatite. / Longitudinal count and binary data are very common, which often can be analyzed by Poisson and Bernoulli distributions, respectively, members of the exponential family. Two of the main limitations to model this data are: (1) the occurrence of overdispersion, i.e., the phenomenon whereby variability in the data is not adequately captured by the model, and (2) the accommodation of data hierarchies owing to, for example, repeatedly measuring the outcome on the same subject. One way of accommodating overdispersion is by using the negative-binomial and beta-binomial distributions, in other words, by the inclusion of a random, gamma-distributed eect when considering count data and a random, beta-distributed eect when considering binary data, both introduced by multiplication. To accommodate the correlation between measurements made in the same individual one can include normal random eects in the linear predictor. These situations can occur separately or simultaneously. Molenberghs et al. (2010) proposed models that simultaneously generalizes the generalized linear mixed models Poisson-normal and Bernoulli-normal, incorporating the overdispersion. These models were formulated and tted to the data using maximum likelihood estimation. However, these models lend themselves naturally to a Bayesian approach as well. In this paper, we present Bayesian hierarchical models for longitudinal count and binary data in the presence of overdispersion. A hierarchical Bayesian analysis is based in the Monte Carlo Markov Chain methods (MCMC) and the software WinBUGS is used for the computational implementation. The methodology for count data is used to analyse a dataset from a clinical trial in epileptic patients and the methodology for binary data is used to analyse a dataset from a clinical trial in toenail infection named onychomycosis.
|
78 |
[en] APPLYING RISK CLASSIFICATION METHOD IN CAR INSURANCE MARKET / [pt] MÉTODO DE CLASSIFICAÇÃO DE RISCO APLICADO AO MERCADO DE SEGUROS DE AUTOMÓVEISWILSON LINS MORGADO 14 February 2005 (has links)
[pt] A estimação do risco em seguros de automóveis representa um
difícil
problema de regressão. As dificuldades vão desde a
utilização de um grande
número de variáveis discretas como explicativas, até a
distribuição particular dos
ruídos e uma quantidade expressiva de categorias com
valores nulos e valores
discrepantes.
Supondo que os problemas de estimação estejam relacionados
com a
classificação do risco adotada pelo mercado, este trabalho
propõe um método de
classificação alternativo. O método desenvolvido foi
baseado na técnica de análise
fatorial, e no algoritmo de agrupamento de dados denominado
fuzzy clustering
system.
Para avaliar a eficiência do método em solucionar os
problemas de
estimação, optou-se por utilizar o erro resultante da
aplicação de modelos lineares
generalizados. Ao final, o erro de estimação obtido diante
da classificação
proposta, foi comparado ao obtido diante da classificação
usual de mercado. / [en] The estimation of car insurance risk rate represents a
difficult regression
problem. One of the difficulties of this problem is the use
of a number of discrete
independent variables and a specific error distribution
that presents an expressive
number of null and outlier values.
Assuming that these estimation problems are related to the
risk
classification adopted by the insurance companies, this
work proposes an
alternative classification method. This method is based on
factorial analysis
techniques and on the algorithm known as Fuzzy Clustering
System.
To evaluate the efficiency of this method in solving the
problems identified,
the risk was estimated using generalized linear models. The
errors from each
model were obtained and compared between classifications.
|
79 |
Modelos de regressão beta retangular heteroscedásticos aumentados em zeros e uns / Zero-one augmented heteroscedastic rectangular beta regression modelsSilva, Ana Roberta dos Santos, 1989- 26 August 2018 (has links)
Orientador: Caio Lucidius Naberezny Azevedo / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática Estatística e Computação Científica / Made available in DSpace on 2018-08-26T19:30:15Z (GMT). No. of bitstreams: 1
Silva_AnaRobertadosSantos_M.pdf: 4052475 bytes, checksum: 08fb6f3f7b4ed838df4eea2dbcf06a29 (MD5)
Previous issue date: 2015 / Resumo: Neste trabalho desenvolvemos a distribuição beta retangular aumentada em zero e um, bem como um correspondente modelo de regressão beta retangular aumentado em zero e um para analisar dados limitados-aumentados (representados por variáveis aleatórias mistas com suporte limitado), que apresentam valores discrepantes. Desenvolvemos ferramentas de inferência sob as abordagens bayesiana e frequentista. No que diz respeito à inferência bayesiana, devido à impossibilidade de obtenção analítica das posteriores de interesse, utilizou-se algoritmos MCMC. Com relação à estimação frequentista, utilizamos o algoritmo EM. Desenvolvemos técnicas de análise de resíduos, utilizando o resíduo quantil aleatorizado, tanto sob o enfoque frequentista quanto bayesiano. Desenvolvemos, também, medidas de influência, somente sob o enfoque bayesiano, utilizando a medida de Kullback Leibler. Além disso, adaptamos métodos de checagem preditiva à posteriori existentes na literatura, ao nosso modelo, utilizando medidas de discrepância apropriadas. Para a comparação de modelos, utilizamos os critérios usuais na literatura, como AIC, BIC e DIC. Realizamos diversos estudos de simulação, considerando algumas situações de interesse prático, com o intuito de comparar as estimativas bayesianas com as frequentistas, bem como avaliar o comportamento das ferramentas de diagnóstico desenvolvidas. Um conjunto de dados da área psicométrica foi analisado para ilustrar o potencial do ferramental desenvolvido / Abstract: In this work we developed the zero-one augmented rectangular beta distribution, as well as a correspondent zero-one augmented rectangular beta regression model to analyze limited-augmented data (represented by mixed random variables with limited support), which present outliers. We develop inference tools under the Bayesian and frequentist approaches. Regarding to the Bayesian inference, due the impossibility of obtaining analytically the posterior distributions of interest, we used MCMC algorithms. Concerning the frequentist estimation, we use the EM algorithm. We develop techniques of residual analysis, by using the randomized quantile residuals, under both frequentist and Bayesian approaches. We also developed influence measures, only under the Bayesian approach, by using the measure of Kullback Leibler. In addition, we adapt methods of posterior predictive checking available in the literature, to our model, using appropriate discrepancy measures. For model selection, we use the criteria commonly employed in the literature, such as AIC, BIC and DIC. We performed several simulation studies, considering some situations of practical interest, in order to compare the Bayesian and frequentist estimates, as well as to evaluate the behavior of the developed diagnostic tools. A psychometric real data set was analyzed to illustrate the performance of the developed tools / Mestrado / Estatistica / Mestra em Estatística
|
80 |
Modelos para análise de dados discretos longitudinais com superdispersão / Models for analysis of longitudinal discrete data in the presence of overdispersionRizzato, Fernanda Bührer 08 February 2012 (has links)
Dados longitudinais na forma de contagens e na forma binária são muito comuns, os quais, frequentemente, podem ser analisados por distribuições de Poisson e de Bernoulli, respectivamente, pertencentes à família exponencial. Duas das principais limitações para modelar esse tipo de dados são: (1) a ocorrência de superdispersão, ou seja, quando a variabilidade dos dados não é adequadamente descrita pelos modelos, que muitas vezes apresentam uma relação pré-estabelecida entre a média e a variância, e (2) a correlação existente entre medidas realizadas repetidas vezes na mesma unidade experimental. Uma forma de acomodar a superdispersão é pela utilização das distribuições binomial negativa e beta binomial, ou seja, pela inclusão de um efeito aleatório com distribuição gama quando se considera dados provenientes de contagens e um efeito aleatório com distribuição beta quando se considera dados binários, ambos introduzidos de forma multiplicativa. Para acomodar a correlação entre as medidas realizadas no mesmo indivíduo podem-se incluir efeitos aleat órios com distribuição normal no preditor linear. Esses situações podem ocorrer separada ou simultaneamente. Molenberghs et al. (2010) propuseram modelos que generalizam os modelos lineares generalizados mistos Poisson-normal e Bernoulli-normal, incorporando aos mesmos a superdispersão. Esses modelos foram formulados e ajustados aos dados, usando-se o método da máxima verossimilhança. Entretanto, para um modelo de efeitos aleatórios, é natural pensar em uma abordagem Bayesiana. Neste trabalho, são apresentados modelos Bayesianos hierárquicos para dados longitudinais, na forma de contagens e binários que apresentam superdispersão. A análise Bayesiana hierárquica é baseada no método de Monte Carlo com Cadeias de Markov (MCMC) e para implementação computacional utilizou-se o software WinBUGS. A metodologia para dados na forma de contagens é usada para a análise de dados de um ensaio clínico em pacientes epilépticos e a metodologia para dados binários é usada para a análise de dados de um ensaio clínico para tratamento de dermatite. / Longitudinal count and binary data are very common, which often can be analyzed by Poisson and Bernoulli distributions, respectively, members of the exponential family. Two of the main limitations to model this data are: (1) the occurrence of overdispersion, i.e., the phenomenon whereby variability in the data is not adequately captured by the model, and (2) the accommodation of data hierarchies owing to, for example, repeatedly measuring the outcome on the same subject. One way of accommodating overdispersion is by using the negative-binomial and beta-binomial distributions, in other words, by the inclusion of a random, gamma-distributed eect when considering count data and a random, beta-distributed eect when considering binary data, both introduced by multiplication. To accommodate the correlation between measurements made in the same individual one can include normal random eects in the linear predictor. These situations can occur separately or simultaneously. Molenberghs et al. (2010) proposed models that simultaneously generalizes the generalized linear mixed models Poisson-normal and Bernoulli-normal, incorporating the overdispersion. These models were formulated and tted to the data using maximum likelihood estimation. However, these models lend themselves naturally to a Bayesian approach as well. In this paper, we present Bayesian hierarchical models for longitudinal count and binary data in the presence of overdispersion. A hierarchical Bayesian analysis is based in the Monte Carlo Markov Chain methods (MCMC) and the software WinBUGS is used for the computational implementation. The methodology for count data is used to analyse a dataset from a clinical trial in epileptic patients and the methodology for binary data is used to analyse a dataset from a clinical trial in toenail infection named onychomycosis.
|
Page generated in 0.1085 seconds