Spelling suggestions: "subject:"overdispersion"" "subject:"overdispersions""
1 |
Econometric analysis of non-standard count dataGodwin, Ryan T. 21 November 2012 (has links)
This thesis discusses various issues in the estimation of models for count data. In the first part of the thesis, we derive an analytic expression for the bias of the maximum likelihood estimator (MLE) of the parameter in a doubly-truncated Poisson distribution, which proves highly effective as a means of bias correction. We explore the circumstances under which bias is likely to be problematic, and provide some indication of the statistical significance of the bias. Over a range of sample sizes, our method outperforms the alternative of bias correction via the parametric bootstrap. We show that MLEs obtained from sample sizes which elicit appreciable bias also have sampling distributions which are unsuited to be approximated by large-sample asymptotics, and bootstrapping confidence intervals around our bias-adjusted estimator is preferred, as two tiers of bootstrapping may incur a heavy computational burden.
Modelling count data where the counts are strictly positive is often accomplished using a positive Poisson distribution. Inspection of the data sometimes reveals an excess of ones, analogous to zero-inflation in a regular Poisson model. The latter situation has well developed methods for modelling and testing, such as the zero-inflated Poisson (ZIP) model, and a score test for zero-inflation in a ZIP model. The issue of count inflation in a positive Poisson distribution does not seem to have been considered in a similar way. In the second part of the thesis, we propose a one-inflated positive Poisson (OIPP) model, and develop a score test to determine whether there are “too many” ones for a positive Poisson model to fit well. We explore the performance of our score test, and compare it to a likelihood ratio test, via Monte Carlo simulation. We find that the score test performs well, and that the OIPP model may be useful in many cases.
The third part of the thesis considers the possibility of one-inflation in zero-truncated data, when overdispersion is present. We propose a new model to deal with such a phenomenon, the one-inflated zero-truncated negative binomial (OIZTNB) model. The finite sample properties of the maximum likelihood estimators for the parameters of such a model are discussed. This Chapter considers likelihood ratio tests which assist in specifying the OIZTNB model, and investigates the finite sample properties of such tests. The OIZTNB model is illustrated using the medpar data set, which describes the hospital length of stay for a set of patients in Arizona. This is a data set that is widely used to highlight the merits of the zero-truncated negative binomial (ZTNB) model. We find that our OIZTNB model fits the data better than does the ZTNB model, and this leads us to conclude that the data are generated by a one-inflated process. / Graduate
|
2 |
A Model Selection Paradigm for Modeling Recurrent Adenoma Data in Polyp Prevention TrialsDavidson, Christopher L. January 2012 (has links)
Colorectal polyp prevention trials (PPTs) are randomized, placebo-controlled clinical trials that evaluate some chemo-preventive agent and include participants who will be followed for at least 3 years to compare the recurrence rates (counts) of adenomas. A large proportion of zero counts will likely be observed in both groups at the end of the observation period. Poisson general linear models (GLMs) are usually employed for estimation of recurrence in PPTs. Other models, including the negative binomial (NB2), zero-inflated Poisson (ZIP), and zero-inflated negative binomial (ZINB) may be better suited to handle zero-inflation or other forms of overdispersion that are common in count data. A model selection paradigm that determines a statistical approach for choosing the best fitting model for recurrence data is described. An example using a subset from a large Phase III clinical trial indicated that the ZINB model was the best fitting model for the data.
|
3 |
A case study in handling over-dispersion in nematode count dataKreider, Scott Edwin Douglas January 1900 (has links)
Master of Science / Department of Statistics / Leigh W. Murray / Traditionally the Poisson process is used to model count response variables. However, a problem arises when the particular response variable contains an inordinate number of both zeros and large observations, relative to the mean, for a typical Poisson process. In cases such as these, the variance of the data is greater than the mean and as such the data are over-dispersed with respect to the Poisson distribution due to the fact that the mean equals the variance for the Poisson distribution. This case study looks at several common and uncommon ways to attempt to properly account for this over-dispersion in a specific set of nematode count data using various procedures in SAS 9.2. These methods include but are not limited to a basic linear regression model, a generalized linear (log-linear) model, a zero-inflated Poisson model, a generalized Poisson model, and a Poisson hurdle model. Based on the AIC statistics the generalized log-linear models with the Pearson-scale and deviance-scale corrections perform the best. However, based on residual plots, none of the models appear to fit the data adequately. Further work with non-parametric methods or the negative binomial distribution may yield more ideal results.
|
4 |
Equações de estimação generalizadas com resposta binomial negativa: modelando dados correlacionados de contagem com sobredispersão / Generalized estimating equations with negative binomial responses: modeling correlated count data with overdispersionOesselmann, Clarissa Cardoso 12 December 2016 (has links)
Uma suposição muito comum na análise de modelos de regressão é a de respostas independentes. No entanto, quando trabalhamos com dados longitudinais ou agrupados essa suposição pode não fazer sentido. Para resolver esse problema existem diversas metodologias, e talvez a mais conhecida, no contexto não Gaussiano, é a metodologia de Equações de Estimação Generalizadas (EEGs), que possui similaridades com os Modelos Lineares Generalizados (MLGs). Essas similaridades envolvem a classificação do modelo em torno de distribuições da família exponencial e da especificação de uma função de variância. A única diferença é que nessa função também é inserida uma matriz trabalho que inclui a parametrização da estrutura de correlação dentro das unidades experimentais. O principal objetivo desta dissertação é estudar como esses modelos se comportam em uma situação específica, de dados de contagem com sobredispersão. Quando trabalhamos com MLGs esse problema é resolvido através do ajuste de um modelo com resposta binomial negativa (BN), e a ideia é a mesma para os modelos envolvendo EEGs. Essa dissertação visa rever as teorias existentes em EEGs no geral e para o caso específico quando a resposta marginal é BN, e além disso mostrar como essa metodologia se aplica na prática, com três exemplos diferentes de dados correlacionados com respostas de contagem. / An assumption that is common in the analysis of regression models is that of independent responses. However, when working with longitudinal or grouped data this assumption may not have sense. To solve this problem there are several methods, but perhaps the best known, in the non Gaussian context, is the one based on Generalized Estimating Equations (GEE), which has similarities with Generalized Linear Models (GLM). Such similarities involve the classification of the model around the exponential family and the specification of a variance function. The only diference is that in this function is also inserted a working correlation matrix concerning the correlations within the experimental units. The main objective of this dissertation is to study how these models behave in a specific situation, which is the one on count data with overdispersion. When we work with GLM this kind of problem is solved by setting a model with a negative binomial response (NB), and the idea is the same for the GEE methodology. This dissertation aims to review in general the GEE methodology and for the specific case when the responses follow marginal negative binomial distributions. In addition, we show how this methodology is applied in practice, with three examples of correlated data with count responses.
|
5 |
Modelos para a análise de dados de contagens longitudinais com superdispersão: estimação INLA / Models for data analysis of longitudinal counts with overdispersion: INLA estimationRocha, Everton Batista da 04 September 2015 (has links)
Em ensaios clínicos é muito comum a ocorrência de dados longitudinais discretos. Para sua análise é necessário levar em consideração que dados observados na mesma unidade experimental ao longo do tempo possam ser correlacionados. Além dessa correlação inerente aos dados é comum ocorrer o fenômeno de superdispersão (ou sobredispersão), em que, existe uma variabilidade nos dados além daquela captada pelo modelo. Um caso que pode acarretar a superdispersão é o excesso de zeros, podendo também a superdispersão ocorrer em valores não nulos, ou ainda, em ambos os casos. Molenberghs, Verbeke e Demétrio (2007) propuseram uma classe de modelos para acomodar simultaneamente a superdispersão e a correlação em dados de contagens: modelo Poisson, modelo Poisson-gama, modelo Poisson-normal e modelo Poisson-normal-gama (ou modelo combinado). Rizzato (2011) apresentou a abordagem bayesiana para o ajuste desses modelos por meio do Método de Monte Carlo com Cadeias de Markov (MCMC). Este trabalho, para modelar a incerteza relativa aos parâmetros desses modelos, considerou a abordagem bayesiana por meio de um método determinístico para a solução de integrais, INLA (do inglês, Integrated Nested Laplace Approximations). Além dessa classe de modelos, como objetivo, foram propostos outros quatros modelos que também consideram a correlação entre medidas longitudinais e a ocorrência de superdispersão, além da ocorrência de zeros estruturais e não estruturais (amostrais): modelo Poisson inacionado de zeros (ZIP), modelo binomial negativo inacionado de zeros (ZINB), modelo Poisson inacionado de zeros - normal (ZIP-normal) e modelo binomial negativo inacionado de zeros - normal (ZINB-normal). Para ilustrar a metodologia desenvolvida, um conjunto de dados reais referentes à contagens de ataques epilépticos sofridos por pacientes portadores de epilepsia submetidos a dois tratamentos (um placebo e uma nova droga) ao longo de 27 semanas foi considerado. A seleção de modelos foi realizada utilizando-se medidas preditivas baseadas em validação cruzada. Sob essas medidas, o modelo selecionado foi o modelo ZIP-normal, sob o modelo corrente na literatura, modelo combinado. As rotinas computacionais foram implementadas no programa R e são parte deste trabalho. / Discrete and longitudinal structures naturally arise in clinical trial data. Such data are usually correlated, particularly when the observations are made within the same experimental unit over time and, thus, statistical analyses must take this situation into account. Besides this typical correlation, overdispersion is another common phenomenon in discrete data, defined as a greater observed variability than that nominated by the statistical model. The causes of overdispersion are usually related to an excess of observed zeros (zero-ination), or an excess of observed positive specific values or even both. Molenberghs, Verbeke e Demétrio (2007) have developed a class of models that encompasses both overdispersion and correlation in count data: Poisson, Poisson-gama, Poisson-normal, Poissonnormal- gama (combined model) models. A Bayesian approach was presented by Rizzato (2011) to fit these models using the Markov Chain Monte Carlo method (MCMC). In this work, a Bayesian framework was adopted as well and, in order to consider the uncertainty related to the model parameters, the Integrated Nested Laplace Approximations (INLA) method was used. Along with the models considered in Rizzato (2011), another four new models were proposed including longitudinal correlation, overdispersion and zero-ination by structural and random zeros, namely: zero-inated Poisson (ZIP), zero-inated negative binomial (ZINB), zero-inated Poisson-normal (ZIP-normal) and the zero-inated negative binomial-normal (ZINB-normal) models. In order to illustrate the developed methodology, the models were fit to a real dataset, in which the response variable was taken to be the number of epileptic events per week in each individual. These individuals were split into two groups, one taking placebo and the other taking an experimental drug, and they observed up to 27 weeks. The model selection criteria were given by different predictive measures based on cross validation. In this setting, the ZIP-normal model was selected instead the usual model in the literature (combined model). The computational routines were implemented in R language and constitute a part of this work.
|
6 |
Modelos para análise de dados superdispersos de indução de haploidia em milho / Models for the analysis of overdispersed haploid induction data in maizeSilva, Andreza Jardelino da 09 February 2017 (has links)
O milho é uma espécie alógama cujo produto comercial são os híbridos, os quais originam-se do cruzamento de duas linhagens endogâmicas. Uma forma para obtenção de tais linhagens é por meio das técnicas de indução de haploidia e posterior obtenção dos duplo-haploides, permitindo até 100% de homozigose. Essas técnicas retornam resultados importantes no melhoramento de milho. Uma variável de interesse importante, obtida a partir dessas técnicas é a taxa de indução de haploidia, a qual trata-se de uma proporção entre o número de sementes haploides e o número total de sementes. O conjunto de dados foi obtido pelo cruzamento da linhagem indutora LI- ESALQ, com cinco genótipos comerciais de milho (2B587PW, 30F53H, BM820, DKB390 e STATUS VIPTERA), em duas gerações F1 e F2, por meio de um delineamento em blocos ao acaso, na área experimental do Departamento de Genética da ESALQ/USP. A teoria dos modelos lineares generalizados (MLGs) possibilita mais opções para a distribuição da variável resposta, exigindo somente que a mesma pertença à família exponencial sob a forma canônica. Tal classe de distribuições pode ser ainda expandida para modelos que permitem efeitos aleatórios no preditor linear, caracterizando a classe dos modelos lineares generalizados mistos (MLGMs). O objetivo deste trabalho foi analisar a taxa de indução de haploidia em milho tropical, utilizando um modelo binomial misto, com efeito aleatório em nível de indivíduo. O método de estimação foi o de máxima verossimilhança. Com base em tal modelagem, verificou-se que o genótipo 30F53H, destacou-se em relação aos demais quanto à eficiência da taxa de indução de haploidia. Todas as análises foram implementadas no software R. / The maize is an allogeneic species whose commercial product are the hybrids, which are gerated by the crossing of two endogenous lines. An alternative to obtain these lines is using the haploid induction techniques and subsequent doubled haploid production, that allows up to 100% homozygous. Artificial production of doubled haploids is important in plant breeding. An important variable, that results from these techniques, is the haploid induction rate, which is a proportion between the number of haploid seeds and the total number of seeds. The data set was obtained by crossing the inductive line LI-ESALQ, with five commercial genotypes of corn (2B587PW, 30F53H, BM820, DKB390 and STATUS VIPTERA), in two generations F1 e F2, in a randomized block design, in the experimental area of Department of Genetics, ESALQ/USP. The generalized linear models (GLMs) allow more options for the variable response distribution, requiring only that it belongs to the exponential family in canonical form. The GLM class can be expanded to models that allow random effects in the linear predictor, the mixed generalized linear models (MGLM) class. This work aimed to analyze the haploid induction rate in the tropical maize. The binomial mixed model, that included random effects in individual level, was proposed. The maximum likelihood method was used to estimate the parameters. The result revealed that the genotype 30F53H stands out in relation to the others regarding the efficiency in the haploid induction rate. All the analyzes were implemented in the software R.
|
7 |
Modelos para a análise de dados de contagens longitudinais com superdispersão: estimação INLA / Models for data analysis of longitudinal counts with overdispersion: INLA estimationEverton Batista da Rocha 04 September 2015 (has links)
Em ensaios clínicos é muito comum a ocorrência de dados longitudinais discretos. Para sua análise é necessário levar em consideração que dados observados na mesma unidade experimental ao longo do tempo possam ser correlacionados. Além dessa correlação inerente aos dados é comum ocorrer o fenômeno de superdispersão (ou sobredispersão), em que, existe uma variabilidade nos dados além daquela captada pelo modelo. Um caso que pode acarretar a superdispersão é o excesso de zeros, podendo também a superdispersão ocorrer em valores não nulos, ou ainda, em ambos os casos. Molenberghs, Verbeke e Demétrio (2007) propuseram uma classe de modelos para acomodar simultaneamente a superdispersão e a correlação em dados de contagens: modelo Poisson, modelo Poisson-gama, modelo Poisson-normal e modelo Poisson-normal-gama (ou modelo combinado). Rizzato (2011) apresentou a abordagem bayesiana para o ajuste desses modelos por meio do Método de Monte Carlo com Cadeias de Markov (MCMC). Este trabalho, para modelar a incerteza relativa aos parâmetros desses modelos, considerou a abordagem bayesiana por meio de um método determinístico para a solução de integrais, INLA (do inglês, Integrated Nested Laplace Approximations). Além dessa classe de modelos, como objetivo, foram propostos outros quatros modelos que também consideram a correlação entre medidas longitudinais e a ocorrência de superdispersão, além da ocorrência de zeros estruturais e não estruturais (amostrais): modelo Poisson inacionado de zeros (ZIP), modelo binomial negativo inacionado de zeros (ZINB), modelo Poisson inacionado de zeros - normal (ZIP-normal) e modelo binomial negativo inacionado de zeros - normal (ZINB-normal). Para ilustrar a metodologia desenvolvida, um conjunto de dados reais referentes à contagens de ataques epilépticos sofridos por pacientes portadores de epilepsia submetidos a dois tratamentos (um placebo e uma nova droga) ao longo de 27 semanas foi considerado. A seleção de modelos foi realizada utilizando-se medidas preditivas baseadas em validação cruzada. Sob essas medidas, o modelo selecionado foi o modelo ZIP-normal, sob o modelo corrente na literatura, modelo combinado. As rotinas computacionais foram implementadas no programa R e são parte deste trabalho. / Discrete and longitudinal structures naturally arise in clinical trial data. Such data are usually correlated, particularly when the observations are made within the same experimental unit over time and, thus, statistical analyses must take this situation into account. Besides this typical correlation, overdispersion is another common phenomenon in discrete data, defined as a greater observed variability than that nominated by the statistical model. The causes of overdispersion are usually related to an excess of observed zeros (zero-ination), or an excess of observed positive specific values or even both. Molenberghs, Verbeke e Demétrio (2007) have developed a class of models that encompasses both overdispersion and correlation in count data: Poisson, Poisson-gama, Poisson-normal, Poissonnormal- gama (combined model) models. A Bayesian approach was presented by Rizzato (2011) to fit these models using the Markov Chain Monte Carlo method (MCMC). In this work, a Bayesian framework was adopted as well and, in order to consider the uncertainty related to the model parameters, the Integrated Nested Laplace Approximations (INLA) method was used. Along with the models considered in Rizzato (2011), another four new models were proposed including longitudinal correlation, overdispersion and zero-ination by structural and random zeros, namely: zero-inated Poisson (ZIP), zero-inated negative binomial (ZINB), zero-inated Poisson-normal (ZIP-normal) and the zero-inated negative binomial-normal (ZINB-normal) models. In order to illustrate the developed methodology, the models were fit to a real dataset, in which the response variable was taken to be the number of epileptic events per week in each individual. These individuals were split into two groups, one taking placebo and the other taking an experimental drug, and they observed up to 27 weeks. The model selection criteria were given by different predictive measures based on cross validation. In this setting, the ZIP-normal model was selected instead the usual model in the literature (combined model). The computational routines were implemented in R language and constitute a part of this work.
|
8 |
Equações de estimação generalizadas com resposta binomial negativa: modelando dados correlacionados de contagem com sobredispersão / Generalized estimating equations with negative binomial responses: modeling correlated count data with overdispersionClarissa Cardoso Oesselmann 12 December 2016 (has links)
Uma suposição muito comum na análise de modelos de regressão é a de respostas independentes. No entanto, quando trabalhamos com dados longitudinais ou agrupados essa suposição pode não fazer sentido. Para resolver esse problema existem diversas metodologias, e talvez a mais conhecida, no contexto não Gaussiano, é a metodologia de Equações de Estimação Generalizadas (EEGs), que possui similaridades com os Modelos Lineares Generalizados (MLGs). Essas similaridades envolvem a classificação do modelo em torno de distribuições da família exponencial e da especificação de uma função de variância. A única diferença é que nessa função também é inserida uma matriz trabalho que inclui a parametrização da estrutura de correlação dentro das unidades experimentais. O principal objetivo desta dissertação é estudar como esses modelos se comportam em uma situação específica, de dados de contagem com sobredispersão. Quando trabalhamos com MLGs esse problema é resolvido através do ajuste de um modelo com resposta binomial negativa (BN), e a ideia é a mesma para os modelos envolvendo EEGs. Essa dissertação visa rever as teorias existentes em EEGs no geral e para o caso específico quando a resposta marginal é BN, e além disso mostrar como essa metodologia se aplica na prática, com três exemplos diferentes de dados correlacionados com respostas de contagem. / An assumption that is common in the analysis of regression models is that of independent responses. However, when working with longitudinal or grouped data this assumption may not have sense. To solve this problem there are several methods, but perhaps the best known, in the non Gaussian context, is the one based on Generalized Estimating Equations (GEE), which has similarities with Generalized Linear Models (GLM). Such similarities involve the classification of the model around the exponential family and the specification of a variance function. The only diference is that in this function is also inserted a working correlation matrix concerning the correlations within the experimental units. The main objective of this dissertation is to study how these models behave in a specific situation, which is the one on count data with overdispersion. When we work with GLM this kind of problem is solved by setting a model with a negative binomial response (NB), and the idea is the same for the GEE methodology. This dissertation aims to review in general the GEE methodology and for the specific case when the responses follow marginal negative binomial distributions. In addition, we show how this methodology is applied in practice, with three examples of correlated data with count responses.
|
9 |
Modelos para análise de dados superdispersos de indução de haploidia em milho / Models for the analysis of overdispersed haploid induction data in maizeAndreza Jardelino da Silva 09 February 2017 (has links)
O milho é uma espécie alógama cujo produto comercial são os híbridos, os quais originam-se do cruzamento de duas linhagens endogâmicas. Uma forma para obtenção de tais linhagens é por meio das técnicas de indução de haploidia e posterior obtenção dos duplo-haploides, permitindo até 100% de homozigose. Essas técnicas retornam resultados importantes no melhoramento de milho. Uma variável de interesse importante, obtida a partir dessas técnicas é a taxa de indução de haploidia, a qual trata-se de uma proporção entre o número de sementes haploides e o número total de sementes. O conjunto de dados foi obtido pelo cruzamento da linhagem indutora LI- ESALQ, com cinco genótipos comerciais de milho (2B587PW, 30F53H, BM820, DKB390 e STATUS VIPTERA), em duas gerações F1 e F2, por meio de um delineamento em blocos ao acaso, na área experimental do Departamento de Genética da ESALQ/USP. A teoria dos modelos lineares generalizados (MLGs) possibilita mais opções para a distribuição da variável resposta, exigindo somente que a mesma pertença à família exponencial sob a forma canônica. Tal classe de distribuições pode ser ainda expandida para modelos que permitem efeitos aleatórios no preditor linear, caracterizando a classe dos modelos lineares generalizados mistos (MLGMs). O objetivo deste trabalho foi analisar a taxa de indução de haploidia em milho tropical, utilizando um modelo binomial misto, com efeito aleatório em nível de indivíduo. O método de estimação foi o de máxima verossimilhança. Com base em tal modelagem, verificou-se que o genótipo 30F53H, destacou-se em relação aos demais quanto à eficiência da taxa de indução de haploidia. Todas as análises foram implementadas no software R. / The maize is an allogeneic species whose commercial product are the hybrids, which are gerated by the crossing of two endogenous lines. An alternative to obtain these lines is using the haploid induction techniques and subsequent doubled haploid production, that allows up to 100% homozygous. Artificial production of doubled haploids is important in plant breeding. An important variable, that results from these techniques, is the haploid induction rate, which is a proportion between the number of haploid seeds and the total number of seeds. The data set was obtained by crossing the inductive line LI-ESALQ, with five commercial genotypes of corn (2B587PW, 30F53H, BM820, DKB390 and STATUS VIPTERA), in two generations F1 e F2, in a randomized block design, in the experimental area of Department of Genetics, ESALQ/USP. The generalized linear models (GLMs) allow more options for the variable response distribution, requiring only that it belongs to the exponential family in canonical form. The GLM class can be expanded to models that allow random effects in the linear predictor, the mixed generalized linear models (MGLM) class. This work aimed to analyze the haploid induction rate in the tropical maize. The binomial mixed model, that included random effects in individual level, was proposed. The maximum likelihood method was used to estimate the parameters. The result revealed that the genotype 30F53H stands out in relation to the others regarding the efficiency in the haploid induction rate. All the analyzes were implemented in the software R.
|
10 |
Modely s Touchardovm rozdÄlenm / Models with Touchard DistributionIbukun, Michael Abimbola January 2021 (has links)
In 2018, Raul Matsushita, Donald Pianto, Bernardo B. De Andrade, Andre Can§ado & Sergio Da Silva published a paper titled âTouchard distributionâ, which presented a model that is a two-parameter extension of the Poisson distribution. This model has its normalizing constant related to the Touchard polynomials, hence the name of this model. This diploma thesis is concerned with the properties of the Touchard distribution for which delta is known. Two asymptotic tests based on two different statistics were carried out for comparison in a Touchard model with two independent samples, supported by simulations in R.
|
Page generated in 0.0948 seconds