Return to search

Contributions to the analysis of dispersed count data / Contribuições à análise de dados de contagem

In many agricultural and biological contexts, the response variable is a nonnegative integer value which we wish to explain or analyze in terms of a set of covariates. Unlike the Gaussian linear model, the response variable is discrete with a distribution that places probability mass at natural numbers only. The Poisson regression is the standard model for count data. However, assumptions of this model forces the equality between mean and variance, which may be implausible in many applications. Motivated by experimental data sets, this work intended to develop more realistic methods for the analysis of count data. We proposed a novel parametrization of the COM-Poisson distribution and explored the regression models based on it. We extended the model to allow the dispersion, as well as the mean, depending on covariates. A set of count statistical models, namely COM-Poisson, Gamma-count, discrete Weibull, generalized Poisson, double Poisson and Poisson-Tweedie, was reviewed and compared, considering the dispersion, zero-inflation, and heavy tail indexes, together with the results of data analyzes. The computational routines developed in this dissertation were organized in two R packages available on GitHub. / Em diversos estudos agrícolas e biológicos, a variável resposta é um número inteiro não negativo que desejamos explicar ou analisar em termos de um conjunto de covariáveis. Diferentemente do modelo linear Gaussiano, a variável resposta é discreta com distribuição de probabilidade definida apenas em valores do conjunto dos naturais. O modelo Poisson é o modelo padrão para dados em forma de contagens. No entanto, as suposições desse modelo forçam que a média seja igual a variância, o que pode ser implausível em muitas aplicações. Motivado por conjuntos de dados experimentais, este trabalho teve como objetivo desenvolver métodos mais realistas para a análise de contagens. Foi proposta uma nova reparametrização da distribuição COM-Poisson e explorados modelos de regressão baseados nessa distribuição. Uma extensão desse modelo para permitir que a dispersão, assim como a média, dependa de covariáveis, foi proposta. Um conjunto de modelos para contagens, nomeadamente COM-Poisson, Gamma-count, Weibull discreto, Poisson generalizado, duplo Poisson e Poisson-Tweedie, foi revisado e comparado, considerando os índices de dispersão, inflação de zero e cauda pesada, juntamente com os resultados de análises de dados. As rotinas computacionais desenvolvidas nesta dissertação foram organizadas em dois pacotes R disponíveis no GitHub.

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-14052019-152803
Date18 February 2019
CreatorsRibeiro Junior, Eduardo Elias
ContributorsDemetrio, Clarice Garcia Borges
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguageEnglish
Detected LanguagePortuguese
TypeDissertação de Mestrado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.003 seconds