Global ETD Search

11	Estimation de la moyenne et de la variance de l’abondance de populations en écologie à partir d’échantillons de petite taille / Estimating mean and variance of populations abundance in ecology with small-sized samples Vaudor, Lise 25 January 2011 (has links) En écologie comme dans bien d’autres domaines, les échantillons de données de comptage comprennent souvent de nombreux zéros et quelques abondances fortes. Leur distribution est particulièrement surdispersée et asymétrique. Les méthodes les plus classiques d’inférence sont souvent mal adaptées à ces distributions, à moins de disposer d’échantillons de très grande taille. Il est donc nécessaire de s’interroger sur la validité des méthodes d’inférence, et de quantifier les erreurs d’estimation pour de telles données. Ce travail de thèse a ainsi été motivé par un jeu de données d’abondance de poissons, correspondant à un échantillonnage ponctuel par pêche électrique. Ce jeu de données comprend plus de 2000 échantillons, dont chacun correspond aux abondances ponctuelles (considérées indépendantes et identiquement distribuées) d’une espèce pour une campagne de pêche donnée. Ces échantillons sont de petite taille (en général, 20 _ n _ 50) et comprennent de nombreux zéros (en tout, 80% de zéros). Les ajustements de plusieurs modèles de distribution classiques pour les données de comptage ont été comparés sur ces échantillons, et la distribution binomiale négative a été sélectionnée. Nous nous sommes donc intéressés à l’estimation des deux paramètres de cette distribution : le paramètre de moyenne m, et le paramètre de dispersion, q. Dans un premier temps, nous avons étudié les problèmes d’estimation de la dispersion. L’erreur d’estimation est d’autant plus importante que le nombre d’individus observés est faible, et l’on peut, pour une population donnée, quantifier le gain en précision résultant de l’exclusion d’échantillons comprenant très peu d’individus. Nous avons ensuite comparé plusieurs méthodes de calcul d’intervalles de confiance pour la moyenne. Les intervalles de confiance basés sur la vraisemblance du modèle binomial négatif sont, de loin, préférables à des méthodes plus classiques comme la méthode de Student. Par ailleurs, ces deux études ont révélé que certains problèmes d’estimation étaient prévisibles, à travers l’observation de statistiques simples des échantillons comme le nombre total d’individus, ou le nombre de comptages non-nuls. En conséquence, nous avons comparé la méthode d’échantillonnage à taille fixe, à une méthode séquentielle, où l’on échantillonne jusqu’à observer un nombre minimum d’individus ou un nombre minimum de comptages non-nuls. Nous avons ainsi montré que l’échantillonnage séquentiel améliore l’estimation du paramètre de dispersion mais induit un biais dans l’estimation de la moyenne ; néanmoins, il représente une amélioration des intervalles de confiance estimés pour la moyenne. Ainsi, ce travail quantifie les erreurs d’estimation de la moyenne et de la dispersion dans le cas de données de comptage surdispersées, compare certaines méthodes d’estimations, et aboutit à des recommandations pratiques en termes de méthodes d’échantillonnage et d’estimation. / In ecology as well as in other scientific areas, count samples often comprise many zeros, and few high abundances. Their distribution is particularly overdispersed, and skewed. The most classical methods of inference are often ill-adapted to these distributions, unless sample size is really large. It is thus necessary to question the validity of inference methods, and to quantify estimation errors for such data. This work has been motivated by a fish abundance dataset, corresponding to punctual sampling by electrofishing. This dataset comprises more than 2000 samples : each sample corresponds to punctual abundances (considered to be independent and identically distributed) for one species and one fishing campaign. These samples are small-sized (generally, 20 _ n _ 50) and comprise many zeros (overall, 80% of counts are zeros). The fits of various classical distribution models were compared on these samples, and the negative binomial distribution was selected. Consequently, we dealt with the estimation of the parameters of this distribution : the parameter of mean m and parameter of dispersion q. First, we studied estimation problems for the dispersion. The estimation error is higher when few individuals are observed, and the gain in precision for a population, resulting from the exclusion of samples comprising very few individuals, can be quantified. We then compared several methods of interval estimation for the mean. Confidence intervals based on negative binomial likelihood are, by far, preferable to more classical ones such as Student’s method. Besides, both studies showed that some estimation problems are predictable through simple statistics such as total number of individuals or number of non-null counts. Accordingly, we compared the fixed sample size sampling method, to a sequential method, where sampling goes on until a minimum number of individuals or positive counts have been observed. We showed that sequential sampling improves the estimation of dispersion but causes the estimation of mean to be biased ; still, it improves the estimation of confidence intervals for the mean. Hence, this work quantifies errors in the estimation of mean and dispersion in the case of overdispersed count data, compares various estimation methods, and leads to practical recommendations as for sampling and estimation methods. Binomiale négative Échantillonnage Estimation Maximum de vraisemblance Intervalle de confiance Surdispersion Negative binomial Sampling Estimation Maximum likelihood Confidence interval Overdispersion 570.151
12	Modelování četností pojistných událostí / Claims count modeling in insurance Škoda, Štěpán January 2013 (has links) 1 Abstract: The present work investigates techniques of insurence ratemaking accor- ding to the claims counts of policyholders on the basis of information contained in policies. At the beginning, we provide a closer examination of the theory of genera- lized linear models, which have wide range of applications in the field of actuarial modeling. The second chapter presents the basic Poisson regression model as well as some particular verification methods. Specifically, deviance and Wald test could be found here and furthermore also important results for residuals. The third chapter contains information on alternative approaches to modeling the claim frequencies and at the end the GEE method, that can be applied in case of panel data, is de- scribed. The numerical study based on real insurace data in last part of this diploma thesis illustrate's previously described techniques which were obtained with the help of statistical software SAS.
13	Modelos Beta-Binomial/Poisson-Gama para contagens bivariadas repetidas / Beta-binomial/gamma-Poisson regression models for repeated bivariate counts Lora, Mayra Ivanoff 01 December 2008 (has links) Em Lora e Singer (Statistics in Medicine, 2008), propusemos um modelo Beta- Binomial/Poisson p-variado para análise dos dados provenientes de um estudo que consistiu em contar o número de tentativas e acertos de um exercício manual com duração de um minuto realizado por doentes de Parkinson, antes e depois de um treinamento. O objetivo era verificar se o treinamento aumentava o número de tentativas e a porcentagem de acerto, o que destaca o aspecto bivariado do problema. Esse modelo leva tais características em consideração, usa uma distribuição adequada para dados de contagem e ainda acomoda a sobredispersão presente na contagem dos acertos. Como generalização, inicialmente, propomos um modelo Beta-Binomial/Poisson-Gama que acomoda sobredispersão também para as contagens dos totais de tentativas, além incluir covariâncias possivelmente diferentes entre as contagens em diversos instantes de avaliação. Neste novo modelo, introduzimos um parâmetro que relaciona o total de tentativas com a probabilidade de acerto, tornando-o ainda mais geral. Obtemos estimadores de máxima verossimilhança dos parâmetros utilizando um algoritmo de Newton-Raphson. Consideramos um outro conjunto de dados provenientes do mesmo estudo para ilustração da metodologia proposta. / In Lora and Singer (Statistics in Medicine, 2008), we proposed a Beta-Binomial/Poisson p-variate model to analyze data from a study which consists in counting the number of trials and successes of a manual exercise in one minute periods, done by Parkinsons disease patients, before and after a training. The purpose was to verify if the training improves the number of trials and the percentage of success, which emphasizes the bivariate aspect of the problem. This model considers these characteristics, uses an adequate distribution to count data and settles the overdispersion suggested in the number os successes. As a generalization, initially, we propose a Beta-Binomial/Poisson-Gama model which also settles the overdispersion suggested by the total number of trials, besides includes possible different covariances between total trial counts in different evaluation instants. In this new model, we introduce a parameter that links the total trials with the success probability, making it even more general. We obtain maximum likelihood estimators for the parameters using an Newton-Raphson algorithm. We consider another data from the same study to illustrate the proposal methodology. bivariate counts contagens bivariadas dados longitudinais efeitos aleatórios longitudinal data modelos de regressão overdispersion random effects regression models sobredispersão
14	Modelos de regressão beta-binomial/poisson para contagens bivariadas / Beta-binomial/Poisson regression models for repeated bivariate counts Lora, Mayra Ivanoff 01 April 2004 (has links) Propomos um modelo Beta-Binomial/Poisson para dados provenientes de um estudo com doentes de Parkinson, que consistiu em contar durante um minuto quantas tarefas foram realizadas e destas, quantas de maneira correta, antes e depois de um treinamento. O objetivo era verificar se o treinamento aumentava o número de tentativas e a porcentagem de acerto, o que destaca o aspecto bivariado do problema. Esse modelo considera tal aspecto, usa uma distribuição mais adequada a dados de contagem e ainda suporta a sobredispersão presente nos dados. Obtemos estimadores de máxima verossimilhança dos parâmetros utilizando um algoritmo de Newton-Raphson. Ilustramos a aplicação da metodologia desenvolvida aos dados do estudo. / We propose a Beta-Binomial/Poisson model to the data from a study with Parkinson disease patients, which consisted in counting for one minute how many trials were attempted and how many of them were successful, before and after a training period. The main goal was to check if training increased the number of trials and success probability, which emphasizes the bivariate aspect of the problem. This model takes this aspect into account, uses a distribution which is usually more adequate to count data and supports the overdispersion present in the data. We obtain the maximum likelihood estimators using a Newton-Raphson algorithm. For illustration, the methodology is applied to the data from study. bivariate counts contagens bivariadas dados longitudinais efeitos aleatórios longitudinal data modelos de regressão overdispersion random effects regression models sobredispersão
15	Modelos de regressão beta-binomial/poisson para contagens bivariadas / Beta-binomial/Poisson regression models for repeated bivariate counts Mayra Ivanoff Lora 01 April 2004 (has links) Propomos um modelo Beta-Binomial/Poisson para dados provenientes de um estudo com doentes de Parkinson, que consistiu em contar durante um minuto quantas tarefas foram realizadas e destas, quantas de maneira correta, antes e depois de um treinamento. O objetivo era verificar se o treinamento aumentava o número de tentativas e a porcentagem de acerto, o que destaca o aspecto bivariado do problema. Esse modelo considera tal aspecto, usa uma distribuição mais adequada a dados de contagem e ainda suporta a sobredispersão presente nos dados. Obtemos estimadores de máxima verossimilhança dos parâmetros utilizando um algoritmo de Newton-Raphson. Ilustramos a aplicação da metodologia desenvolvida aos dados do estudo. / We propose a Beta-Binomial/Poisson model to the data from a study with Parkinson disease patients, which consisted in counting for one minute how many trials were attempted and how many of them were successful, before and after a training period. The main goal was to check if training increased the number of trials and success probability, which emphasizes the bivariate aspect of the problem. This model takes this aspect into account, uses a distribution which is usually more adequate to count data and supports the overdispersion present in the data. We obtain the maximum likelihood estimators using a Newton-Raphson algorithm. For illustration, the methodology is applied to the data from study. contagens bivariadas dados longitudinais efeitos aleatórios modelos de regressão sobredispersão bivariate counts longitudinal data overdispersion random effects regression models
16	Modelos Beta-Binomial/Poisson-Gama para contagens bivariadas repetidas / Beta-binomial/gamma-Poisson regression models for repeated bivariate counts Mayra Ivanoff Lora 01 December 2008 (has links) Em Lora e Singer (Statistics in Medicine, 2008), propusemos um modelo Beta- Binomial/Poisson p-variado para análise dos dados provenientes de um estudo que consistiu em contar o número de tentativas e acertos de um exercício manual com duração de um minuto realizado por doentes de Parkinson, antes e depois de um treinamento. O objetivo era verificar se o treinamento aumentava o número de tentativas e a porcentagem de acerto, o que destaca o aspecto bivariado do problema. Esse modelo leva tais características em consideração, usa uma distribuição adequada para dados de contagem e ainda acomoda a sobredispersão presente na contagem dos acertos. Como generalização, inicialmente, propomos um modelo Beta-Binomial/Poisson-Gama que acomoda sobredispersão também para as contagens dos totais de tentativas, além incluir covariâncias possivelmente diferentes entre as contagens em diversos instantes de avaliação. Neste novo modelo, introduzimos um parâmetro que relaciona o total de tentativas com a probabilidade de acerto, tornando-o ainda mais geral. Obtemos estimadores de máxima verossimilhança dos parâmetros utilizando um algoritmo de Newton-Raphson. Consideramos um outro conjunto de dados provenientes do mesmo estudo para ilustração da metodologia proposta. / In Lora and Singer (Statistics in Medicine, 2008), we proposed a Beta-Binomial/Poisson p-variate model to analyze data from a study which consists in counting the number of trials and successes of a manual exercise in one minute periods, done by Parkinsons disease patients, before and after a training. The purpose was to verify if the training improves the number of trials and the percentage of success, which emphasizes the bivariate aspect of the problem. This model considers these characteristics, uses an adequate distribution to count data and settles the overdispersion suggested in the number os successes. As a generalization, initially, we propose a Beta-Binomial/Poisson-Gama model which also settles the overdispersion suggested by the total number of trials, besides includes possible different covariances between total trial counts in different evaluation instants. In this new model, we introduce a parameter that links the total trials with the success probability, making it even more general. We obtain maximum likelihood estimators for the parameters using an Newton-Raphson algorithm. We consider another data from the same study to illustrate the proposal methodology. contagens bivariadas dados longitudinais efeitos aleatórios modelos de regressão sobredispersão bivariate counts longitudinal data overdispersion random effects regression models
17	O problema da superdispersão em dados categorizados politômicos nominais em estudos agrários / The problem of overdispersion in categorized polymorphic data in agrarian studies Salvador, Maria Letícia 31 May 2019 (has links) Variáveis politômicas são comuns em experimentos agronômicos, apresentando natureza nominal ou ordinal. O modelo dos logitos generalizados é uma classe de modelos que pode ser empregada para a análise desses dados. Uma das características deste modelo é a pressuposição de que a variância é uma função conhecida da média e, espera-se, que a variância observada esteja próxima da variância pressuposta pelo modelo assumido. Contudo, quando ela é maior do que a especificada pelo modelo, tem-se o fenômeno da superdispersão. Nesse contexto, o presente trabalho objetivou caracterizar o problema da superdispersão associado a dados nominais em estudos \"cross-sectional\". Como motivação apresentam-se dois estudos adaptados da área de ciências agrárias relativos à fruticultura e zootecnia, ambos planejados no delineamento inteiramente casualizado. Verifica-se indicativo de superdispersão nos dados dos dois exemplos e como uma alternativa metodológica utilizou-se o modelo Dirichlet-multinomial. Por meio do gráfico de diagnóstico half-normal plot avaliou-se o ajuste do modelo dos logitos generalizados e do Dirichlet-multinomial. Adicionalmente, foi proposta uma extensão do índice de dispersão para os dados politômicos, com performance avaliada sob simulação. O modelo Dirichlet-multinomial mostrou-se adequado para o ajuste aos dados com superdispersão comparativamente ao modelo dos logitos generalizados. Apesar dos resultados satisfatórios obtidos, ressalta-se que este trabalho é uma introdução ao problema. / Polytomic variables are common in agronomic experiments, presenting nominal or ordinal nature. The generalized logits model is a class of models that can be used to analyze these facts. One of the characteristics of this model is the assumption that variance is a known function of the mean and. It is expected, that the analyzed variance is close to that assumed by the model. However, when it is larger than the one specified by the model, it has the phenomenon of overdipersion. In this context, the present work aims to characterize the problem of overdispersion associated with nominal data in cross-sectional studies. As motivation, it is showed two adapted studies of the agricultural sciences area, related to fruit growing and zootechnics, both planned in the completely randomized design. The Dirichlet-multinomial model was used as a methodological alternative and was indicated as an overdispersion in the facts of the two examples. The model of the generalized logits and the Dirichlet-multinomial model were evaluated using the half-normal plot. In addition, it was proposed an extension of the dispersion index for the polytomic data, with performance evaluated under simulation. The Dirichlet-multinomial model proved to be adequate for the adjustment to the overdispersed fact compared to the generalized logit model. Despite the satisfactory results obtained, it is emphasized that this work is an introduction to the problem. Dirichlet-multinomial Dirichlet-multinomial Índice de super-dispersão Máxima verossimilhança Maximum likelihood Overdispersion index Seleção de modelos Selection of models
18	Superdispersão em dados binomiais hierárquicos / Overdispersion in hierarchical binomial data Nati, Lilian 05 March 2008 (has links) Para analisar dados binários oriundos de uma estrutura hierárquica com dois níveis (por exemplo, aluno e escola), uma alternativa bastante utilizada é a suposição da distribuição binomial para as unidades experimentais do primeiro nível (aluno) condicionalmente a um efeito aleatório proveniente de uma distribuição normal para as unidades do segundo nível (escola). Neste trabalho, propõe-se a adição de um efeito aleatório normal no primeiro nível de um modelo linear generalizado hierárquico binomial para contemplar uma possível variabilidade extra-binomial decorrente da dependência entre os ensaios de Bernoulli de um mesmo indivíduo. Obtém-se o processo de estimação por máxima verossimilhança para este modelo a partir da verossimilhança marginal dos dados, após uma dupla aplicação do método de quadratura de Gauss-Hermite adaptativa como aproximação para as integrais dos efeitos aleatórios. Realiza-se um estudo de simulação para contrastar propriedades inferenciais do modelo aspirante com o modelo linear generalizado binomial, um modelo de quase-verossimilhança e o tradicional modelo linear generalizado hierárquico em dois níveis. / A common alternative when analyzing binary data originated from a two-level hierarchical structure (for instance, student and school) is to assume a binomial distribution for the experimental units of the first level (student) conditionally to a normal random effect for the second level units (school). In this work, we propose the inclusion of a second normal random effect in the first level to contemplate a possible extra-binomial variability due to the dependence among the Bernoulli trials in the same individual. We obtain the maximum likelihood estimation process for this hierarchical model starting from the marginal likelihood of the data, after a double application of the adaptive Gauss-Hermite quadrature as an approximation of the integrals of the random effects. We conduct a simulation study to compare the inferential properties of the advocated model with the generalized linear (binomial) model, a quasi-likelihood model and the usual two-level hierarchical generalized linear model. binomial data dados binomiais generalized linear mixed models hierarchical models modelos hierárquicos modelos lineares generalizados mistos modelos multiníveis multilevel models overdispersion superdispersão
19	Contributions to the analysis of dispersed count data / Contribuições à análise de dados de contagem Ribeiro Junior, Eduardo Elias 18 February 2019 (has links) In many agricultural and biological contexts, the response variable is a nonnegative integer value which we wish to explain or analyze in terms of a set of covariates. Unlike the Gaussian linear model, the response variable is discrete with a distribution that places probability mass at natural numbers only. The Poisson regression is the standard model for count data. However, assumptions of this model forces the equality between mean and variance, which may be implausible in many applications. Motivated by experimental data sets, this work intended to develop more realistic methods for the analysis of count data. We proposed a novel parametrization of the COM-Poisson distribution and explored the regression models based on it. We extended the model to allow the dispersion, as well as the mean, depending on covariates. A set of count statistical models, namely COM-Poisson, Gamma-count, discrete Weibull, generalized Poisson, double Poisson and Poisson-Tweedie, was reviewed and compared, considering the dispersion, zero-inflation, and heavy tail indexes, together with the results of data analyzes. The computational routines developed in this dissertation were organized in two R packages available on GitHub. / Em diversos estudos agrícolas e biológicos, a variável resposta é um número inteiro não negativo que desejamos explicar ou analisar em termos de um conjunto de covariáveis. Diferentemente do modelo linear Gaussiano, a variável resposta é discreta com distribuição de probabilidade definida apenas em valores do conjunto dos naturais. O modelo Poisson é o modelo padrão para dados em forma de contagens. No entanto, as suposições desse modelo forçam que a média seja igual a variância, o que pode ser implausível em muitas aplicações. Motivado por conjuntos de dados experimentais, este trabalho teve como objetivo desenvolver métodos mais realistas para a análise de contagens. Foi proposta uma nova reparametrização da distribuição COM-Poisson e explorados modelos de regressão baseados nessa distribuição. Uma extensão desse modelo para permitir que a dispersão, assim como a média, dependa de covariáveis, foi proposta. Um conjunto de modelos para contagens, nomeadamente COM-Poisson, Gamma-count, Weibull discreto, Poisson generalizado, duplo Poisson e Poisson-Tweedie, foi revisado e comparado, considerando os índices de dispersão, inflação de zero e cauda pesada, juntamente com os resultados de análises de dados. As rotinas computacionais desenvolvidas nesta dissertação foram organizadas em dois pacotes R disponíveis no GitHub. Count data Dados de contagens Discrete probability models Dispersão variável Inferência baseada em verossimilhança Likelihood-based inference Modelos probabilísticos discretos Overdispersion Subdispersão Superdipersão Underdispersion Varying dispersion
20	Superdispersão em dados binomiais hierárquicos / Overdispersion in hierarchical binomial data Lilian Nati 05 March 2008 (has links) Para analisar dados binários oriundos de uma estrutura hierárquica com dois níveis (por exemplo, aluno e escola), uma alternativa bastante utilizada é a suposição da distribuição binomial para as unidades experimentais do primeiro nível (aluno) condicionalmente a um efeito aleatório proveniente de uma distribuição normal para as unidades do segundo nível (escola). Neste trabalho, propõe-se a adição de um efeito aleatório normal no primeiro nível de um modelo linear generalizado hierárquico binomial para contemplar uma possível variabilidade extra-binomial decorrente da dependência entre os ensaios de Bernoulli de um mesmo indivíduo. Obtém-se o processo de estimação por máxima verossimilhança para este modelo a partir da verossimilhança marginal dos dados, após uma dupla aplicação do método de quadratura de Gauss-Hermite adaptativa como aproximação para as integrais dos efeitos aleatórios. Realiza-se um estudo de simulação para contrastar propriedades inferenciais do modelo aspirante com o modelo linear generalizado binomial, um modelo de quase-verossimilhança e o tradicional modelo linear generalizado hierárquico em dois níveis. / A common alternative when analyzing binary data originated from a two-level hierarchical structure (for instance, student and school) is to assume a binomial distribution for the experimental units of the first level (student) conditionally to a normal random effect for the second level units (school). In this work, we propose the inclusion of a second normal random effect in the first level to contemplate a possible extra-binomial variability due to the dependence among the Bernoulli trials in the same individual. We obtain the maximum likelihood estimation process for this hierarchical model starting from the marginal likelihood of the data, after a double application of the adaptive Gauss-Hermite quadrature as an approximation of the integrals of the random effects. We conduct a simulation study to compare the inferential properties of the advocated model with the generalized linear (binomial) model, a quasi-likelihood model and the usual two-level hierarchical generalized linear model. dados binomiais modelos hierárquicos modelos lineares generalizados mistos modelos multiníveis superdispersão binomial data generalized linear mixed models hierarchical models multilevel models overdispersion

Search results