101 |
Modelos de regressão beta inflacionados / Inflated beta regression modelsOspina Martinez, Raydonal 04 April 2008 (has links)
Nos últimos anos têm sido desenvolvidos modelos de regressão beta, que têm uma variedade de aplicações práticas como, por exemplo, a modelagem de taxas, razões ou proporções. No entanto, é comum que dados na forma de proporções apresentem zeros e/ou uns, o que não permite admitir que os dados provêm de uma distribuição contínua. Nesta tese, são propostas, distribuições de mistura entre uma distribuição beta e uma distribuição de Bernoulli, degenerada em zero e degenerada em um para modelar dados observados nos intervalos [0, 1], [0, 1) e (0, 1], respectivamente. As distribuições propostas são inflacionadas no sentido de que a massa de probabilidade em zero e/ou um excede o que é permitido pela distribuição beta. Propriedades dessas distribuições são estudadas, métodos de estimação por máxima verossimilhança e momentos condicionais são comparados. Aplicações a vários conjuntos de dados reais são examinadas. Desenvolvemos também modelos de regressão beta inflacionados assumindo que a distribuição da variável resposta é beta inflacionada. Estudamos estimação por máxima verossimilhança. Derivamos expressões em forma fechada para o vetor escore, a matriz de informação de Fisher e sua inversa. Discutimos estimação intervalar para diferentes quantidades populacionais (parâmetros de regressão, parâmetro de precisão) e testes de hipóteses assintóticos. Derivamos expressões para o viés de segunda ordem dos estimadores de máxima verossimilhança dos parâmetros, possibilitando a obtenção de estimadores corrigidos que são mais precisos que os não corrigidos em amostras finitas. Finalmente, desenvolvemos técnicas de diagnóstico para os modelos de regressão beta inflacionados, sendo adotado o método de influência local baseado na curvatura normal conforme. Ilustramos a teoria desenvolvida em um conjuntos de dados reais. / The last years have seen new developments in the theory of beta regression models, which are useful for modelling random variables that assume values in the standard unit interval such as proportions, rates and fractions. In many situations, the dependent variable contains zeros and/or ones. In such cases, continuous distributions are not suitable for modeling this kind of data. In this thesis we propose mixed continuous-discrete distributions to model data observed on the intervals [0, 1],[0, 1) and (0, 1]. The proposed distributions are inflated beta distributions in the sense that the probability mass at 0 and/or 1 exceeds what is expected for the beta distribution. Properties of the inflated beta distributions are given. Estimation based on maximum likelihood and conditional moments is discussed and compared. Empirical applications using real data set are provided. Further, we develop inflated beta regression models in which the underlying assumption is that the response follows an inflated beta law. Estimation is performed by maximum likelihood. We provide closed-form expressions for the score function, Fishers information matrix and its inverse. Interval estimation for different population quantities (such as regression parameters, precision parameter, mean response) is discussed and tests of hypotheses on the regression parameters can be performed using asymptotic tests. We also derive the second order biases of the maximum likelihood estimators and use them to define bias-adjusted estimators. The numerical results show that bias reduction can be effective in finite samples. We also develop a set of diagnostic techniques that can be employed to identify departures from the postulated model and influential observations. To that end, we adopt the local influence approach based in the conformal normal curvature. Finally, we consider empirical examples to illustrate the theory developed.
|
102 |
Modelos de regressão lineares mistos sob a classe de distribuições normal-potência / Linear mixed regression models under the power-normal class distributionsFalon, Roger Jesus Tovar 27 November 2017 (has links)
Neste trabalho são apresentadas algumas extensões dos modelos potência-alfa assumindo o contexto em que as observações estão censuradas ou limitadas. Inicialmente propomos um novo modelo assimétrico que estende os modelos t-assimétrico (Azzalini e Capitanio, 2003) e t-potência (Zhao e Kim, 2016) e inclui a distribuição t de Student como caso particular. Este novo modelo é capaz de ajustar dados com alto grau de assimetria e curtose, ainda maior do que os modelos t-assimétrico e t-potência. Em seguida estendemos o modelo t-potência às situações em que os dados apresentam censura, com alto grau de assimetria e caudas pesadas. Este modelo generaliza o modelo de regressão linear t de Student para dados censurados por Arellano-Valle et al. (2012). O trabalho também introduz o modelo linear misto normal-potência para dados assimétricos. Aqui a inferência estatística é realizada desde uma perspectiva clássica usando o método de máxima verossimilhança junto com o método de integração numérica de Gauss-Hermite para aproximar as integrais envolvidas na função de verossimilhança. Mais tarde, o modelo linear com interceptos aleatórios para dados duplamente censurados é estudado. Este modelo é desenvolvido sob a suposição de que os erros e os efeitos aleatórios seguem distribuições normal-potência e normal- assimétrica. Para todos os modelos estudados foram realizados estudos de simulação a fim de estudar as suas bondades de ajuste e limitações. Finalmente, ilustram-se todos os métodos propostos com dados reais. / In this work some extensions of the alpha-power models are presented, assuming the context in which the observations are censored or limited. Initially we propose a new asymmetric model that extends the skew-t (Azzalini e Capitanio, 2003) and power-t (Zhao e Kim, 2016) models and includes the Students t-distribution as a particular case. This new model is able to adjust data with a high degree of asymmetry and cursose, even higher than the skew-t and power-t models. Then we extend the power-t model to situations in which the data present censorship, with a high degree of asymmetry and heavy tails. This model generalizes the Students t linear censored regression model t by Arellano-Valle et al. (2012) The work also introduces the power-normal linear mixed model for asymmetric data. Here statistical inference is performed from a classical perspective using the maximum likelihood method together with the Gauss-Hermite numerical integration method to approximate the integrals involved in the likelihood function. Later, the linear model with random intercepts for doubly censored data is studied. This model is developed under the assumption that errors and random effects follow power-normal and skew-normal distributions. For all the models studied, simulation studies were carried out to study their benefits and limitations. Finally, all proposed methods with real data are illustrated.
|
103 |
Modelos de regressão beta com erro nas variáveis / Beta regression model with measurement errorCarrasco, Jalmar Manuel Farfan 25 May 2012 (has links)
Neste trabalho de tese propomos um modelo de regressão beta com erros de medida. Esta proposta é uma área inexplorada em modelos não lineares na presença de erros de medição. Abordamos metodologias de estimação, como máxima verossimilhança aproximada, máxima pseudo-verossimilhança aproximada e calibração da regressão. O método de máxima verossimilhança aproximada determina as estimativas maximizando diretamente o logaritmo da função de verossimilhança. O método de máxima pseudo-verossimilhança aproximada é utilizado quando a inferência em um determinado modelo envolve apenas alguns mas não todos os parâmetros. Nesse sentido, dizemos que o modelo apresenta parâmetros de interesse como também de perturbação. Quando substituímos a verdadeira covariável (variável não observada) por uma estimativa da esperança condicional da variável não observada dada a observada, o método é conhecido como calibração da regressão. Comparamos as metodologias de estimação mediante um estudo de simulação de Monte Carlo. Este estudo de simulação evidenciou que os métodos de máxima verossimilhança aproximada e máxima pseudo-verossimilhança aproximada tiveram melhor desempenho frente aos métodos de calibração da regressão e naïve (ingênuo). Utilizamos a linguagem de programação Ox (Doornik, 2011) como suporte computacional. Encontramos a distribuição assintótica dos estimadores, com o objetivo de calcular intervalos de confiança e testar hipóteses, tal como propõem Carroll et. al.(2006, Seção A.6.6), Guolo (2011) e Gong e Samaniego (1981). Ademais, são utilizadas as estatísticas da razão de verossimilhanças e gradiente para testar hipóteses. Num estudo de simulação realizado, avaliamos o desempenho dos testes da razão de verossimilhanças e gradiente. Desenvolvemos técnicas de diagnóstico para o modelo de regressão beta com erros de medida. Propomos o resíduo ponderado padronizado tal como definem Espinheira (2008) com o objetivo de verificar as suposições assumidas ao modelo e detectar pontos aberrantes. Medidas de influência global, tais como a distância de Cook generalizada e o afastamento da verossimilhança, são utilizadas para detectar pontos influentes. Além disso, utilizamos a técnica de influência local conformal sob três esquemas de perturbação (ponderação de casos, perturbação da variável resposta e perturbação da covariável com e sem erros de medida). Aplicamos nossos resultados a dois conjuntos de dados reais para exemplificar a teoria desenvolvida. Finalmente, apresentamos algumas conclusões e possíveis trabalhos futuros. / In this thesis, we propose a beta regression model with measurement error. Among nonlinear models with measurement error, such a model has not been studied extensively. Here, we discuss estimation methods such as maximum likelihood, pseudo-maximum likelihood, and regression calibration methods. The maximum likelihood method estimates parameters by directly maximizing the logarithm of the likelihood function. The pseudo-maximum likelihood method is used when the inference in a given model involves only some but not all parameters. Hence, we say that the model under study presents parameters of interest, as well as nuisance parameters. When we replace the true covariate (observed variable) with conditional estimates of the unobserved variable given the observed variable, the method is known as regression calibration. We compare the aforementioned estimation methods through a Monte Carlo simulation study. This simulation study shows that maximum likelihood and pseudo-maximum likelihood methods perform better than the calibration regression method and the naïve approach. We use the programming language Ox (Doornik, 2011) as a computational tool. We calculate the asymptotic distribution of estimators in order to calculate confidence intervals and test hypotheses, as proposed by Carroll et. al (2006, Section A.6.6), Guolo (2011) and Gong and Samaniego (1981). Moreover, we use the likelihood ratio and gradient statistics to test hypotheses. We carry out a simulation study to evaluate the performance of the likelihood ratio and gradient tests. We develop diagnostic tests for the beta regression model with measurement error. We propose weighted standardized residuals as defined by Espinheira (2008) to verify the assumptions made for the model and to detect outliers. The measures of global influence, such as the generalized Cook\'s distance and likelihood distance, are used to detect influential points. In addition, we use the conformal approach for evaluating local influence for three perturbation schemes: case-weight perturbation, respose variable perturbation, and perturbation in the covariate with and without measurement error. We apply our results to two sets of real data to illustrate the theory developed. Finally, we present our conclusions and possible future work.
|
104 |
Ajuste e seleção de modelos na descrição de comunidades arbóreas: estrutura, diversidade e padrões espaciais / Model fit and selection in the description of tree communities: structure, diversity and spatial patternsLima, Renato Augusto Ferreira de 15 August 2013 (has links)
A descrição de padrões, i.e., tendências ou arranjos não aleatórios em comunidades, possui um longo histórico em ecologia vegetal. Comumente, a estrutura e diversidade de comunidades vegetais são descritas a partir de sua distribuição em classes de tamanho (SDD), distribuição espacial (SSD) e de sua distribuição abundância de espécies (SAD). Isto porque há um pressuposto de que padrões existentes nestes descritores de comunidades são assinaturas de processos fundamentais na sua organização e funcionamento. Assim, a descrição de padrões é com frequência o primeiro passo para gerar ou testar hipóteses sobre esses processos que regulam a estrutura e diversidade de comunidades. Organizada em diferentes capítulos, esta tese teve como objetivo central descrever e comparar padrões em diferentes comunidades arbóreas Neotropicais, buscando gerar hipóteses sobre os processos que regulam sua organização e funcionamento. Para tanto, buscou-se utilizar uma abordagem de inferência baseada no ajuste e seleção de modelos, que foi realizado usando máxima verossimilhança estatística. Em todos os capítulos, os dados sobre as comunidades arbóreas são oriundos de diferentes parcelas florestais permanentes, quatro delas com 10,24 hectares, localizadas no Brasil, e outra com 50 hectares, localizada no Panamá. Além da introdução geral sobre os conceitos e técnicas utilizadas nesta tese (Capítulo 1), foram avaliados e comparados: (i) os descritores básicos da estrutura florestal (i.e. abundância, área basal e riqueza de espécies por sub-parcela - Capítulo 2); (ii) a SAD e como ela varia com o aumento da escala e tamanho amostral (Capítulo 3); (iii) a SDD e como ela se relaciona com a demografia das espécies (Capítulo 4.1 e 4.2); e, por fim, (iv) a SSD e como ela varia entre parcelas permanentes (Capítulo 5). Apenas a relação entre a SDD e a demografia das espécies foi realizada como os dados da parcela panamenha, enquanto que os demais capítulos se referem as quatro parcelas brasileiras. Cada capítulo utilizou métodos e modelos probabilísticos distintos para a descrição e comparação das variáveis de interesse. O Capítulo 2 mostrou que os descritores básicos florestais foram muito diferentes entre as quatro parcelas brasileiras. Estes descritores foram raramente normais nas escalas estudadas e as diferenças entre as parcelas foram mais evidentes quando a variância é considerada, fornecendo informações extras sobre os processos geradores de variabilidade dentro das parcelas. O Capítulo 3 mostrou que a mudança no formato da SAD com o aumento da escala é predominantemente um efeito indireto do tamanho da amostra. Assim, pode haver um efeito de escala, mas esse efeito é pequeno e parece depender do grau de similaridade de espécies entre amostras. No capítulo 4.1, foi necessária uma combinação de quatro diferentes distribuições de probabilidade para descrever a ampla gama de SDD, visto que os modelos candidatos raramente foram adequados para a maioria das espécies. No capítulo 4.2, verificou-se que o crescimento e recrutamento determinam o formato da SDD, o que não aconteceu com a mortalidade. No geral, curvas decrescentes de crescimento por diâmetro (i.e., maior crescimento juvenil) levaram à SDD menos íngremes, enquanto que taxas altas de recrutamento estiveram relacionadas à SDD mais íngremes. Apesar das previsões da teoria de equilíbrio demográfico terem apresentado relações positivas com as SDD observadas, houve muita variação, fazendo com que as previsões fossem pouco confiáveis. No capítulo 5, confirmou-se que a grande maioria das espécies se distribui de maneira agregada no espaço. No entanto, as parcelas apresentaram diferentes padrões de intensidade e tamanho de agregação. As diferenças nestes padrões entre parcelas foram, em geral, similares àquelas encontradas ao comparar populações de uma mesma espécie entre parcelas. Assim, as parcelas permanentes brasileiras apresentaram padrões bem distintos umas das outras, tanto em termos de estrutura quanto de diversidade de espécies, padrões estes que provavelmente foram determinados pelas condições ambientais as quais estas comunidades estão sujeitas. Diferentes padrões também foram encontrados em relação à distribuição espacial das espécies (i.e. frequência, intensidade e tamanho de agregação). Contudo, os resultados sugeriram que estes padrões estiveram mais ligados a heterogeneidade ambiental interna das parcelas do que com condições de clima e solo as quais estas comunidades estão sujeitas. Por outro lado, os padrões de distribuição espacial das espécies parecem ter influenciado os padrões de diversidade das comunidades. Não houve, entretanto, um número suficiente de parcelas sob as diferentes combinações de condições ambientais para testar estas sugestões ou para fazer generalizações para cada formação florestal, sendo necessário o confronto destas sugestões com outros estudos realizados em condições similares. Já na parcela panamenha, foi confirmada a expectativa teórica de que distribuições diamétricas refletem a demografia das espécies, em especial os padrões de crescimento e recrutamento. Mas, houve grande variação entre as espécies, dificultando a inferência precisa de padrões demográficos passados das espécies a partir de SDD atuais. Por fim, a abordagem analítica baseada no ajuste e seleção de modelos por máxima foi uma alternativa viável, flexível e apropriada, principalmente em relação à comparação simultânea de diferentes modelos e à busca de processos por trás dos padrões encontrados. Apesar de algumas limitações de cunho operacional, a abordagem baseado em modelos é uma alternativa adequada para a descrição de comunidades arbóreas, podendo ser utilizada de maneira consorciada com outras abordagens (e.g. testes de hipóteses) para descrever padrões e para gerar ou testar hipóteses sobre esses processos fundamentais que regulam a estrutura e diversidade destas comunidades. / Pattern description - search for trends or non-random arrangements in communities, has a long history in plant ecology. Commonly, the structure and diversity of plant communities are described based on their size class distribution (SDD), spatial distribution (SSD) and species abundance distribution (SAD). This is because there is an underlying assumption that the existing patterns in these community descriptors are signatures of key processes determining their organization and functioning. Thus, pattern description is often the first step to generate or test hypotheses about the processes governing community structure and diversity. Organized in different chapters, the main goal of this thesis was to describe and compare different patterns in Neotropical tree communities and to generate hypotheses about the processes that regulate them. To do so we used an approach based on model selection, which was performed using maximum likelihood. In all chapters the data on tree communities came from different permanent forest plots, four of them of 10.24 ha located in Brazil and another 50 ha located in Panama. In addition to the general introduction of key concepts and techniques used along the thesis (Chapter 1), it was evaluated and compared: (i) the basic forest descriptors (i.e. abundance, basal area and species richness per subplot - Chapter 2), (ii) the SAD and how it varies with increasing sample size and scale (Chapter 3), (iii) the SDD and how it relates to species demography (Chapter 4.1 and 4.2) and, finally, (iv) the SSD and how it varies between plots (Chapter 5). Only the relationship between SDD and species demography o was performed using the Panama plot data, while the remaining chapters relate the four Brazilian plots. Each chapter used different methods and probabilistic models for the description and comparison of the variables of interest. In Chapter 2, it was found that basic forest descriptors were very different between the four Brazilian plots. These descriptors were rarely normal at the studied scales and differences between plots were more evident when variance is accounted for, which seems to provide information on processes generating within-plot variability. Chapter 3 showed that the change in shape of the SAD due to increasing scale is predominantly an indirect effect of sample size. Thus, there may be an effect of the scale, but this effect is minor and seems to depend on the degree of species turnover between samples. In Chapter 4.1, it was shown that the combination of four different probability distributions was necessary to describe the wide range of SDD, since models were rarely appropriate for the majority of tree species. In Chapter 4.2, it was found that growth and recruitment, but not mortality, shape the SDD. On average, decreasing growth-diameter curves (i.e. higher juvenile growth) were associated to less steep SDD, whereas high recruitment rates were related to steeper SDD. Although the predictions of demographic equilibrium theory were positively related to the observed SDD, there was lots of variation, making predictions quite unreliable. In Chapter 5, it was confirmed that the great majority of species had clumped spatial distributions. However, the results of intensity and size of clumps showed that the patterns of aggregation were different among plots. Species shared between two plots generally showed patterns of spatial distribution that matched the patterns found for individual plots. Therefore, the Brazilian plots presented very distinct patterns, both in terms of structure and species diversity, which were most probably determined by the environmental conditions to which these communities are subjected. Different patterns among plots were also found in respect to species spatial distribution (i.e. frequency, intensity and size of aggregation). However, the results suggested that these patterns were more connected to within-plot environmental heterogeneity than with climate and soil conditions. On the other hand, the spatial distribution of the species seems to have influenced the patterns of diversity of communities. There was not, however, a sufficient number of plots under different combinations of environmental conditions to test these suggestions or to make generalizations for each forest type, being necessary to confront these suggestions with other studies conducted in similar conditions. In the Panamanian plot, it was confirmed the theoretical expectation that diameter distributions reflect the demographics of the species, in particular the patterns of growth and recruitment. But there was great variability among species, making it difficult to infer past demographic patterns from current SDD. Finally, the analytical approach based on model fit and selection by maximum likelihood was a viable, flexible and appropriate approach, particularly in respect to the simultaneous comparison of different models and to the search for mechanisms underlying patterns. Despite some more operational limitations, the model-based approach is an appropriate alternative for the description of tree communities and can be jointly used with other approaches (e.g. hypothesis testing) for pattern description and to generate and test hypotheses on the fundamental processes that determine the structure and diversity of these communities.
|
105 |
Estimação e teste de hipótese baseados em verossimilhanças perfiladas / "Point estimation and hypothesis test based on profile likelihoods"Silva, Michel Ferreira da 20 May 2005 (has links)
Tratar a função de verossimilhança perfilada como uma verossimilhança genuína pode levar a alguns problemas, como, por exemplo, inconsistência e ineficiência dos estimadores de máxima verossimilhança. Outro problema comum refere-se à aproximação usual da distribuição da estatística da razão de verossimilhanças pela distribuição qui-quadrado, que, dependendo da quantidade de parâmetros de perturbação, pode ser muito pobre. Desta forma, torna-se importante obter ajustes para tal função. Vários pesquisadores, incluindo Barndorff-Nielsen (1983,1994), Cox e Reid (1987,1992), McCullagh e Tibshirani (1990) e Stern (1997), propuseram modificações à função de verossimilhança perfilada. Tais ajustes consistem na incorporação de um termo à verossimilhança perfilada anteriormente à estimação e têm o efeito de diminuir os vieses da função escore e da informação. Este trabalho faz uma revisão desses ajustes e das aproximações para o ajuste de Barndorff-Nielsen (1983,1994) descritas em Severini (2000a). São apresentadas suas derivações, bem como suas propriedades. Para ilustrar suas aplicações, são derivados tais ajustes no contexto da família exponencial biparamétrica. Resultados de simulações de Monte Carlo são apresentados a fim de avaliar os desempenhos dos estimadores de máxima verossimilhança e dos testes da razão de verossimilhanças baseados em tais funções. Também são apresentadas aplicações dessas funções de verossimilhança em modelos não pertencentes à família exponencial biparamétrica, mais precisamente, na família de distribuições GA0(alfa,gama,L), usada para modelar dados de imagens de radar, e no modelo de Weibull, muito usado em aplicações da área da engenharia denominada confiabilidade, considerando dados completos e censurados. Aqui também foram obtidos resultados numéricos a fim de avaliar a qualidade dos ajustes sobre a verossimilhança perfilada, analogamente às simulações realizadas para a família exponencial biparamétrica. Vale mencionar que, no caso da família de distribuições GA0(alfa,gama,L), foi avaliada a aproximação da distribuição da estatística da razão de verossimilhanças sinalizada pela distribuição normal padrão. Além disso, no caso do modelo de Weibull, vale destacar que foram derivados resultados distribucionais relativos aos estimadores de máxima verossimilhança e às estatísticas da razão de verossimilhanças para dados completos e censurados, apresentados em apêndice. / The profile likelihood function is not genuine likelihood function, and profile maximum likelihood estimators are typically inefficient and inconsistent. Additionally, the null distribution of the likelihood ratio test statistic can be poorly approximated by the asymptotic chi-squared distribution in finite samples when there are nuisance parameters. It is thus important to obtain adjustments to the likelihood function. Several authors, including Barndorff-Nielsen (1983,1994), Cox and Reid (1987,1992), McCullagh and Tibshirani (1990) and Stern (1997), have proposed modifications to the profile likelihood function. They are defined in a such a way to reduce the score and information biases. In this dissertation, we review several profile likelihood adjustments and also approximations to the adjustments proposed by Barndorff-Nielsen (1983,1994), also described in Severini (2000a). We present derivations and the main properties of the different adjustments. We also obtain adjustments for likelihood-based inference in the two-parameter exponential family. Numerical results on estimation and testing are provided. We also consider models that do not belong to the two-parameter exponential family: the GA0(alfa,gama,L) family, which is commonly used to model image radar data, and the Weibull model, which is useful for reliability studies, the latter under both noncensored and censored data. Again, extensive numerical results are provided. It is noteworthy that, in the context of the GA0(alfa,gama,L) model, we have evaluated the approximation of the null distribution of the signalized likelihood ratio statistic by the standard normal distribution. Additionally, we have obtained distributional results for the Weibull case concerning the maximum likelihood estimators and the likelihood ratio statistic both for noncensored and censored data.
|
106 |
Métodos de estimação de parâmetros em modelos geoestatísticos com diferentes estruturas de covariâncias: uma aplicação ao teor de cálcio no solo. / Parameter estimation methods in geostatistic models with different covariance structures: an application to the calcium content in the soil.Oliveira, Maria Cristina Neves de 17 March 2003 (has links)
A compreensão da dependência espacial das propriedades do solo vem sendo cada vez mais requerida por pesquisadores que objetivam melhorar a interpretação dos resultados de experimentos de campo fornecendo, assim, subsídios para novas pesquisas a custos reduzidos. Em geral, variáveis como, por exemplo, o teor de cálcio no solo, estudado neste trabalho, apresentam grande variabilidade impossibilitando, na maioria das vezes, a detecção de reais diferenças estatísticas entre os efeitos de tratamentos. A consideração de amostras georreferenciadas é uma abordagem importante na análise de dados desta natureza, uma vez que amostras mais próximas são mais similares do que as mais distantes e, assim, cada realização desta variável contém informação de sua vizinhança. Neste trabalho, métodos geoestatísticos que baseiam-se na modelagem da dependência espacial, nas pressuposições Gaussianas e nos estimadores de máxima verossimilhança são utilizados para analisar e interpretar a variabilidade do teor de cálcio no solo, resultado de um experimento realizado na Fazenda Angra localizada no Estado do Rio de Janeiro. A área experimental foi dividida em três regiões em função dos diferentes períodos de adubação realizadas. Neste estudo foram utilizados dados do teor de cálcio obtidos das camadas 0-20cm e 20-40cm do solo, de acordo com as coordenadas norte e leste. Modelos lineares mistos, apropriados para estudar dados com esta característica, e que permitem a utilização de diferentes estruturas de covariâncias e a incorporação da região e tendência linear das coordenadas foram usados. As estruturas de covariâncias utilizadas foram: a exponencial e a Matérn. Para estimar e avaliar a variabilidade dos parâmetros utilizaram-se os métodos de máxima verossimilhança, máxima verossimilhança restrita e o perfil de verossimilhança. A identificação da dependência e a predição foram realizadas por meio de variogramas e mapas de krigagem. Além disso, a seleção do modelo adequado foi feita pelo critério de informação de Akaike e o teste da razão de verossimilhanças. Observou-se, quando utilizado o método de máxima verossimilhança, o melhor modelo foi aquele com a covariável região e, com o método de máxima verossimilhança restrita, o modelo com a covariável região e tendência linear nas coordenadas (modelo 2). Com o teor de cálcio, na camada 0-20cm e considerando-se a estrutura de covariância exponencial foram obtidas as menores variâncias nugget e a maior variância espacial (sill - nugget). Com o método de máxima verossimilhança e com o modelo 2 foram observadas variâncias de predição mais precisas. Por meio do perfil de verossimilhança pode-se observar menor variabilidade dos parâmetros dos variogramas ajustados com o modelo 2. Utilizando-se vários modelos e estruturas de covariâncias, deve-se ser criterioso, pois a precisão das estimativas, depende do tamanho da amostra e da especificação do modelo para a média. Os resultados obtidos foram analisados, com a subrotina geoR desenvolvida por Ribeiro Junior & Diggle (2000), e por meio dela pode-se obter estimativas confiáveis para os parâmetros dos diferentes modelos estimados. / The understanding of the spatial dependence of the properties of the soil becomes more and more required by researchers that attempt to improve the interpretation of the results of field experiments supplying subsidies for new researches at reduced costs. In general, variables as, for example, the calcium content in the soil, studied in this work, present great variability disabling, most of the time, the detection of real statistical differences among the treatment effects. The consideration of georeferenced samples is an important approach in the analysis of data of this nature, because closer samples are more similar than the most distant ones and, thus, each realization of this variable contains information of its neighborhood. In this work, geostatistics methods that are based on the modeling of the spatial dependence, under the Gaussian assumptions and the maximum likelihood estimators, are used to analyze and to interpret the variability of calcium content in the soil, obtained from an experiment carried on at Fazenda Angra, located in Rio de Janeiro, Brazil. The experimental area was divided in three areas depending on the different periods of fertilization. In this study, data of the calcium soil content from the layers 0-20cm and 20-40cm, were used, according to the north and east coordinates. Mixed linear models, ideal to study data with this characteristic, and that allow the use of different covariance structures, and the incorporation of the region and linear tendency of the coordinates, were used. The covariance structures were: the exponential and the Matérn. Maximum likelihood, maximum restricted likelihood and the profile of likelihood methods were used to estimate and to evaluate the variability of the parameters. The identification of the dependence and the prediction were realized using variograms and krigging maps. Besides, the selection of the appropriate model was made through the Akaike information criterion and the likelihood ratio test. It was observed that when maximum likelihood method was used the most appropriate model was that with the region covariate and, with the maximum restricted likelihood method, the best model was the one with the region covariate and linear tendency in the coordinates (model 2). With the calcium content, in the layer 0-20cm and considering the exponential covariance structure, the smallest nugget variances and the largest spatial variance (sill - nugget) were obtained. With the maximum likelihood method and with the model 2 more precise prediction variances were observed. Through the profile of likelihood method, smaller variability of the adjusted variogram parameters can be observed with the model 2. With several models and covariance structures being used, one should be very critical, because the precision of the estimates depends on the size of the sample and on the specification of the model for the average. The obtained results were analyzed, with the subroutine geoR developed by Ribeiro Junior & Diggle (2000), and through this subroutine, reliable estimates for the parameters of the different estimated models can be obtained.
|
107 |
Refinamentos assintóticos em modelos lineares generalizados heteroscedáticos / Asymptotic refinements in heteroskedastic generalized linear modelsBarros, Fabiana Uchôa 07 March 2017 (has links)
Nesta tese, desenvolvemos refinamentos assintóticos em modelos lineares generalizados heteroscedásticos (Smyth, 1989). Inicialmente, obtemos a matriz de covariâncias de segunda ordem dos estimadores de máxima verossimilhança corrigidos pelos viés de primeira ordem. Com base na matriz obtida, sugerimos modificações na estatística de Wald. Posteriormente, derivamos os coeficientes do fator de correção tipo-Bartlett para a estatística do teste gradiente. Em seguida, obtemos o coeficiente de assimetria assintótico da distribuição dos estimadores de máxima verossimilhança dos parâmetros do modelo. Finalmente, exibimos o coeficiente de curtose assintótico da distribuição dos estimadores de máxima verossimilhança dos parâmetros do modelo. Analisamos os resultados obtidos através de estudos de simulação de Monte Carlo. / In this thesis, we have developed asymptotic refinements in heteroskedastic generalized linear models (Smyth, 1989). Initially, we obtain the second-order covariance matrix for the maximum likelihood estimators corrected by the bias of first-order. Based on the obtained matrix, we suggest changes in Wald statistics. In addition, we derive the coeficients of the Bartlett-type correction factor for the statistical gradient test. After, we get asymptotic skewness of the distribution of the maximum likelihood estimators of the model parameters. Finally, we show the asymptotic kurtosis coeficient of the distribution of the maximum likelihood estimators of the model parameters. Monte Carlo simulation studies are developed to evaluate the results obtained.
|
108 |
Aperfeiçoamento de métodos estatísticos em modelos de regressão da família exponencial / Further statistical methods in regression models of the exponential familyCavalcanti, Alexsandro Bezerra 03 August 2009 (has links)
Neste trabalho, desenvolvemos três tópicos relacionados a modelos de regressão da família exponencial. No primeiro tópico, obtivemos a matriz de covariância assintótica de ordem $n^$, onde $n$ é o tamanho da amostra, dos estimadores de máxima verossimilhança corrigidos pelo viés de ordem $n^$ em modelos lineares generalizados, considerando o parâmetro de precisão conhecido. No segundo tópico calculamos o coeficiente de assimetria assintótico de ordem n^{-1/2} para a distribuição dos estimadores de máxima verossimilhança dos parâmetros que modelam a média e dos parâmetros de precisão e dispersão em modelos não-lineares da família exponencial, considerando o parâmetro de dispersão desconhecido, porém o mesmo para todas as observações. Finalmente, obtivemos fatores de correção tipo-Bartlett para o teste escore em modelos não-lineares da família exponencial, considerando covariáveis para modelar o parâmetro de dispersão. Avaliamos os resultados obtidos nos três tópicos desenvolvidos por meio de estudos de simulação de Monte Carlo / In this work, we develop three topics related to the exponential family nonlinear regression. First, we obtain the asymptotic covariance matrix of order $n^$, where $n$ is the sample size, for the maximum likelihood estimators corrected by the bias of order $n^$ in generalized linear models, considering the precision parameter known. Second, we calculate an asymptotic formula of order $n^{-1/2}$ for the skewness of the distribution of the maximum likelihood estimators of the mean parameters and of the precision and dispersion parameters in exponential family nonlinear models considering that the dispersion parameter is the same although unknown for all observations. Finally, we obtain Bartlett-type correction factors for the score test in exponential family nonlinear models assuming that the precision parameter is modelled by covariates. Monte Carlo simulation studies are developed to evaluate the results obtained in the three topics.
|
109 |
Refinamentos assintóticos em modelos lineares generalizados heteroscedáticos / Asymptotic refinements in heteroskedastic generalized linear modelsFabiana Uchôa Barros 07 March 2017 (has links)
Nesta tese, desenvolvemos refinamentos assintóticos em modelos lineares generalizados heteroscedásticos (Smyth, 1989). Inicialmente, obtemos a matriz de covariâncias de segunda ordem dos estimadores de máxima verossimilhança corrigidos pelos viés de primeira ordem. Com base na matriz obtida, sugerimos modificações na estatística de Wald. Posteriormente, derivamos os coeficientes do fator de correção tipo-Bartlett para a estatística do teste gradiente. Em seguida, obtemos o coeficiente de assimetria assintótico da distribuição dos estimadores de máxima verossimilhança dos parâmetros do modelo. Finalmente, exibimos o coeficiente de curtose assintótico da distribuição dos estimadores de máxima verossimilhança dos parâmetros do modelo. Analisamos os resultados obtidos através de estudos de simulação de Monte Carlo. / In this thesis, we have developed asymptotic refinements in heteroskedastic generalized linear models (Smyth, 1989). Initially, we obtain the second-order covariance matrix for the maximum likelihood estimators corrected by the bias of first-order. Based on the obtained matrix, we suggest changes in Wald statistics. In addition, we derive the coeficients of the Bartlett-type correction factor for the statistical gradient test. After, we get asymptotic skewness of the distribution of the maximum likelihood estimators of the model parameters. Finally, we show the asymptotic kurtosis coeficient of the distribution of the maximum likelihood estimators of the model parameters. Monte Carlo simulation studies are developed to evaluate the results obtained.
|
110 |
Modelos de regressão beta inflacionados truncados / The truncated inflated beta regressionGustavo Henrique de Araujo Pereira 24 May 2012 (has links)
Os modelos de regressão beta e beta inflacionados conseguem ajustar adequadamente grande parte das variáveis do tipo proporção. No entanto, esses modelos não são úteis quando a variável resposta não pode assumir valores no intervalo (0,c) e assume o valor c com probabilidade positiva. Variáveis relacionadas a algum tipo de pagamento limitado entre dois valores, quando estudadas em relação ao seu valor máximo, possuem essas características. Para ajustar essas variáveis, introduzimos a distribuição beta inflacionada truncada (BIZUT), que é uma mistura de uma distribuição beta com suporte no intervalo (c,1) e uma distribuição trinomial que assume os valores zero, um e c. Propomos ainda um modelo de regressão para as situações em que a variável resposta tem distribuição BIZUT. Admitimos que todos os parâmetros da distribuição podem variar em função de variáveis preditoras. Além disso, o modelo permite que o parâmetro conhecido c varie entre as unidades populacionais. Para esse modelo são desenvolvidos diversos aspectos inferenciais, são obtidos resultados para as situações em que c é variável e são conduzidos estudos de simulação de Monte Carlo. Além disso, discutimos análise de resíduos, desenvolvemos análise de influência local e realizamos uma aplicação a dados reais de cartão de crédito. / The beta regression model or the inflated beta regression model may be a reasonable choice to fit a proportion in most situations. However, they do not fit well variables that do not assume values in the open interval (0,c), 0 < c < 1 and assume the c value with positive probability. Variables related to a kind of double bounded payment amount when studied as a proportion of the maximum payment amount have this feature. For these variables, we introduce the truncated inflated beta distribution (TBEINF). This proposed distribution is a mixture of the beta distribution bounded in the open interval (c,1) and a trinomial distribution that assumes the values zero, one and c. This work also proposes a regression model where the response variable is TBEINF distributed. The model allows all the unknown parameters of the conditional distribution of the response variable to be modeled as functions of explanatory variables. Moreover, the model allows nonconstant known parameter c across population units. For this model, some inferential aspects are developed, some results when c is not constant are obtained and Monte Carlo simulation studies are performed. In addition, residual and local influence analysis are discussed and an application to credit card data is presented.
|
Page generated in 0.094 seconds