• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 251
  • 14
  • 10
  • 1
  • Tagged with
  • 279
  • 195
  • 138
  • 103
  • 76
  • 63
  • 61
  • 59
  • 56
  • 54
  • 51
  • 51
  • 47
  • 42
  • 38
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
261

Uma abordagem estatística para o modelo do preço spot da energia elétrica no submercado sudeste/centro-oeste brasileiro / A statistical approach to model the spot price of electric energy: evidende from brazilian southeas/middle-west subsystem.

Guilherme Matiussi Ramalho 20 March 2014 (has links)
O objetivo deste trabalho e o desenvolvimento de uma ferramenta estatistica que sirva de base para o estudo do preco spot da energia eletrica do subsistema Sudeste/Centro-Oeste do Sistema Interligado Nacional, utilizando a estimacao por regressao linear e teste de razao de verossimilhanca como instrumentos para desenvolvimento e avaliacao dos modelos. Na analise dos resultados estatsticos descritivos dos modelos, diferentemente do que e observado na literatura, a primeira conclusao e a verificacao de que as variaveis sazonais, quando analisadas isoladamente, apresentam resultados pouco aderentes ao preco spot PLD. Apos a analise da componente sazonal e verificada a influencia da energia fornecida e a energia demandada como variaveis de entrada, com o qual conclui-se que especificamente a energia armazenada e producao de energia termeletrica sao as variaveis que mais influenciam os precos spot no subsistema estudado. Entre os modelos testados, o que particularmente ofereceu os melhores resultados foi um modelo misto criado a partir da escolha das melhores variaveis de entrada dos modelos testados preliminarmente, alcancando um coeficiente de determinacao R2 de 0.825, resultado esse que pode ser considerado aderente ao preco spot. No ultimo capitulo e apresentada uma introducao ao modelo de predicao do preco spot, possibilitando dessa forma a analise do comportamento do preco a partir da alteracao das variaveis de entrada. / The objective of this work is the development of a statistical method to study the spot prices of the electrical energy of the Southeast/Middle-West (SE-CO) subsystem of the The Brazilian National Connected System, using the Least Squares Estimation and Likelihood Ratio Test as tools to perform and evaluate the models. Verifying the descriptive statistical results of the models, differently from what is observed in the literature, the first observation is that the seasonal component, when analyzed alone, presented results loosely adherent to the spot price PLD. It is then evaluated the influence of the energy supply and the energy demand as input variables, verifying that specifically the stored water and the thermoelectric power production are the variables that the most influence the spot prices in the studied subsystem. Among the models, the one that offered the best result was a mixed model created from the selection of the best input variables of the preliminarily tested models, achieving a coeficient of determination R2 of 0.825, a result that can be considered adherent to the spot price. At the last part of the work It is presented an introduction to the spot price prediction model, allowing the analysis of the price behavior by the changing of the input variables.
262

Aperfeiçoamento de métodos estatísticos em modelos de regressão da família exponencial / Further statistical methods in regression models of the exponential family

Alexsandro Bezerra Cavalcanti 03 August 2009 (has links)
Neste trabalho, desenvolvemos três tópicos relacionados a modelos de regressão da família exponencial. No primeiro tópico, obtivemos a matriz de covariância assintótica de ordem $n^$, onde $n$ é o tamanho da amostra, dos estimadores de máxima verossimilhança corrigidos pelo viés de ordem $n^$ em modelos lineares generalizados, considerando o parâmetro de precisão conhecido. No segundo tópico calculamos o coeficiente de assimetria assintótico de ordem n^{-1/2} para a distribuição dos estimadores de máxima verossimilhança dos parâmetros que modelam a média e dos parâmetros de precisão e dispersão em modelos não-lineares da família exponencial, considerando o parâmetro de dispersão desconhecido, porém o mesmo para todas as observações. Finalmente, obtivemos fatores de correção tipo-Bartlett para o teste escore em modelos não-lineares da família exponencial, considerando covariáveis para modelar o parâmetro de dispersão. Avaliamos os resultados obtidos nos três tópicos desenvolvidos por meio de estudos de simulação de Monte Carlo / In this work, we develop three topics related to the exponential family nonlinear regression. First, we obtain the asymptotic covariance matrix of order $n^$, where $n$ is the sample size, for the maximum likelihood estimators corrected by the bias of order $n^$ in generalized linear models, considering the precision parameter known. Second, we calculate an asymptotic formula of order $n^{-1/2}$ for the skewness of the distribution of the maximum likelihood estimators of the mean parameters and of the precision and dispersion parameters in exponential family nonlinear models considering that the dispersion parameter is the same although unknown for all observations. Finally, we obtain Bartlett-type correction factors for the score test in exponential family nonlinear models assuming that the precision parameter is modelled by covariates. Monte Carlo simulation studies are developed to evaluate the results obtained in the three topics.
263

Modelagem simultânea de média e dispersão e aplicações na pesquisa agronômica / Joint modeling of mean and dispersion and applications to agricultural research

Afrânio Márcio Corrêa Vieira 10 February 2009 (has links)
Diversos delineamentos experimentais que são aplicados correntemente tomam como base experimentos agronômicos. Esses dados experimentais são, geralmente, analisados usando-se modelos que consideram uma variância residual constante (ou homogênea), como pressuposto inicial. Entretanto, esta pressuposição mostra-se relativamente forte quando se está diante de situações para as quais fatores ambientais ou externos exercem considerável influência nas medidas experimentais. Neste trabalho, são estudados modelos para a média e a variância, simultaneamente, com a variância estruturada de duas formas: (i) por meio de um preditor linear, que permite incorporar variáveis externas e fatores de ruído e (ii) por meio de efeitos aleatórios, que permitem acomodar tanto o efeito longitudinal quanto o efeito de superdispersão, no caso de medidas binárias repetidas no tempo. A classe de modelos lineares generalizados duplos (MLGD) foi aplicada a um estudo observacional que consistiu em medir a mortalidade de frangos de corte no fim da condição de espera pré-abate. Nesse problema, é forte a evidência de que alguns fatores influenciam a variabilidade, e consequentemente, diminuem a precisão das análises inferenciais. Outro problema agronômico relevante, associado à horticultura, são os experimentos de cultura de tecidos vegetais, em que o número de explantes que regeneram são contados. Como esse tipo de experimento apresenta um grande número de parâmetros a serem estimados, comparado ao tamanho da amostra, os modelos existente podem gerar estimativas questionáveis ou até levar a conclusões erroneas, uma vez esse que são baseados em grandes amostras para se fazer inferência estatística. Foi proposto um modelo linear generalizados duplo, para os dados de proporções, de uma perspectiva Bayesiana, visando a análise estatística sob pequenas amostras e a incorporação do conhecimento especialista no processo de estimação dos parâmetros. Um problema clínico, que envolve dados binários medidos repetidamente no tempo é apresentado e são propostos dois modelos que acomodam o efeito da superdispersão e a dependência longitudinal das medidas, utilizandos-se efeitos aleatórios. Foram obtidos resultados satisfatórios nos três problemas estudados. Os MLGD permitiram identificar os fatores associados à mortalidade das aves de corte, o que permitirá minimizar perdas e habilitar os processos de manejo, transporte e abate aos critérios de bem-estar animal e exigências da comunidade européia. O MLGD Bayesiano permitiu identificar o genótipo associado ao efeito de superdispersão, aumentando a precisão da inferência de seleção de variedades. Dois modelos combinados foram propostos logit-normal-Bernoulli-beta e o probit-normal-Bernoulli-beta, que acomodaram satisfatoriamente a superdispersão e a dependência longitudinal das medidas binárias. Esses resultados reforçam a importância de se modelar a média e a variância conjuntamente, o que aumenta a precisão na pesquisa agronômica, tanto em estudos experimentais quanto em estudos observacionais. / Several experimental designs that are currently applied are based on agricultural experiments. These experimental data are, usually, analised with statistical models that assume constant residual variance (or homogeneous), as basic assumption. However, this assumption shows hard to stand for, when environmental or external factors exert strong influence over the measurements. In this work, we study the joint modelling for the mean and the variance, the latter being structured on two ways: (i) through a linear predictor, which allows the incorporation of external variables and/or noise factors and (ii) by the use of random effects, that accommodate jointly the possible overdispersion effect and the dependence of longitudinal data in the case of binary measusurements taken over time. The class of double generalized linear models (DGLM) was applied to an observational study where the poultry mortality was measured in the preslaughter operations. With this situation, it can be observed that there is a strong influence from some environmental factors over the variability observed, and consequently, this reduces the precision of the inferential analysis. Another relevant agricultural problem, related to horticulture, is the tissue culture experiments, where the number of regenerated explants is counted. Usually, this kind of experiment use a large number of parameters to be estimated, when compared with the sample size. The current frequentist models are based on large samples for statistical inference and, under this experimental condition, can generate unreliable estimates or even lead to erroneous conclusions. A double generalized linear model was proposed to analyse proportion data, under the Bayesian perspective, which can be applied to small samples and can incorporate expert knowledge into the parameter estimation process. One clinical research, that measured binary data repeatedly through the time is presented and two models are proposed to fit the overdispersion effect and the dependence of longitudinal measurements, using random effects. It was obtained satisfactory results under these three problems studied. the DGLM allowed to identify factors associated with the poultry mortality, that will allow to minimize loss and improve the process, since the catching until lairage on slaughterhouse, agreeing with animal welfare criteria and the European community rules. The Bayesian DGLM allowed to identify the genotype associated with the overdispersion effect, increasing the precision on the inference about varieties selection. Two combined models were proposed, a logit-normal- Bernoulli-beta and a probit-normal-Bernoulli-beta, which have both addressed the overdispersion effect and the longitudinal dependence of the binary measurements. These results reinforce the importance to modelling mean and dispersion jointly, as a way to increase the precision of agricultural experimentation, be it on experimental studies or observational studies.
264

Modelos de regressão quando a função de taxa de falha não é monótona e o modelo probabilístico beta Weibull modificada / Regression models when the failure rate function is no monotone and the new beta modified Weibull model

Giovana Oliveira Silva 05 February 2009 (has links)
Em aplicações na área de análise de sobrevivência, é freqüente a ocorrência de função de taxa de falha em forma de U ou unimodal, isto e, funções não-monótonas. Os modelos de regressão comumente usados para dados de sobrevivência são log-Weibull, função de taxa de falha monótona, e log-logística, função de taxa de falha decrescente ou unimodal. Um dos objetivos deste trabalho e propor os modelos de regressão, em forma de locação e escala, log-Weibull estendida que apresenta função de taxa de falha em forma de U e log- Burr XII que tem como caso particular o modelo de regressão log-logística. Considerando dados censurados, foram utilizados três métodos para estimação dos parâmetros, a saber, máxima verossimilhança, bayesiana e jackkinife. Para esses modelos foram calculadas algumas medidas de diagnósticos de influência local e global. Adicionalmente, desenvolveu-se uma análise de resíduos baseada no resíduo tipo martingale. Para diferentes parâmetros taxados, tamanhos de amostra e porcentagens de censuras, várias simulações foram feitas para avaliar a distribuição empírica do resíduo tipo martingale e compará-la com a distribuição normal padrão. Esses estudos sugerem que a distribuição empírica do resíduo tipo martingale para o modelo de regressão log-Weibull estendida com dados censurados aproxima-se de uma distribuição normal padrão quando comparados com outros resíduos considerados neste estudo. Para o modelo de regressão log-Burr XII, foi proposta uma modificação no resíduo tipo martingale baseada no estudo de simulação para obter concordância com a distribuição normal padrão. Conjuntos de dados reais foram utilizados para ilustrar a metodologia desenvolvida. Também pode ocorrer que em algumas aplicações a suposição de independência dos tempos de sobrevivência não é válida. Assim, outro objetivo deste trabalho é introduzir um modelo de regressão log-Burr XII com efeito aleatório para o qual foi proposto um método de estimação para os parâmetros baseado no algoritmo EM por Monte Carlo. Por fim, foi desenvolvido um novo modelo probabilístico denominado de beta Weibull modificado que apresenta cinco parâmetros. A vantagem desse novo modelo é a flexibilidade em acomodar várias formas da função de taxa de falha, por exemplo, U e unimodal, e mostrou-se útil na discriminação entre alguns modelos probabilísticos alternativos. O método de máxima verossimilhança e proposto para estimar os parâmetros desta distribuição. A matriz de informação observada foi calculada. Um conjunto de dados reais é usado para ilustrar a aplicação da nova distribuição / In survival analysis applications, the failure rate function may have frequently unimodal or bathtub shape, that is, non-monotone functions. The regression models commonly used for survival studies are log-Weibull, monotone failure rate function shape, and log-logistic, decreased or unimodal failure rate function shape. In the first part of this thesis, we propose location-scale regression models based on an extended Weibull distribution for modeling data with bathtub-shaped failure rate function and on a Burr XII distribution as an alternative to the log-logistic regression model. Assuming censored data, we consider a classical analysis, a Bayesian analysis and a jackknife estimator for the parameters of the proposed models. For these models, we derived the appropriate matrices for assessing the local influence on the parameter estimates under diferent perturbation schemes, and we also presented some ways to perform global influence. Additionally, we developed residual analy- sis based on the martingale-type residual. For di®erent parameter settings, sample sizes and censoring percentages, various simulation studies were performed and the empirical distribution of the martingale-type residual was displayed and compared with the standard normal distribution. These studies suggest that the empirical distribution of the martingale-type residual for the log-extended Weibull regression model with data censured present a high agreement with the standard normal distribution when compared with other residuals considered in these studies. For the log-Burr XII regression model, it was proposed a change in the martingale-type residual based on some studies of simulation in order to obtain an agreement with the standard normal distribution. Some applications to real data illustrate the usefulness of the methodology developed. It can also happen in some applications that the assumption of independence of the times of survival is not valid, so it was added to the log-Burr XII regression model of random exects for which an estimate method was proposed for the parameters based on the EM algorithm for Monte Carlo simulation. Finally, a five- parameter distribution so called the beta modified Weibull distribution is defined and studied. The advantage of that new distribution is its flexibility in accommodating several forms of the failure rate function, for instance, bathtub-shaped and unimodal shape, and it is also suitable for testing goodness-of-fit of some special sub-models. The method of maximum likelihood is used for estimating the model parameters. We calculate the observed information matrix. A real data set is used to illustrate the application of the new distribution.
265

Métodos de estimação de parâmetros em modelos geoestatísticos com diferentes estruturas de covariâncias: uma aplicação ao teor de cálcio no solo. / Parameter estimation methods in geostatistic models with different covariance structures: an application to the calcium content in the soil.

Maria Cristina Neves de Oliveira 17 March 2003 (has links)
A compreensão da dependência espacial das propriedades do solo vem sendo cada vez mais requerida por pesquisadores que objetivam melhorar a interpretação dos resultados de experimentos de campo fornecendo, assim, subsídios para novas pesquisas a custos reduzidos. Em geral, variáveis como, por exemplo, o teor de cálcio no solo, estudado neste trabalho, apresentam grande variabilidade impossibilitando, na maioria das vezes, a detecção de reais diferenças estatísticas entre os efeitos de tratamentos. A consideração de amostras georreferenciadas é uma abordagem importante na análise de dados desta natureza, uma vez que amostras mais próximas são mais similares do que as mais distantes e, assim, cada realização desta variável contém informação de sua vizinhança. Neste trabalho, métodos geoestatísticos que baseiam-se na modelagem da dependência espacial, nas pressuposições Gaussianas e nos estimadores de máxima verossimilhança são utilizados para analisar e interpretar a variabilidade do teor de cálcio no solo, resultado de um experimento realizado na Fazenda Angra localizada no Estado do Rio de Janeiro. A área experimental foi dividida em três regiões em função dos diferentes períodos de adubação realizadas. Neste estudo foram utilizados dados do teor de cálcio obtidos das camadas 0-20cm e 20-40cm do solo, de acordo com as coordenadas norte e leste. Modelos lineares mistos, apropriados para estudar dados com esta característica, e que permitem a utilização de diferentes estruturas de covariâncias e a incorporação da região e tendência linear das coordenadas foram usados. As estruturas de covariâncias utilizadas foram: a exponencial e a Matérn. Para estimar e avaliar a variabilidade dos parâmetros utilizaram-se os métodos de máxima verossimilhança, máxima verossimilhança restrita e o perfil de verossimilhança. A identificação da dependência e a predição foram realizadas por meio de variogramas e mapas de krigagem. Além disso, a seleção do modelo adequado foi feita pelo critério de informação de Akaike e o teste da razão de verossimilhanças. Observou-se, quando utilizado o método de máxima verossimilhança, o melhor modelo foi aquele com a covariável região e, com o método de máxima verossimilhança restrita, o modelo com a covariável região e tendência linear nas coordenadas (modelo 2). Com o teor de cálcio, na camada 0-20cm e considerando-se a estrutura de covariância exponencial foram obtidas as menores variâncias nugget e a maior variância espacial (sill – nugget). Com o método de máxima verossimilhança e com o modelo 2 foram observadas variâncias de predição mais precisas. Por meio do perfil de verossimilhança pode-se observar menor variabilidade dos parâmetros dos variogramas ajustados com o modelo 2. Utilizando-se vários modelos e estruturas de covariâncias, deve-se ser criterioso, pois a precisão das estimativas, depende do tamanho da amostra e da especificação do modelo para a média. Os resultados obtidos foram analisados, com a subrotina geoR desenvolvida por Ribeiro Junior & Diggle (2000), e por meio dela pode-se obter estimativas confiáveis para os parâmetros dos diferentes modelos estimados. / The understanding of the spatial dependence of the properties of the soil becomes more and more required by researchers that attempt to improve the interpretation of the results of field experiments supplying subsidies for new researches at reduced costs. In general, variables as, for example, the calcium content in the soil, studied in this work, present great variability disabling, most of the time, the detection of real statistical differences among the treatment effects. The consideration of georeferenced samples is an important approach in the analysis of data of this nature, because closer samples are more similar than the most distant ones and, thus, each realization of this variable contains information of its neighborhood. In this work, geostatistics methods that are based on the modeling of the spatial dependence, under the Gaussian assumptions and the maximum likelihood estimators, are used to analyze and to interpret the variability of calcium content in the soil, obtained from an experiment carried on at Fazenda Angra, located in Rio de Janeiro, Brazil. The experimental area was divided in three areas depending on the different periods of fertilization. In this study, data of the calcium soil content from the layers 0-20cm and 20-40cm, were used, according to the north and east coordinates. Mixed linear models, ideal to study data with this characteristic, and that allow the use of different covariance structures, and the incorporation of the region and linear tendency of the coordinates, were used. The covariance structures were: the exponential and the Matérn. Maximum likelihood, maximum restricted likelihood and the profile of likelihood methods were used to estimate and to evaluate the variability of the parameters. The identification of the dependence and the prediction were realized using variograms and krigging maps. Besides, the selection of the appropriate model was made through the Akaike information criterion and the likelihood ratio test. It was observed that when maximum likelihood method was used the most appropriate model was that with the region covariate and, with the maximum restricted likelihood method, the best model was the one with the region covariate and linear tendency in the coordinates (model 2). With the calcium content, in the layer 0-20cm and considering the exponential covariance structure, the smallest nugget variances and the largest spatial variance (sill - nugget) were obtained. With the maximum likelihood method and with the model 2 more precise prediction variances were observed. Through the profile of likelihood method, smaller variability of the adjusted variogram parameters can be observed with the model 2. With several models and covariance structures being used, one should be very critical, because the precision of the estimates depends on the size of the sample and on the specification of the model for the average. The obtained results were analyzed, with the subroutine geoR developed by Ribeiro Junior & Diggle (2000), and through this subroutine, reliable estimates for the parameters of the different estimated models can be obtained.
266

Modelo de regressão log-gama generalizado exponenciado com dados censurados / The log-exponentiated generalized gamma regression model with censored data

Epaminondas de Vasconcellos Couto 22 February 2010 (has links)
No presente trabalho, e proposto um modelo de regressão utilizando a distribuição gama generalizada exponenciada (GGE) para dados censurados, esta nova distribuição e uma extensão da distribuição gama generalizada. A distribuição GGE (CORDEIRO et al., 2009) que tem quatro parâmetros pode modelar dados de sobrevivência quando a função de risco tem forma crescente, decrescente, forma de U e unimodal. Neste trabalho apresenta-se uma expansão natural da distribuição GGE para dados censurados, esta distribuição desperta o interesse pelo fato de representar uma família paramétrica que possui como casos particulares outras distribuições amplamente utilizadas na analise de dados de tempo de vida, como as distribuições gama generalizada (STACY, 1962), Weibull, Weibull exponenciada (MUDHOLKAR et al., 1995, 1996), exponencial exponenciada (GUPTA; KUNDU, 1999, 2001), Rayleigh generalizada (KUNDU; RAKAB, 2005), dentre outras, e mostra-se útil na discriminação entre alguns modelos probabilísticos alternativos. Considerando dados censurados, e abordado o método de máxima verossimilhança para estimar os parâmetros do modelo proposto. Outra proposta deste trabalho e introduzir um modelo de regressão log-gama generalizado exponenciado com efeito aleatório. Por fim, são apresentadas três aplicações para ilustrar a distribuição proposta. / In the present study, we propose a regression model using the exponentiated generalized gama (EGG) distribution for censored data, this new distribution is an extension of the generalized gama distribution. The EGG distribution (CORDEIRO et al., 2009) that has four parameters it can model survival data when the risk function is increasing, decreasing, form of U and unimodal-shaped. In this work comes to a natural expansion of the EGG distribution for censored data, is awake distribution the interest for the fact of representing a parametric family that has, as particular cases, other distributions which are broadly used in lifetime data analysis, as the generalized gama (STACY, 1962), Weibull, exponentiated Weibull (MUDHOLKAR et al., 1995, 1996), exponentiated exponential (GUPTA; KUNDU, 1999, 2001), generalized Rayleigh (KUNDU; RAKAB, 2005), among others, and it is shown useful in the discrimination among some models alternative probabilistics. Considering censored data, the maximum likelihood estimator is considered for the proposed model parameters. Another proposal of this work was to introduce a log-exponentiated generalized gamma regression model with random eect. Finally, three applications were presented to illustrate the proposed distribution.
267

A distribuição beta generalizada semi-normal / The beta generalized half-normal distribution

Rodrigo Rossetto Pescim 29 January 2010 (has links)
Uma nova família de distribuições denominada distribuição beta generalizada semi-normal, que inclui algumas distribuições importantes como casos especiais, tais como as distribuições semi-normal e generalizada semi-normal (Cooray e Ananda, 2008), é proposta neste trabalho. Para essa nova família de distribuições, foi realizado o estudo da função densidade probabilidade, função de distribuição acumulada e da função de taxa de falha (ou risco), que não dependeram de funções matemáticas complicadas. Obteve-se uma expressão formal para os momentos, função geradora de momentos, função densidade da distribuição de estatística de ordem, desvios médios, entropia, contabilidade e para as curvas de Bonferroni e Lorenz. Examinaram-se os estimadores de máxima verossimilhança dos parâmetros e deduziu- se a matriz de informação esperada. Neste trabalho é proposto, também, um modelo de regressão utilizando a distribuição beta generalizada semi-normal. A utilidade dessa nova distribuição é ilustrada através de dois conjuntos de dados, mostrando que ela é mais flexível na análise de dados de tempo de vida do que outras distribuições existentes na literatura. / A new family of distributions so-called beta generalized half-normal distribution, which includes some important distributions as special cases, such as the half-normal and generalized half-normal (Cooray and Ananda, 2008) distributions, is proposed in this work. For this new family of distributions, we studied the probability density function, cumulative distribution function and failure rate function (or hazard function), which did not depend on complicated mathematical functions. We obtained a formal expression for the moments, moment generating function, density function of order statistics distribution, mean deviation, entropy, reliability and Bonferroni and Lorenz curves. We examined maximum likelihood estimation of parameters and provided the information matrix. This work also proposed a regression model using the beta generalized half-normal distribution. The usefulness of the new distribution is illustrated through two data sets by showing that it is quite °exible in analyzing lifetime data instead other distributions in the literature.
268

Modelos de regressão beta inflacionados / Inflated beta regression models

Raydonal Ospina Martinez 04 April 2008 (has links)
Nos últimos anos têm sido desenvolvidos modelos de regressão beta, que têm uma variedade de aplicações práticas como, por exemplo, a modelagem de taxas, razões ou proporções. No entanto, é comum que dados na forma de proporções apresentem zeros e/ou uns, o que não permite admitir que os dados provêm de uma distribuição contínua. Nesta tese, são propostas, distribuições de mistura entre uma distribuição beta e uma distribuição de Bernoulli, degenerada em zero e degenerada em um para modelar dados observados nos intervalos [0, 1], [0, 1) e (0, 1], respectivamente. As distribuições propostas são inflacionadas no sentido de que a massa de probabilidade em zero e/ou um excede o que é permitido pela distribuição beta. Propriedades dessas distribuições são estudadas, métodos de estimação por máxima verossimilhança e momentos condicionais são comparados. Aplicações a vários conjuntos de dados reais são examinadas. Desenvolvemos também modelos de regressão beta inflacionados assumindo que a distribuição da variável resposta é beta inflacionada. Estudamos estimação por máxima verossimilhança. Derivamos expressões em forma fechada para o vetor escore, a matriz de informação de Fisher e sua inversa. Discutimos estimação intervalar para diferentes quantidades populacionais (parâmetros de regressão, parâmetro de precisão) e testes de hipóteses assintóticos. Derivamos expressões para o viés de segunda ordem dos estimadores de máxima verossimilhança dos parâmetros, possibilitando a obtenção de estimadores corrigidos que são mais precisos que os não corrigidos em amostras finitas. Finalmente, desenvolvemos técnicas de diagnóstico para os modelos de regressão beta inflacionados, sendo adotado o método de influência local baseado na curvatura normal conforme. Ilustramos a teoria desenvolvida em um conjuntos de dados reais. / The last years have seen new developments in the theory of beta regression models, which are useful for modelling random variables that assume values in the standard unit interval such as proportions, rates and fractions. In many situations, the dependent variable contains zeros and/or ones. In such cases, continuous distributions are not suitable for modeling this kind of data. In this thesis we propose mixed continuous-discrete distributions to model data observed on the intervals [0, 1],[0, 1) and (0, 1]. The proposed distributions are inflated beta distributions in the sense that the probability mass at 0 and/or 1 exceeds what is expected for the beta distribution. Properties of the inflated beta distributions are given. Estimation based on maximum likelihood and conditional moments is discussed and compared. Empirical applications using real data set are provided. Further, we develop inflated beta regression models in which the underlying assumption is that the response follows an inflated beta law. Estimation is performed by maximum likelihood. We provide closed-form expressions for the score function, Fishers information matrix and its inverse. Interval estimation for different population quantities (such as regression parameters, precision parameter, mean response) is discussed and tests of hypotheses on the regression parameters can be performed using asymptotic tests. We also derive the second order biases of the maximum likelihood estimators and use them to define bias-adjusted estimators. The numerical results show that bias reduction can be effective in finite samples. We also develop a set of diagnostic techniques that can be employed to identify departures from the postulated model and influential observations. To that end, we adopt the local influence approach based in the conformal normal curvature. Finally, we consider empirical examples to illustrate the theory developed.
269

Ajuste e seleção de modelos na descrição de comunidades arbóreas: estrutura, diversidade e padrões espaciais / Model fit and selection in the description of tree communities: structure, diversity and spatial patterns

Renato Augusto Ferreira de Lima 15 August 2013 (has links)
A descrição de padrões, i.e., tendências ou arranjos não aleatórios em comunidades, possui um longo histórico em ecologia vegetal. Comumente, a estrutura e diversidade de comunidades vegetais são descritas a partir de sua distribuição em classes de tamanho (SDD), distribuição espacial (SSD) e de sua distribuição abundância de espécies (SAD). Isto porque há um pressuposto de que padrões existentes nestes descritores de comunidades são assinaturas de processos fundamentais na sua organização e funcionamento. Assim, a descrição de padrões é com frequência o primeiro passo para gerar ou testar hipóteses sobre esses processos que regulam a estrutura e diversidade de comunidades. Organizada em diferentes capítulos, esta tese teve como objetivo central descrever e comparar padrões em diferentes comunidades arbóreas Neotropicais, buscando gerar hipóteses sobre os processos que regulam sua organização e funcionamento. Para tanto, buscou-se utilizar uma abordagem de inferência baseada no ajuste e seleção de modelos, que foi realizado usando máxima verossimilhança estatística. Em todos os capítulos, os dados sobre as comunidades arbóreas são oriundos de diferentes parcelas florestais permanentes, quatro delas com 10,24 hectares, localizadas no Brasil, e outra com 50 hectares, localizada no Panamá. Além da introdução geral sobre os conceitos e técnicas utilizadas nesta tese (Capítulo 1), foram avaliados e comparados: (i) os descritores básicos da estrutura florestal (i.e. abundância, área basal e riqueza de espécies por sub-parcela - Capítulo 2); (ii) a SAD e como ela varia com o aumento da escala e tamanho amostral (Capítulo 3); (iii) a SDD e como ela se relaciona com a demografia das espécies (Capítulo 4.1 e 4.2); e, por fim, (iv) a SSD e como ela varia entre parcelas permanentes (Capítulo 5). Apenas a relação entre a SDD e a demografia das espécies foi realizada como os dados da parcela panamenha, enquanto que os demais capítulos se referem as quatro parcelas brasileiras. Cada capítulo utilizou métodos e modelos probabilísticos distintos para a descrição e comparação das variáveis de interesse. O Capítulo 2 mostrou que os descritores básicos florestais foram muito diferentes entre as quatro parcelas brasileiras. Estes descritores foram raramente normais nas escalas estudadas e as diferenças entre as parcelas foram mais evidentes quando a variância é considerada, fornecendo informações extras sobre os processos geradores de variabilidade dentro das parcelas. O Capítulo 3 mostrou que a mudança no formato da SAD com o aumento da escala é predominantemente um efeito indireto do tamanho da amostra. Assim, pode haver um efeito de escala, mas esse efeito é pequeno e parece depender do grau de similaridade de espécies entre amostras. No capítulo 4.1, foi necessária uma combinação de quatro diferentes distribuições de probabilidade para descrever a ampla gama de SDD, visto que os modelos candidatos raramente foram adequados para a maioria das espécies. No capítulo 4.2, verificou-se que o crescimento e recrutamento determinam o formato da SDD, o que não aconteceu com a mortalidade. No geral, curvas decrescentes de crescimento por diâmetro (i.e., maior crescimento juvenil) levaram à SDD menos íngremes, enquanto que taxas altas de recrutamento estiveram relacionadas à SDD mais íngremes. Apesar das previsões da teoria de equilíbrio demográfico terem apresentado relações positivas com as SDD observadas, houve muita variação, fazendo com que as previsões fossem pouco confiáveis. No capítulo 5, confirmou-se que a grande maioria das espécies se distribui de maneira agregada no espaço. No entanto, as parcelas apresentaram diferentes padrões de intensidade e tamanho de agregação. As diferenças nestes padrões entre parcelas foram, em geral, similares àquelas encontradas ao comparar populações de uma mesma espécie entre parcelas. Assim, as parcelas permanentes brasileiras apresentaram padrões bem distintos umas das outras, tanto em termos de estrutura quanto de diversidade de espécies, padrões estes que provavelmente foram determinados pelas condições ambientais as quais estas comunidades estão sujeitas. Diferentes padrões também foram encontrados em relação à distribuição espacial das espécies (i.e. frequência, intensidade e tamanho de agregação). Contudo, os resultados sugeriram que estes padrões estiveram mais ligados a heterogeneidade ambiental interna das parcelas do que com condições de clima e solo as quais estas comunidades estão sujeitas. Por outro lado, os padrões de distribuição espacial das espécies parecem ter influenciado os padrões de diversidade das comunidades. Não houve, entretanto, um número suficiente de parcelas sob as diferentes combinações de condições ambientais para testar estas sugestões ou para fazer generalizações para cada formação florestal, sendo necessário o confronto destas sugestões com outros estudos realizados em condições similares. Já na parcela panamenha, foi confirmada a expectativa teórica de que distribuições diamétricas refletem a demografia das espécies, em especial os padrões de crescimento e recrutamento. Mas, houve grande variação entre as espécies, dificultando a inferência precisa de padrões demográficos passados das espécies a partir de SDD atuais. Por fim, a abordagem analítica baseada no ajuste e seleção de modelos por máxima foi uma alternativa viável, flexível e apropriada, principalmente em relação à comparação simultânea de diferentes modelos e à busca de processos por trás dos padrões encontrados. Apesar de algumas limitações de cunho operacional, a abordagem baseado em modelos é uma alternativa adequada para a descrição de comunidades arbóreas, podendo ser utilizada de maneira consorciada com outras abordagens (e.g. testes de hipóteses) para descrever padrões e para gerar ou testar hipóteses sobre esses processos fundamentais que regulam a estrutura e diversidade destas comunidades. / Pattern description - search for trends or non-random arrangements in communities, has a long history in plant ecology. Commonly, the structure and diversity of plant communities are described based on their size class distribution (SDD), spatial distribution (SSD) and species abundance distribution (SAD). This is because there is an underlying assumption that the existing patterns in these community descriptors are signatures of key processes determining their organization and functioning. Thus, pattern description is often the first step to generate or test hypotheses about the processes governing community structure and diversity. Organized in different chapters, the main goal of this thesis was to describe and compare different patterns in Neotropical tree communities and to generate hypotheses about the processes that regulate them. To do so we used an approach based on model selection, which was performed using maximum likelihood. In all chapters the data on tree communities came from different permanent forest plots, four of them of 10.24 ha located in Brazil and another 50 ha located in Panama. In addition to the general introduction of key concepts and techniques used along the thesis (Chapter 1), it was evaluated and compared: (i) the basic forest descriptors (i.e. abundance, basal area and species richness per subplot - Chapter 2), (ii) the SAD and how it varies with increasing sample size and scale (Chapter 3), (iii) the SDD and how it relates to species demography (Chapter 4.1 and 4.2) and, finally, (iv) the SSD and how it varies between plots (Chapter 5). Only the relationship between SDD and species demography o was performed using the Panama plot data, while the remaining chapters relate the four Brazilian plots. Each chapter used different methods and probabilistic models for the description and comparison of the variables of interest. In Chapter 2, it was found that basic forest descriptors were very different between the four Brazilian plots. These descriptors were rarely normal at the studied scales and differences between plots were more evident when variance is accounted for, which seems to provide information on processes generating within-plot variability. Chapter 3 showed that the change in shape of the SAD due to increasing scale is predominantly an indirect effect of sample size. Thus, there may be an effect of the scale, but this effect is minor and seems to depend on the degree of species turnover between samples. In Chapter 4.1, it was shown that the combination of four different probability distributions was necessary to describe the wide range of SDD, since models were rarely appropriate for the majority of tree species. In Chapter 4.2, it was found that growth and recruitment, but not mortality, shape the SDD. On average, decreasing growth-diameter curves (i.e. higher juvenile growth) were associated to less steep SDD, whereas high recruitment rates were related to steeper SDD. Although the predictions of demographic equilibrium theory were positively related to the observed SDD, there was lots of variation, making predictions quite unreliable. In Chapter 5, it was confirmed that the great majority of species had clumped spatial distributions. However, the results of intensity and size of clumps showed that the patterns of aggregation were different among plots. Species shared between two plots generally showed patterns of spatial distribution that matched the patterns found for individual plots. Therefore, the Brazilian plots presented very distinct patterns, both in terms of structure and species diversity, which were most probably determined by the environmental conditions to which these communities are subjected. Different patterns among plots were also found in respect to species spatial distribution (i.e. frequency, intensity and size of aggregation). However, the results suggested that these patterns were more connected to within-plot environmental heterogeneity than with climate and soil conditions. On the other hand, the spatial distribution of the species seems to have influenced the patterns of diversity of communities. There was not, however, a sufficient number of plots under different combinations of environmental conditions to test these suggestions or to make generalizations for each forest type, being necessary to confront these suggestions with other studies conducted in similar conditions. In the Panamanian plot, it was confirmed the theoretical expectation that diameter distributions reflect the demographics of the species, in particular the patterns of growth and recruitment. But there was great variability among species, making it difficult to infer past demographic patterns from current SDD. Finally, the analytical approach based on model fit and selection by maximum likelihood was a viable, flexible and appropriate approach, particularly in respect to the simultaneous comparison of different models and to the search for mechanisms underlying patterns. Despite some more operational limitations, the model-based approach is an appropriate alternative for the description of tree communities and can be jointly used with other approaches (e.g. hypothesis testing) for pattern description and to generate and test hypotheses on the fundamental processes that determine the structure and diversity of these communities.
270

Reconstrução de energia em calorímetros operando em alta luminosidade usando estimadores de máxima verossimilhança / Reconstrution of energy in calorimeters operating in high brigthness enviroments using maximum likelihood estimators

Paschoalin, Thiago Campos 15 March 2016 (has links)
Submitted by isabela.moljf@hotmail.com (isabela.moljf@hotmail.com) on 2016-08-12T11:54:08Z No. of bitstreams: 1 thiagocampospaschoalin.pdf: 3743029 bytes, checksum: f4b20678855edee77ec6c63903785d60 (MD5) / Rejected by Adriana Oliveira (adriana.oliveira@ufjf.edu.br), reason: Isabela, verifique que no resumo há algumas palavras unidas. on 2016-08-15T13:06:32Z (GMT) / Submitted by isabela.moljf@hotmail.com (isabela.moljf@hotmail.com) on 2016-08-15T13:57:16Z No. of bitstreams: 1 thiagocampospaschoalin.pdf: 3743029 bytes, checksum: f4b20678855edee77ec6c63903785d60 (MD5) / Rejected by Adriana Oliveira (adriana.oliveira@ufjf.edu.br), reason: separar palavras no resumo e palavras-chave on 2016-08-16T11:34:37Z (GMT) / Submitted by isabela.moljf@hotmail.com (isabela.moljf@hotmail.com) on 2016-12-19T13:07:02Z No. of bitstreams: 1 thiagocampospaschoalin.pdf: 3743029 bytes, checksum: f4b20678855edee77ec6c63903785d60 (MD5) / Rejected by Adriana Oliveira (adriana.oliveira@ufjf.edu.br), reason: Consertar palavras unidas no resumo on 2017-02-03T12:27:10Z (GMT) / Submitted by isabela.moljf@hotmail.com (isabela.moljf@hotmail.com) on 2017-02-03T12:51:52Z No. of bitstreams: 1 thiagocampospaschoalin.pdf: 3743029 bytes, checksum: f4b20678855edee77ec6c63903785d60 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-02-03T12:54:15Z (GMT) No. of bitstreams: 1 thiagocampospaschoalin.pdf: 3743029 bytes, checksum: f4b20678855edee77ec6c63903785d60 (MD5) / Made available in DSpace on 2017-02-03T12:54:15Z (GMT). No. of bitstreams: 1 thiagocampospaschoalin.pdf: 3743029 bytes, checksum: f4b20678855edee77ec6c63903785d60 (MD5) Previous issue date: 2016-03-15 / Esta dissertação apresenta técnicas de processamento de sinais a fim de realizar a Estimação da energia, utilizando calorimetria de altas energias. O CERN, um dos mais importantes centros de pesquisa de física de partículas, possui o acelerador de partículas LHC, onde está inserido o ATLAS. O TileCal, importante calorímetro integrante do ATLAS, possui diversos canais de leitura, operando com altas taxas de eventos. A reconstrução da energia das partículas que interagem com este calorímetro é realizada através da estimação da amplitude do sinal gerado nos canais do mesmo. Por este motivo, a modelagem correta do ruído é importante para se desenvolver técnicas de estimação eficientes. Com o aumento da luminosidade (número de partículas que incidem no detector por unidade de tempo) no TileCal, altera-se o modelo do ruído, o que faz com que as técnicas de estimação utilizadas anteriormente apresentem uma queda de desempenho. Com a modelagem deste novo ruído como sendo uma Distribuição Lognormal, torna possível o desenvolvimento de uma nova técnica de estimação utilizando Estimadores de Máxima Verossimilhança (do inglês Maximum Likelihood Estimator MLE), aprimorando a estimação dos parâmetros e levando à uma reconstrução da energia do sinal de forma mais correta. Uma nova forma de análise da qualidade da estimação é também apresentada, se mostrando bastante eficiente e útil em ambientes de alta luminosidade. A comparação entre o método utilizado pelo CERN e o novo método desenvolvido mostrou que a solução proposta é superior em desempenho, sendo adequado o seu uso no novo cenário de alta luminosidade no qual o TileCal estará sujeito a partir de 2018. / This paper presents signal processing techniques that performs signal detection and energy estimation using calorimetry high energies. The CERN, one of the most important physics particles research center, has the LHC, that contains the ATLAS. The TileCal, important device of the ATLAS calorimeter, is the component that involves a lot of parallel channels working, involving high event rates. The reconstruction of the signal energy that interact with this calorimeter is performed through estimation of the amplitude of signal generated by this calorimter. So, accurate noise modeling is important to develop efficient estimation techniques. With high brightness in TileCal, the noise model modifies, which leads a performance drop of estimation techniques used previously. Modelling this new noise as a lognormal distribution allows the development of a new estimation technique using the MLE (Maximum Like lihood Estimation), improving parameter sestimation and leading to a more accurately reconstruction of the signal energy. A new method to analise the estimation quality is presented, wich is very effective and useful in high brightness enviroment conditions. The comparison between the method used by CERN and the new method developed revealed that the proposed solution is superior and is suitable to use in this kind of ambient that TileCal will be working from 2018.

Page generated in 0.068 seconds