11 |
Modeling strategies for complex hierarchical and overdispersed data in the life sciences / Estratégias de modelagem para dados hierárquicos complexos e com superdispersão em ciências biológicasOliveira, Izabela Regina Cardoso de 24 July 2014 (has links)
In this work, we study the so-called combined models, generalized linear mixed models with extension to allow for overdispersion, in the context of genetics and breeding. Such flexible models accommodates cluster-induced correlation and overdispersion through two separate sets of random effects and contain as special cases the generalized linear mixed models (GLMM) on the one hand, and commonly known overdispersion models on the other. We use such models while obtaining heritability coefficients for non-Gaussian characters. Heritability is one of the many important concepts that are often quantified upon fitting a model to hierarchical data. It is often of importance in plant and animal breeding. Knowledge of this attribute is useful to quantify the magnitude of improvement in the population. For data where linear models can be used, this attribute is conveniently defined as a ratio of variance components. Matters are less simple for non-Gaussian outcomes. The focus is on time-to-event and count traits, where the Weibull-Gamma-Normal and Poisson-Gamma-Normal models are used. The resulting expressions are sufficiently simple and appealing, in particular in special cases, to be of practical value. The proposed methodologies are illustrated using data from animal and plant breeding. Furthermore, attention is given to the occurrence of negative estimates of variance components in the Poisson-Gamma-Normal model. The occurrence of negative variance components in linear mixed models (LMM) has received a certain amount of attention in the literature whereas almost no work has been done for GLMM. This phenomenon can be confusing at first sight because, by definition, variances themselves are non-negative quantities. However, this is a well understood phenomenon in the context of linear mixed modeling, where one will have to make a choice between a hierarchical and a marginal view. The variance components of the combined model for count outcomes are studied theoretically and the plant breeding study used as illustration underscores that this phenomenon can be common in applied research. We also call attention to the performance of different estimation methods, because not all available methods are capable of extending the parameter space of the variance components. Then, when there is a need for inference on such components and they are expected to be negative, the accuracy of the method is not the only characteristic to be considered. / Neste trabalho foram estudados os chamados modelos combinados, modelos lineares generalizados mistos com extensão para acomodar superdispersão, no contexto de genética e melhoramento. Esses modelos flexíveis acomodam correlação induzida por agrupamento e superdispersão por meio de dois conjuntos separados de efeitos aleatórios e contem como casos especiais os modelos lineares generalizados mistos (MLGM) e os modelos de superdispersão comumente conhecidos. Tais modelos são usados na obtenção do coeficiente de herdabilidade para caracteres não Gaussianos. Herdabilidade é um dos vários importantes conceitos que são frequentemente quantificados com o ajuste de um modelo a dados hierárquicos. Ela é usualmente importante no melhoramento vegetal e animal. Conhecer esse atributo é útil para quantificar a magnitude do ganho na população. Para dados em que modelos lineares podem ser usados, esse atributo é convenientemente definido como uma razão de componentes de variância. Os problemas são menos simples para respostas não Gaussianas. O foco aqui é em características do tipo tempo-até-evento e contagem, em que os modelosWeibull-Gama-Normal e Poisson-Gama-Normal são usados. As expressões resultantes são suficientemente simples e atrativas, em particular nos casos especiais, pelo valor prático. As metodologias propostas são ilustradas usando dados de melhoramento animal e vegetal. Além disso, a atenção é voltada à ocorrência de estimativas negativas de componentes de variância no modelo Poisson-Gama- Normal. A ocorrência de componentes de variância negativos em modelos lineares mistos (MLM) tem recebido certa atenção na literatura enquanto quase nenhum trabalho tem sido feito para MLGM. Esse fenômeno pode ser confuso a princípio porque, por definição, variâncias são quantidades não-negativas. Entretanto, este é um fenômeno bem compreendido no contexto de modelagem linear mista, em que a escolha deverá ser feita entre uma interpretação hierárquica ou marginal. Os componentes de variância do modelo combinado para respostas de contagem são estudados teoricamente e o estudo de melhoramento vegetal usado como ilustração confirma que esse fenômeno pode ser comum em pesquisas aplicadas. A atenção também é voltada ao desempenho de diferentes métodos de estimação, porque nem todos aqueles disponíveis são capazes de estender o espaço paramétrico dos componentes de variância. Então, quando há a necessidade de inferência de tais componentes e é esperado que eles sejam negativos, a acurácia do método de estimação não é a única característica a ser considerada.
|
12 |
Abordagem clássica e bayesiana para os modelos de séries temporais da família GARMA com aplicações para dados contínuosCascone, Marcos Henrique 24 March 2011 (has links)
Made available in DSpace on 2016-06-02T20:06:04Z (GMT). No. of bitstreams: 1
3603.pdf: 602959 bytes, checksum: 3078931e73ff3d01b4122cbac2c7f0a0 (MD5)
Previous issue date: 2011-03-24 / Financiadora de Estudos e Projetos / In this work, the aim was to analyze in the classic and bayesian context, the GARMA model with three different continuous distributions: Gaussian, Inverse Gaussian and Gamma. We analyzed the performance and the goodness of fit of the three models, as well as the performance of the coverage percentile. In the classic analyze we consider the maximum likelihood estimator and by simulation study, we verified the consistency, the bias and de mean square error of the models. To the bayesian approach we proposed a non-informative prior distribution for the parameters of the model, resulting in a posterior distribution, which we found the bayesian estimatives for the parameters. This study still was not found in the literature. So, we can observe that the bayesian inference showed a good quality in the analysis of the serie, which can be comprove with the last section of this work. This, consist in the analyze of a real data set corresponding in the rate of tuberculosis cases in metropolitan area of Sao Paulo. The results show that, either the classical and bayesian approach, are good alternatives to describe the behavior of the real time serie. / Neste trabalho, o objetivo foi analisar no contexto clássico e bayesiano, o modelo GARMA com três distribuições contínuas: Gaussiana (Normal), Inversa Gaussiana e Gama, e também o desempenho e a qualidade do ajuste dos modelos de interesse, bem como o desempenho dos percentis de cobertura para eles. Para o estudo clássico foi considerado os estimadores de máxima verossimilhança e por meio de simulação verificou-se a consistência, o viés e o erro quadrático médio dos mesmos. Para a abordagem bayesiana é proposta uma distribuição a priori não informativa para os parâmetros dos modelos resultando em uma distribuição a posteriori, o qual a partir daí pode-se encontrar as estimativas bayesianas para os parâmetros, sendo que este estudo ainda não foi encontrado na literatura. Com isso pode-se observar que a inferência bayesiana mostrou boa eficiência no processo de análise da série, o que pode ser comprovado também com a última etapa do trabalho. Esta, consiste na análise de um conjunto de dados reais correspondente a taxa de casos de tuberculose na região metropolitana de São Paulo. Os resultados mostram que, tanto o estudo clássico quanto o bayesiano, são capazes de descrever bem o comportamento da série.
|
13 |
Modeling strategies for complex hierarchical and overdispersed data in the life sciences / Estratégias de modelagem para dados hierárquicos complexos e com superdispersão em ciências biológicasIzabela Regina Cardoso de Oliveira 24 July 2014 (has links)
In this work, we study the so-called combined models, generalized linear mixed models with extension to allow for overdispersion, in the context of genetics and breeding. Such flexible models accommodates cluster-induced correlation and overdispersion through two separate sets of random effects and contain as special cases the generalized linear mixed models (GLMM) on the one hand, and commonly known overdispersion models on the other. We use such models while obtaining heritability coefficients for non-Gaussian characters. Heritability is one of the many important concepts that are often quantified upon fitting a model to hierarchical data. It is often of importance in plant and animal breeding. Knowledge of this attribute is useful to quantify the magnitude of improvement in the population. For data where linear models can be used, this attribute is conveniently defined as a ratio of variance components. Matters are less simple for non-Gaussian outcomes. The focus is on time-to-event and count traits, where the Weibull-Gamma-Normal and Poisson-Gamma-Normal models are used. The resulting expressions are sufficiently simple and appealing, in particular in special cases, to be of practical value. The proposed methodologies are illustrated using data from animal and plant breeding. Furthermore, attention is given to the occurrence of negative estimates of variance components in the Poisson-Gamma-Normal model. The occurrence of negative variance components in linear mixed models (LMM) has received a certain amount of attention in the literature whereas almost no work has been done for GLMM. This phenomenon can be confusing at first sight because, by definition, variances themselves are non-negative quantities. However, this is a well understood phenomenon in the context of linear mixed modeling, where one will have to make a choice between a hierarchical and a marginal view. The variance components of the combined model for count outcomes are studied theoretically and the plant breeding study used as illustration underscores that this phenomenon can be common in applied research. We also call attention to the performance of different estimation methods, because not all available methods are capable of extending the parameter space of the variance components. Then, when there is a need for inference on such components and they are expected to be negative, the accuracy of the method is not the only characteristic to be considered. / Neste trabalho foram estudados os chamados modelos combinados, modelos lineares generalizados mistos com extensão para acomodar superdispersão, no contexto de genética e melhoramento. Esses modelos flexíveis acomodam correlação induzida por agrupamento e superdispersão por meio de dois conjuntos separados de efeitos aleatórios e contem como casos especiais os modelos lineares generalizados mistos (MLGM) e os modelos de superdispersão comumente conhecidos. Tais modelos são usados na obtenção do coeficiente de herdabilidade para caracteres não Gaussianos. Herdabilidade é um dos vários importantes conceitos que são frequentemente quantificados com o ajuste de um modelo a dados hierárquicos. Ela é usualmente importante no melhoramento vegetal e animal. Conhecer esse atributo é útil para quantificar a magnitude do ganho na população. Para dados em que modelos lineares podem ser usados, esse atributo é convenientemente definido como uma razão de componentes de variância. Os problemas são menos simples para respostas não Gaussianas. O foco aqui é em características do tipo tempo-até-evento e contagem, em que os modelosWeibull-Gama-Normal e Poisson-Gama-Normal são usados. As expressões resultantes são suficientemente simples e atrativas, em particular nos casos especiais, pelo valor prático. As metodologias propostas são ilustradas usando dados de melhoramento animal e vegetal. Além disso, a atenção é voltada à ocorrência de estimativas negativas de componentes de variância no modelo Poisson-Gama- Normal. A ocorrência de componentes de variância negativos em modelos lineares mistos (MLM) tem recebido certa atenção na literatura enquanto quase nenhum trabalho tem sido feito para MLGM. Esse fenômeno pode ser confuso a princípio porque, por definição, variâncias são quantidades não-negativas. Entretanto, este é um fenômeno bem compreendido no contexto de modelagem linear mista, em que a escolha deverá ser feita entre uma interpretação hierárquica ou marginal. Os componentes de variância do modelo combinado para respostas de contagem são estudados teoricamente e o estudo de melhoramento vegetal usado como ilustração confirma que esse fenômeno pode ser comum em pesquisas aplicadas. A atenção também é voltada ao desempenho de diferentes métodos de estimação, porque nem todos aqueles disponíveis são capazes de estender o espaço paramétrico dos componentes de variância. Então, quando há a necessidade de inferência de tais componentes e é esperado que eles sejam negativos, a acurácia do método de estimação não é a única característica a ser considerada.
|
14 |
Análise de carteiras em tempo discreto / Discrete time portfolio analysisKato, Fernando Hideki 14 April 2004 (has links)
Nesta dissertação, o modelo de seleção de carteiras de Markowitz será estendido com uma análise em tempo discreto e hipóteses mais realísticas. Um produto tensorial finito de densidades Erlang será usado para aproximar a densidade de probabilidade multivariada dos retornos discretos uniperiódicos de ativos dependentes. A Erlang é um caso particular da distribuição Gama. Uma mistura finita pode gerar densidades multimodais não-simétricas e o produto tensorial generaliza este conceito para dimensões maiores. Assumindo que a densidade multivariada foi independente e identicamente distribuída (i.i.d.) no passado, a aproximação pode ser calibrada com dados históricos usando o critério da máxima verossimilhança. Este é um problema de otimização em larga escala, mas com uma estrutura especial. Assumindo que esta densidade multivariada será i.i.d. no futuro, então a densidade dos retornos discretos de uma carteira de ativos com pesos não-negativos será uma mistura finita de densidades Erlang. O risco será calculado com a medida Downside Risk, que é convexa para determinados parâmetros, não é baseada em quantis, não causa a subestimação do risco e torna os problemas de otimização uni e multiperiódico convexos. O retorno discreto é uma variável aleatória multiplicativa ao longo do tempo. A distribuição multiperiódica dos retornos discretos de uma seqüência de T carteiras será uma mistura finita de distribuições Meijer G. Após uma mudança na medida de probabilidade para a composta média, é possível calcular o risco e o retorno, que levará à fronteira eficiente multiperiódica, na qual cada ponto representa uma ou mais seqüências ordenadas de T carteiras. As carteiras de cada seqüência devem ser calculadas do futuro para o presente, mantendo o retorno esperado no nível desejado, o qual pode ser função do tempo. Uma estratégia de alocação dinâmica de ativos é refazer os cálculos a cada período, usando as novas informações disponíveis. Se o horizonte de tempo tender a infinito, então a fronteira eficiente, na medida de probabilidade composta média, tenderá a um único ponto, dado pela carteira de Kelly, qualquer que seja a medida de risco. Para selecionar um dentre vários modelos de otimização de carteira, é necessário comparar seus desempenhos relativos. A fronteira eficiente de cada modelo deve ser traçada em seu respectivo gráfico. Como os pesos dos ativos das carteiras sobre estas curvas são conhecidos, é possível traçar todas as curvas em um mesmo gráfico. Para um dado retorno esperado, as carteiras eficientes dos modelos podem ser calculadas, e os retornos realizados e suas diferenças ao longo de um backtest podem ser comparados. / In this thesis, Markowitzs portfolio selection model will be extended by means of a discrete time analysis and more realistic hypotheses. A finite tensor product of Erlang densities will be used to approximate the multivariate probability density function of the single-period discrete returns of dependent assets. The Erlang is a particular case of the Gamma distribution. A finite mixture can generate multimodal asymmetric densities and the tensor product generalizes this concept to higher dimensions. Assuming that the multivariate density was independent and identically distributed (i.i.d.) in the past, the approximation can be calibrated with historical data using the maximum likelihood criterion. This is a large-scale optimization problem, but with a special structure. Assuming that this multivariate density will be i.i.d. in the future, then the density of the discrete returns of a portfolio of assets with nonnegative weights will be a finite mixture of Erlang densities. The risk will be calculated with the Downside Risk measure, which is convex for certain parameters, is not based on quantiles, does not cause risk underestimation and makes the single and multiperiod optimization problems convex. The discrete return is a multiplicative random variable along the time. The multiperiod distribution of the discrete returns of a sequence of T portfolios will be a finite mixture of Meijer G distributions. After a change of the distribution to the average compound, it is possible to calculate the risk and the return, which will lead to the multiperiod efficient frontier, where each point represents one or more ordered sequences of T portfolios. The portfolios of each sequence must be calculated from the future to the present, keeping the expected return at the desired level, which can be a function of time. A dynamic asset allocation strategy is to redo the calculations at each period, using new available information. If the time horizon tends to infinite, then the efficient frontier, in the average compound probability measure, will tend to only one point, given by the Kellys portfolio, whatever the risk measure is. To select one among several portfolio optimization models, it is necessary to compare their relative performances. The efficient frontier of each model must be plotted in its respective graph. As the weights of the assets of the portfolios on these curves are known, it is possible to plot all curves in the same graph. For a given expected return, the efficient portfolios of the models can be calculated, and the realized returns and their differences along a backtest can be compared.
|
15 |
Análise de carteiras em tempo discreto / Discrete time portfolio analysisFernando Hideki Kato 14 April 2004 (has links)
Nesta dissertação, o modelo de seleção de carteiras de Markowitz será estendido com uma análise em tempo discreto e hipóteses mais realísticas. Um produto tensorial finito de densidades Erlang será usado para aproximar a densidade de probabilidade multivariada dos retornos discretos uniperiódicos de ativos dependentes. A Erlang é um caso particular da distribuição Gama. Uma mistura finita pode gerar densidades multimodais não-simétricas e o produto tensorial generaliza este conceito para dimensões maiores. Assumindo que a densidade multivariada foi independente e identicamente distribuída (i.i.d.) no passado, a aproximação pode ser calibrada com dados históricos usando o critério da máxima verossimilhança. Este é um problema de otimização em larga escala, mas com uma estrutura especial. Assumindo que esta densidade multivariada será i.i.d. no futuro, então a densidade dos retornos discretos de uma carteira de ativos com pesos não-negativos será uma mistura finita de densidades Erlang. O risco será calculado com a medida Downside Risk, que é convexa para determinados parâmetros, não é baseada em quantis, não causa a subestimação do risco e torna os problemas de otimização uni e multiperiódico convexos. O retorno discreto é uma variável aleatória multiplicativa ao longo do tempo. A distribuição multiperiódica dos retornos discretos de uma seqüência de T carteiras será uma mistura finita de distribuições Meijer G. Após uma mudança na medida de probabilidade para a composta média, é possível calcular o risco e o retorno, que levará à fronteira eficiente multiperiódica, na qual cada ponto representa uma ou mais seqüências ordenadas de T carteiras. As carteiras de cada seqüência devem ser calculadas do futuro para o presente, mantendo o retorno esperado no nível desejado, o qual pode ser função do tempo. Uma estratégia de alocação dinâmica de ativos é refazer os cálculos a cada período, usando as novas informações disponíveis. Se o horizonte de tempo tender a infinito, então a fronteira eficiente, na medida de probabilidade composta média, tenderá a um único ponto, dado pela carteira de Kelly, qualquer que seja a medida de risco. Para selecionar um dentre vários modelos de otimização de carteira, é necessário comparar seus desempenhos relativos. A fronteira eficiente de cada modelo deve ser traçada em seu respectivo gráfico. Como os pesos dos ativos das carteiras sobre estas curvas são conhecidos, é possível traçar todas as curvas em um mesmo gráfico. Para um dado retorno esperado, as carteiras eficientes dos modelos podem ser calculadas, e os retornos realizados e suas diferenças ao longo de um backtest podem ser comparados. / In this thesis, Markowitzs portfolio selection model will be extended by means of a discrete time analysis and more realistic hypotheses. A finite tensor product of Erlang densities will be used to approximate the multivariate probability density function of the single-period discrete returns of dependent assets. The Erlang is a particular case of the Gamma distribution. A finite mixture can generate multimodal asymmetric densities and the tensor product generalizes this concept to higher dimensions. Assuming that the multivariate density was independent and identically distributed (i.i.d.) in the past, the approximation can be calibrated with historical data using the maximum likelihood criterion. This is a large-scale optimization problem, but with a special structure. Assuming that this multivariate density will be i.i.d. in the future, then the density of the discrete returns of a portfolio of assets with nonnegative weights will be a finite mixture of Erlang densities. The risk will be calculated with the Downside Risk measure, which is convex for certain parameters, is not based on quantiles, does not cause risk underestimation and makes the single and multiperiod optimization problems convex. The discrete return is a multiplicative random variable along the time. The multiperiod distribution of the discrete returns of a sequence of T portfolios will be a finite mixture of Meijer G distributions. After a change of the distribution to the average compound, it is possible to calculate the risk and the return, which will lead to the multiperiod efficient frontier, where each point represents one or more ordered sequences of T portfolios. The portfolios of each sequence must be calculated from the future to the present, keeping the expected return at the desired level, which can be a function of time. A dynamic asset allocation strategy is to redo the calculations at each period, using new available information. If the time horizon tends to infinite, then the efficient frontier, in the average compound probability measure, will tend to only one point, given by the Kellys portfolio, whatever the risk measure is. To select one among several portfolio optimization models, it is necessary to compare their relative performances. The efficient frontier of each model must be plotted in its respective graph. As the weights of the assets of the portfolios on these curves are known, it is possible to plot all curves in the same graph. For a given expected return, the efficient portfolios of the models can be calculated, and the realized returns and their differences along a backtest can be compared.
|
Page generated in 0.0323 seconds