Spelling suggestions: "subject:"ajuste para pequenas amostras""
1 |
Modelagem e Inferência em Regressão BetaMariano Bayer, Fábio 31 January 2011 (has links)
Made available in DSpace on 2014-06-12T18:01:37Z (GMT). No. of bitstreams: 2
arquivo6698_1.pdf: 1066555 bytes, checksum: db4d02aef759ceeda67e4d16ca74b282 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Esta tese aborda aspectos de modelagem e inferência em regressão beta, mais especificamente
melhoramentos do teste de razão da verossimilhanças e proposição e investigação de critérios
de seleção de modelos. O modelo de regressão beta foi proposto por Ferrari e Cribari-Neto
[2004. Beta regression for modeling rates and proportions. J. Appl. Statist. 31, 799 815]
para modelar variáveis contínuas no intervalo (0;1), como taxas e proporções. No primeiro
capítulo, abordamos o problema de inferência em pequenas amostras. Focamos no melhoramento
do teste da razão de verossimilhanças. Consideramos correções de segunda ordem
para a estatística da razão de verossimilhanças em regressão beta em duas abordagens. Determinamos,
por meio de uma abordagem matricial, o fator de correção de Bartlett e também
uma correção de Bartlett Bootstrap. Comparamos os testes baseados nas estatísticas corrigidas
com o teste da razão de verossimilhanças usual e com o teste que utiliza o ajuste de Skovgaard,
que já está proposto na literatura. Os resultados numéricos evidenciam que as correções
de Bartlett são mais acuradas do que a estatística não corrigida e do que o ajuste de Skovgaard.
No segundo e terceiro capítulos, expandimos o modelo de regressão beta proposto por
Ferrari e Cribari-Neto, considerando um modelo que assume que o parâmetro de dispersão,
assim como o parâmetro de média, varia ao longo das observações e pode ser modelado por
meio de uma estrutura de regressão. Com isso, surge o problema da seleção de variáveis, tanto
para a estrutura da média quanto para a da dispersão. Esse assunto é tratado em dois capítulos
independentes e auto-contidos, porém, ambos relacionados. No Capítulo 2 propomos critérios
de seleção para modelos com dispersão variável e investigamos, por meio de simulação de
Monte Carlo, os desempenhos destes e de outros critérios de seleção em amostras de tamanho
finito. Percebemos que o processo de seleção conjunta de regressores para a média e para
a dispersão não é uma boa prática e propomos um esquema de seleção em duas etapas. A
seleção de modelos com o esquema proposto, além de requerer um menor custo computacional,
apresentou melhor desempenho do que o método usual de seleção. Dentre os critérios
investigados encontra-se o critério de informação de Akaike (AIC). O AIC é, sem dúvida, o
critério mais conhecido e aplicado em diferentes classes de modelos. Baseados no AIC diversos
critérios têm sido propostos, dentre eles o SIC, o HQ e o AICc. Com o objetivo de estimar
o valor esperado da log-verossimilhança, que é uma medida de discrepância entre o modelo
verdadeiro e o modelo candidato estimado, Akaike obtém o AIC como uma correção assintótica
para a log-verossimilhança esperada. No entanto, em pequenas amostras, ou quando o
número de parâmetros do modelo é grande relativamente ao tamanho amostral, o AIC se torna
viesado e tende a selecionar modelos com alta dimensionalidade. Ao considerarmos uma estrutura
de regressão também para o parâmetro de dispersão introduzimos um maior número de
parâmetros a serem estimados no modelo. Isso pode diminuir o desempenho dos critérios de
seleção quando o tamanho amostral é pequeno ou moderado. Para contornar esse problema propomos no Capítulo 3 novos critérios de seleção para serem usados em pequenas amostras,
denominados bootstrap likelihood quasi-CV (BQCV) e sua modificação 632QCV. Comparamos
os desempenhos dos critérios propostos, do AIC e de suas diversas variações que utilizam
log-verossimilhança bootstrap por meio de um extensivo estudo de simulação. Os resultados
numéricos evidenciam o bom desempenho dos critérios propostos
|
2 |
Contribuições em inferência e modelagem de valores extremos / Contributions to extreme value inference and modeling.Pinheiro, Eliane Cantinho 04 December 2013 (has links)
A teoria do valor extremo é aplicada em áreas de pesquisa tais como hidrologia, estudos de poluição, engenharia de materiais, controle de tráfego e economia. A distribuição valor extremo ou Gumbel é amplamente utilizada na modelagem de valores extremos de fenômenos da natureza e no contexto de análise de sobrevivência para modelar o logaritmo do tempo de vida. A modelagem de valores extremos de fenômenos da natureza tais como velocidade de vento, nível da água de rio ou mar, altura de onda ou umidade é importante em estatística ambiental pois o conhecimento de valores extremos de tais eventos é crucial na prevenção de catátrofes. Ultimamente esta teoria é de particular interesse pois fenômenos extremos da natureza têm sido mais comuns e intensos. A maioria dos artigos sobre teoria do valor extremo para modelagem de dados considera amostras de tamanho moderado ou grande. A distribuição Gumbel é frequentemente incluída nas análises mas a qualidade do ajuste pode ser pobre em função de presença de ouliers. Investigamos modelagem estatística de eventos extremos com base na teoria de valores extremos. Consideramos um modelo de regressão valor extremo introduzido por Barreto-Souza & Vasconcellos (2011). Os autores trataram da questão de corrigir o viés do estimador de máxima verossimilhança para pequenas amostras. Nosso primeiro objetivo é deduzir ajustes para testes de hipótese nesta classe de modelos. Derivamos a estatística da razão de verossimilhanças ajustada de Skovgaard (2001) e cinco ajustes da estatística da razão de verossimilhanças sinalizada, que foram propostos por Barndorff-Nielsen (1986, 1991), DiCiccio & Martin (1993), Skovgaard (1996), Severini (1999) e Fraser et al. (1999). As estatísticas ajustadas são aproximadamente distribuídas como uma distribuição $\\chi^2$ e normal padrão com alto grau de acurácia. Os termos dos ajustes têm formas compactas simples que podem ser facilmente implementadas em softwares disponíveis. Comparamos a performance do teste da razão de verossimilhanças, do teste da razão de verossimilanças sinalizada e dos testes ajustados obtidos neste trabalho em amostras pequenas. Ilustramos uma aplicação dos testes usuais e suas versões modificadas em conjuntos de dados reais. As distribuições das estatísticas ajustadas são mais próximas das respectivas distribuições limites comparadas com as distribuições das estatísticas usuais quando o tamanho da amostra é relativamente pequeno. Os resultados de simulação indicaram que as estatísticas ajustadas são recomendadas para inferência em modelo de regressão valor extremo quando o tamanho da amostra é moderado ou pequeno. Parcimônia é importante quando os dados são escassos, mas flexibilidade também é crucial pois um ajuste pobre pode levar a uma conclusão completamente errada. Uma revisão da literatura foi feita para listar as distribuições que são generalizações da distribuição Gumbel. Nosso segundo objetivo é avaliar a parcimônia e flexibilidade destas distribuições. Com este propósito, comparamos tais distribuições através de momentos, coeficientes de assimetria e de curtose e índice da cauda. As famílias mais amplas obtidas pela inclusão de parâmetros adicionais, que têm a distribuição Gumbel como caso particular, apresentam assimetria e curtose flexíveis enquanto a distribuição Gumbel apresenta tais características constantes. Dentre estas distribuições, a distribuição valor extremo generalizada é a única com índice da cauda que pode ser qualquer número real positivo enquanto os índices da cauda das outras distribuições são zero. Observamos que algumas generalizações da distribuição Gumbel estudadas na literatura são não identificáveis. Portanto, para estes modelos a interpretação e estimação de parâmetros individuais não é factível. Selecionamos as distribuições identificáveis e as ajustamos a um conjunto de dados simulado e a um conjunto de dados reais de velocidade de vento. Como esperado, tais distribuições se ajustaram bastante bem ao conjunto de dados simulados de uma distribuição Gumbel. A distribuição valor extremo generalizada e a mistura de duas distribuições Gumbel produziram melhores ajustes aos dados do que as outras distribuições na presença não desprezível de observações discrepantes que não podem ser acomodadas pela distribuição Gumbel e, portanto, sugerimos que tais distribuições devem ser utilizadas neste contexto. / The extreme value theory is applied in research fields such as hydrology, pollution studies, materials engineering, traffic management, economics and finance. The Gumbel distribution is widely used in statistical modeling of extreme values of a natural process such as rainfall and wind. Also, the Gumbel distribution is important in the context of survival analysis for modeling lifetime in logarithmic scale. The statistical modeling of extreme values of a natural process such as wind or humidity is important in environmental statistics; for example, understanding extreme wind speed is crucial in catastrophe/disaster protection. Lately this is of particular interest as extreme natural phenomena/episodes are more common and intense. The majority of papers on extreme value theory for modeling extreme data is supported by moderate or large sample sizes. The Gumbel distribution is often considered but the resulting fit may be poor in the presence of ouliers since its skewness and kurtosis are constant. We deal with statistical modeling of extreme events data based on extreme value theory. We consider a general extreme-value regression model family introduced by Barreto-Souza & Vasconcellos (2011). The authors addressed the issue of correcting the bias of the maximum likelihood estimators in small samples. Here, our first goal is to derive hypothesis test adjustments in this class of models. We derive Skovgaard\'s adjusted likelihood ratio statistics Skovgaard (2001) and five adjusted signed likelihood ratio statistics, which have been proposed by Barndorff-Nielsen (1986, 1991), DiCiccio & Martin (1993), Skovgaard (1996), Severini (1999) and Fraser et al. (1999). The adjusted statistics are approximately distributed as $\\chi^2$ and standard normal with high accuracy. The adjustment terms have simple compact forms which may be easily implemented by readily available software. We compare the finite sample performance of the likelihood ratio test, the signed likelihood ratio test and the adjusted tests obtained in this work. We illustrate the application of the usual tests and their modified versions in real datasets. The adjusted statistics are closer to the respective limiting distribution compared to the usual ones when the sample size is relatively small. Simulation results indicate that the adjusted statistics can be recommended for inference in extreme value regression model with small or moderate sample size. Parsimony is important when data are scarce, but flexibility is also crucial since a poor fit may lead to a completely wrong conclusion. A literature review was conducted to list distributions which nest the Gumbel distribution. Our second goal is to evaluate their parsimony and flexibility. For this purpose, we compare such distributions regarding moments, skewness, kurtosis and tail index. The larger families obtained by introducing additional parameters, which have Gumbel embedded in, present flexible skewness and kurtosis while the Gumbel distribution skewness and kurtosis are constant. Among these distributions the generalized extreme value is the only one with tail index that can be any positive real number while the tail indeces of the other distributions investigated here are zero. We notice that some generalizations of the Gumbel distribution studied in the literature are not indetifiable. Hence, for these models meaningful interpretation and estimation of individual parameters are not feasible. We select the identifiable distributions and fit them to a simulated dataset and to real wind speed data. As expected, such distributions fit the Gumbel simulated data quite well. The generalized extreme value distribution and the two-component extreme value distribution fit the data better than the others in the non-negligible presence of outliers that cannot be accommodated by the Gumbel distribution, and therefore we suggest them to be applied in this context.
|
3 |
Ajustes para o teste da razão de verossimilhanças em modelos de regressão beta / Adjusted likelihood ratio statistics in beta regression modelsPinheiro, Eliane Cantinho 23 March 2009 (has links)
O presente trabalho considera o problema de fazer inferência com acurácia para pequenas amostras, tomando por base a estatística da razão de verossimilhanças em modelos de regressão beta. Estes, por sua vez, são úteis para modelar proporções contínuas que são afetadas por variáveis independentes. Deduzem-se as estatísticas da razão de verossimilhanças ajustadas de Skovgaard (Scandinavian Journal of Statistics 28 (2001) 3-32) nesta classe de modelos. Os termos do ajuste, que têm uma forma simples e compacta, podem ser implementados em um software estatístico. São feitas simulações de Monte Carlo para mostrar que a inferência baseada nas estatísticas ajustadas propostas é mais confiável do que a inferência usual baseada na estatística da razão de verossimilhanças. Aplicam-se os resultados a um conjunto real de dados. / We consider the issue of performing accurate small-sample likelihood-based inference in beta regression models, which are useful for modeling continuous proportions that are affected by independent variables. We derive Skovgaards (Scandinavian Journal of Statistics 28 (2001) 3-32) adjusted likelihood ratio statistics in this class of models. We show that the adjustment terms have simple compact form that can be easily implemented from standard statistical software. We presentMonte Carlo simulations showing that inference based on the adjusted statistics we propose is more reliable than that based on the usual likelihood ratio statistic. A real data example is presented.
|
4 |
Ajustes para o teste da razão de verossimilhanças em modelos de regressão beta / Adjusted likelihood ratio statistics in beta regression modelsEliane Cantinho Pinheiro 23 March 2009 (has links)
O presente trabalho considera o problema de fazer inferência com acurácia para pequenas amostras, tomando por base a estatística da razão de verossimilhanças em modelos de regressão beta. Estes, por sua vez, são úteis para modelar proporções contínuas que são afetadas por variáveis independentes. Deduzem-se as estatísticas da razão de verossimilhanças ajustadas de Skovgaard (Scandinavian Journal of Statistics 28 (2001) 3-32) nesta classe de modelos. Os termos do ajuste, que têm uma forma simples e compacta, podem ser implementados em um software estatístico. São feitas simulações de Monte Carlo para mostrar que a inferência baseada nas estatísticas ajustadas propostas é mais confiável do que a inferência usual baseada na estatística da razão de verossimilhanças. Aplicam-se os resultados a um conjunto real de dados. / We consider the issue of performing accurate small-sample likelihood-based inference in beta regression models, which are useful for modeling continuous proportions that are affected by independent variables. We derive Skovgaards (Scandinavian Journal of Statistics 28 (2001) 3-32) adjusted likelihood ratio statistics in this class of models. We show that the adjustment terms have simple compact form that can be easily implemented from standard statistical software. We presentMonte Carlo simulations showing that inference based on the adjusted statistics we propose is more reliable than that based on the usual likelihood ratio statistic. A real data example is presented.
|
5 |
Contribuições em inferência e modelagem de valores extremos / Contributions to extreme value inference and modeling.Eliane Cantinho Pinheiro 04 December 2013 (has links)
A teoria do valor extremo é aplicada em áreas de pesquisa tais como hidrologia, estudos de poluição, engenharia de materiais, controle de tráfego e economia. A distribuição valor extremo ou Gumbel é amplamente utilizada na modelagem de valores extremos de fenômenos da natureza e no contexto de análise de sobrevivência para modelar o logaritmo do tempo de vida. A modelagem de valores extremos de fenômenos da natureza tais como velocidade de vento, nível da água de rio ou mar, altura de onda ou umidade é importante em estatística ambiental pois o conhecimento de valores extremos de tais eventos é crucial na prevenção de catátrofes. Ultimamente esta teoria é de particular interesse pois fenômenos extremos da natureza têm sido mais comuns e intensos. A maioria dos artigos sobre teoria do valor extremo para modelagem de dados considera amostras de tamanho moderado ou grande. A distribuição Gumbel é frequentemente incluída nas análises mas a qualidade do ajuste pode ser pobre em função de presença de ouliers. Investigamos modelagem estatística de eventos extremos com base na teoria de valores extremos. Consideramos um modelo de regressão valor extremo introduzido por Barreto-Souza & Vasconcellos (2011). Os autores trataram da questão de corrigir o viés do estimador de máxima verossimilhança para pequenas amostras. Nosso primeiro objetivo é deduzir ajustes para testes de hipótese nesta classe de modelos. Derivamos a estatística da razão de verossimilhanças ajustada de Skovgaard (2001) e cinco ajustes da estatística da razão de verossimilhanças sinalizada, que foram propostos por Barndorff-Nielsen (1986, 1991), DiCiccio & Martin (1993), Skovgaard (1996), Severini (1999) e Fraser et al. (1999). As estatísticas ajustadas são aproximadamente distribuídas como uma distribuição $\\chi^2$ e normal padrão com alto grau de acurácia. Os termos dos ajustes têm formas compactas simples que podem ser facilmente implementadas em softwares disponíveis. Comparamos a performance do teste da razão de verossimilhanças, do teste da razão de verossimilanças sinalizada e dos testes ajustados obtidos neste trabalho em amostras pequenas. Ilustramos uma aplicação dos testes usuais e suas versões modificadas em conjuntos de dados reais. As distribuições das estatísticas ajustadas são mais próximas das respectivas distribuições limites comparadas com as distribuições das estatísticas usuais quando o tamanho da amostra é relativamente pequeno. Os resultados de simulação indicaram que as estatísticas ajustadas são recomendadas para inferência em modelo de regressão valor extremo quando o tamanho da amostra é moderado ou pequeno. Parcimônia é importante quando os dados são escassos, mas flexibilidade também é crucial pois um ajuste pobre pode levar a uma conclusão completamente errada. Uma revisão da literatura foi feita para listar as distribuições que são generalizações da distribuição Gumbel. Nosso segundo objetivo é avaliar a parcimônia e flexibilidade destas distribuições. Com este propósito, comparamos tais distribuições através de momentos, coeficientes de assimetria e de curtose e índice da cauda. As famílias mais amplas obtidas pela inclusão de parâmetros adicionais, que têm a distribuição Gumbel como caso particular, apresentam assimetria e curtose flexíveis enquanto a distribuição Gumbel apresenta tais características constantes. Dentre estas distribuições, a distribuição valor extremo generalizada é a única com índice da cauda que pode ser qualquer número real positivo enquanto os índices da cauda das outras distribuições são zero. Observamos que algumas generalizações da distribuição Gumbel estudadas na literatura são não identificáveis. Portanto, para estes modelos a interpretação e estimação de parâmetros individuais não é factível. Selecionamos as distribuições identificáveis e as ajustamos a um conjunto de dados simulado e a um conjunto de dados reais de velocidade de vento. Como esperado, tais distribuições se ajustaram bastante bem ao conjunto de dados simulados de uma distribuição Gumbel. A distribuição valor extremo generalizada e a mistura de duas distribuições Gumbel produziram melhores ajustes aos dados do que as outras distribuições na presença não desprezível de observações discrepantes que não podem ser acomodadas pela distribuição Gumbel e, portanto, sugerimos que tais distribuições devem ser utilizadas neste contexto. / The extreme value theory is applied in research fields such as hydrology, pollution studies, materials engineering, traffic management, economics and finance. The Gumbel distribution is widely used in statistical modeling of extreme values of a natural process such as rainfall and wind. Also, the Gumbel distribution is important in the context of survival analysis for modeling lifetime in logarithmic scale. The statistical modeling of extreme values of a natural process such as wind or humidity is important in environmental statistics; for example, understanding extreme wind speed is crucial in catastrophe/disaster protection. Lately this is of particular interest as extreme natural phenomena/episodes are more common and intense. The majority of papers on extreme value theory for modeling extreme data is supported by moderate or large sample sizes. The Gumbel distribution is often considered but the resulting fit may be poor in the presence of ouliers since its skewness and kurtosis are constant. We deal with statistical modeling of extreme events data based on extreme value theory. We consider a general extreme-value regression model family introduced by Barreto-Souza & Vasconcellos (2011). The authors addressed the issue of correcting the bias of the maximum likelihood estimators in small samples. Here, our first goal is to derive hypothesis test adjustments in this class of models. We derive Skovgaard\'s adjusted likelihood ratio statistics Skovgaard (2001) and five adjusted signed likelihood ratio statistics, which have been proposed by Barndorff-Nielsen (1986, 1991), DiCiccio & Martin (1993), Skovgaard (1996), Severini (1999) and Fraser et al. (1999). The adjusted statistics are approximately distributed as $\\chi^2$ and standard normal with high accuracy. The adjustment terms have simple compact forms which may be easily implemented by readily available software. We compare the finite sample performance of the likelihood ratio test, the signed likelihood ratio test and the adjusted tests obtained in this work. We illustrate the application of the usual tests and their modified versions in real datasets. The adjusted statistics are closer to the respective limiting distribution compared to the usual ones when the sample size is relatively small. Simulation results indicate that the adjusted statistics can be recommended for inference in extreme value regression model with small or moderate sample size. Parsimony is important when data are scarce, but flexibility is also crucial since a poor fit may lead to a completely wrong conclusion. A literature review was conducted to list distributions which nest the Gumbel distribution. Our second goal is to evaluate their parsimony and flexibility. For this purpose, we compare such distributions regarding moments, skewness, kurtosis and tail index. The larger families obtained by introducing additional parameters, which have Gumbel embedded in, present flexible skewness and kurtosis while the Gumbel distribution skewness and kurtosis are constant. Among these distributions the generalized extreme value is the only one with tail index that can be any positive real number while the tail indeces of the other distributions investigated here are zero. We notice that some generalizations of the Gumbel distribution studied in the literature are not indetifiable. Hence, for these models meaningful interpretation and estimation of individual parameters are not feasible. We select the identifiable distributions and fit them to a simulated dataset and to real wind speed data. As expected, such distributions fit the Gumbel simulated data quite well. The generalized extreme value distribution and the two-component extreme value distribution fit the data better than the others in the non-negligible presence of outliers that cannot be accommodated by the Gumbel distribution, and therefore we suggest them to be applied in this context.
|
Page generated in 0.0849 seconds