Spelling suggestions: "subject:"seleção dde modelos"" "subject:"seleção dee modelos""
11 |
Seleção de modelos cópula-GARCH: uma abordagem bayesiana / Copula-Garch model model selection: a bayesian approachJoão Luiz Rossi 04 June 2012 (has links)
Esta dissertação teve como objetivo o estudo de modelos para séries temporais bivariadas, que tem a estrutura de dependência determinada por meio de funções de cópulas. A vantagem desta abordagem é que as cópulas fornecem uma descrição completa da estrutura de dependência. Em termos de inferência, foi adotada uma abordagem Bayesiana com utilização dos métodos de Monte Carlo via cadeias de Markov (MCMC). Primeiramente, um estudo de simulações foi realizado para verificar como os seguintes fatores, tamanho das séries e variações nas funções de cópula, nas distribuições marginais, nos valores do parâmetro de cópula e nos métodos de estimação, influenciam a taxa de seleção de modelos segundo os critérios EAIC, EBIC e DIC. Posteriormente, foram realizadas aplicações a dados reais dos modelos com estrutura de dependência estática e variante no tempo / The aim of this work was to study models for bivariate time series, where the dependence structure among the series is modeled by copulas. The advantage of this approach is that copulas provide a complete description of dependence structure. In terms of inference was adopted the Bayesian approach with utilization of Markov chain Monte Carlo (MCMC) methods. First, a simulation study was performed to verify how the factors, length of the series and variations on copula functions, on marginal distributions, on copula parameter value and on estimation methods, may affect models selection rate given by EAIC, EBIC and DIC criteria. After that, we applied the models with static and time-varying dependence structure to real data
|
12 |
Modelos de regressão sobre dados composicionais / Regression model for Compositional dataAndré Pierro de Camargo 09 December 2011 (has links)
Dados composicionais são constituídos por vetores cujas componentes representam as proporções de algum montante, isto é: vetores com entradas positivas cuja soma é igual a 1. Em diversas áreas do conhecimento, o problema de estimar as partes $y_1, y_2, \\dots, y_D$ correspondentes aos setores $SE_1, SE_2, \\dots, SE_D$, de uma certa quantidade $Q$, aparece com frequência. As porcentagens $y_1, y_2, \\dots, y_D$ de intenção de votos correspondentes aos candidatos $Ca_1, Ca_2, \\dots, Ca_D$ em eleições governamentais ou as parcelas de mercado correspondentes a industrias concorrentes formam exemplos típicos. Naturalmente, é de grande interesse analisar como variam tais proporções em função de certas mudanças contextuais, por exemplo, a localização geográfica ou o tempo. Em qualquer ambiente competitivo, informações sobre esse comportamento são de grande auxílio para a elaboração das estratégias dos concorrentes. Neste trabalho, apresentamos e discutimos algumas abordagens propostas na literatura para regressão sobre dados composicionais, assim como alguns métodos de seleção de modelos baseados em inferência bayesiana. \\\\ / Compositional data consist of vectors whose components are the proportions of some whole. The problem of estimating the portions $y_1, y_2, \\dots, y_D$ corresponding to the pieces $SE_1, SE_2, \\dots, SE_D$ of some whole $Q$ is often required in several domains of knowledge. The percentages $y_1, y_2, \\dots, y_D$ of votes corresponding to the competitors $Ca_1, Ca_2, \\dots, Ca_D$ in governmental elections or market share problems are typical examples. Of course, it is of great interest to study the behavior of such proportions according to some contextual transitions. In any competitive environmet, additional information of such behavior can be very helpful for the strategists to make proper decisions. In this work we present and discuss some approaches proposed by different authors for compositional data regression as well as some model selection methods based on bayesian inference.\\\\
|
13 |
Avaliação e seleção de modelos em detecção não supervisionada de outliers / On the internal evaluation of unsupervised outlier detectionHenrique Oliveira Marques 23 March 2015 (has links)
A área de detecção de outliers (ou detecção de anomalias) possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Uma importante distinção se dá entre as técnicas supervisionadas e não supervisionadas. O presente trabalho enfoca as técnicas de detecção não supervisionadas. Existem dezenas de algoritmos desta categoria na literatura, porém cada um deles utiliza uma intuição própria do que deve ser considerado um outlier ou não, que é naturalmente um conceito subjetivo. Isso dificulta sensivelmente a escolha de um algoritmo em particular e também a escolha de uma configuração adequada para o algoritmo escolhido em uma dada aplicação prática. Isso também torna altamente complexo avaliar a qualidade da solução obtida por um algoritmo/configuração em particular adotados pelo analista, especialmente em função da problemática de se definir uma medida de qualidade que não seja vinculada ao próprio critério utilizado pelo algoritmo. Tais questões estão inter-relacionadas e se referem respectivamente aos problemas de seleção de modelos e avaliação (ou validação) de resultados em aprendizado de máquina não supervisionado. Neste trabalho foi desenvolvido um índice pioneiro para avaliação não supervisionada de detecção de outliers. O índice, chamado IREOS (Internal, Relative Evaluation of Outlier Solutions), avalia e compara diferentes soluções (top-n, i.e., rotulações binárias) candidatas baseando-se apenas nas informações dos dados e nas próprias soluções a serem avaliadas. O índice também é ajustado estatisticamente para aleatoriedade e extensivamente avaliado em vários experimentos envolvendo diferentes coleções de bases de dados sintéticas e reais. / Outlier detection (or anomaly detection) plays an important role in the pattern discovery from data that can be considered exceptional in some sense. An important distinction is that between the supervised and unsupervised techniques. In this work we focus on unsupervised outlier detection techniques. There are dozens of algorithms of this category in literature, however, each of these algorithms uses its own intuition to judge what should be considered an outlier or not, which naturally is a subjective concept. This substantially complicates the selection of a particular algorithm and also the choice of an appropriate configuration of parameters for a given algorithm in a practical application. This also makes it highly complex to evaluate the quality of the solution obtained by an algorithm or configuration adopted by the analyst, especially in light of the problem of defining a measure of quality that is not hooked on the criterion used by the algorithm itself. These issues are interrelated and refer respectively to the problems of model selection and evaluation (or validation) of results in unsupervised learning. Here we developed a pioneer index for unsupervised evaluation of outlier detection results. The index, called IREOS (Internal, Relative Evaluation of Outlier Solutions), can evaluate and compare different candidate (top-n, i.e., binary labelings) solutions based only upon the data information and the solution to be evaluated. The index is also statistically adjusted for chance and extensively evaluated in several experiments involving different collections of synthetic and real data sets.
|
14 |
Estrutura da comunidade de mamíferos de médio e grande porte em uma paisagem fragmentada com matriz de eucalipto, Capão Bonito e Buri, SP / Medium to large-sized mammal community structure in a fragmented landscape with eucalyptus matrix, Capão Bonito and Buri, SPLima, Elson Fernandes de 22 February 2013 (has links)
A conversão do uso do solo é uma das principais ameaçadas à fauna, pois a paisagem torna-se fragmentada e as áreas ocupadas por vegetação nativa são reduzidas, podendo alterar a estrutura das comunidades animais. Neste estudo, a comunidade de mamíferos de médio e grande porte (> 1 kg) foi avaliada em uma paisagem fragmentada com matriz de eucalipto, no sul do Estado de São Paulo, municípios de Buri e Capão Bonito (23°52\'47\" S; 48°23\'24\" O), através de três métodos distintos instalados conjuntamente (parcelas de areia, camera-trap e scent stations - nesta última foram utilizadas iscas atrativas específicas para carnívoros e onívoros, Canine Call® e Pro\'s Choice®). Os objetivos desta dissertação foram: i) avaliar a estrutura dessa comunidade em função da estrutura da paisagem; ii) comparar métodos de amostragem utilizados, discutindo sua aplicação. O levantamento das espécies foi realizado em cinco campanhas de cinco dias cada, entre 2010-2012, com unidades amostrais instaladas na matriz, nos corredores e nos fragmentos florestais, sendo que os elementos da paisagem foram avaliados em buffers de 250, 500, 1000 e 2000 m. Foram registradas 20 espécies de mamíferos de médio e grande porte, sendo a maioria (n=18) encontrada nos ambientes ocupados por vegetação nativa. Embora em menor número, várias espécies foram registradas na matriz. Outras medidas de biodiversidade como riqueza de grupos e diversidade funcional foram avaliados, no entanto, foram redundantes ao número de espécies. As proporções de vegetação nativa, a 250 e 2000 m, foram as mais importantes para explicar a frequência de registros de diversas espécies. Em termos de composição, os conjuntos de espécies obtidos nos remanescentes e corredores florestais foram semelhantes. Dentre os métodos de amostragem, as parcelas de areia demonstraram ser mais eficientes em estudos curtos, porém, seu custo financeiro é significativamente superior para estudos de longo prazo. A utilização de iscas odoríferas é uma inovação na região neotropical, apesar de suas incertezas na atração da fauna. Uma desvantagem desses métodos é que várias espécies não podem ser precisamente identificadas, dada a semelhança dos rastros, o que raramente ocorre com a utilização de cameras-trap, onde os espécimes são visualizados em fotografias, permitindo uma identificação segura. As diferentes metodologias utilizadas apresentaram taxas de registros distintas, ou seja, não foram capazes de identificar a mesma comunidade, entretanto, as estimativas de riqueza, quando avaliadas separadamente, indicam que os três atingiriam o mesmo resultado final. Este estudo sugere que paisagens silviculturais fragmentadas podem ser importantes para a conservação de mamíferos se bem planejadas, como a manutenção de manchas de habitat em bons estados de conservação e corredores que conectem os elementos florestais. Além disso, a utilização dos métodos de amostragem deve ser planejados de acordo com a finalidade do estudo. / The land use conversion is a major threat to wildlife because the landscape becomes fragmented and the areas occupied by native vegetation are reduced, altering the structure of animal communities. In this study, the medium to large-sized mammal community (> 1 kg) was evaluated in a fragmented landscape in eucalyptus matrix, in the southern São Paulo State, Buri and Capão Bonito municipalities (23°52\'47\" S, 48°23\'24\" W), using three different methods installed together (sand plots, camera-trap and scent stations, where were used specific baits to carnivores and omnivores, Canine Call® and Pro\'s Choice®). The objectives of this work were: i) to evaluate the structure of the community as a function of landscape structure, ii) compare sampling methods used, discussing their application. The species sampling was conducted in five campaigns of five days each, between 2010-2012, with sampling units installed in the matrix, corridors and forest fragments. The landscape elements were evaluated in buffers with 250, 500, 1000 and 2000 m around. We recorded 20 medium and large mammals species, the majority (n=18) found in y native vegetation (corridors and habitat patches). Although only several species were recorded in the matrix. Other measures of biodiversity as a functional group richness and functional diversity were evaluated, however, the results were the same obtained to species richness. The proportions of native vegetation, 250 and 2000 m, were most important in explaining the records frequency for many species. In terms of composition, the assemblage obtained in the habitat patches and forest corridors were similar. Among the methods of sampling, the sand plots was more effective in short-term assessment, however, its financial cost is significantly higher for long-term studies. The use of lure in scent stations is an innovation in the Neotropical, despite their uncertainties in attracting the animals. A disadvantage of these methods is that several species cannot be accurately identified because of the similarity of the tracks, which rarely occurs with the use of cameras-trap, where the specimens are shown in photographs, allowing a reliable identification. The different methodologies used showed different rates of records, or were not able to identify the same community, however, the richness estimates, when evaluated separately, indicate that the three would achieve the same result. This study suggests that forestry fragmented landscapes may be important for mammals conservation if well planned, such as the maintenance of habitat patches and corridors that connect the remaining habitat fragments. Furthermore, the use of sampling method must be planned according to the purpose of study.
|
15 |
Uma modelagem estatística aplicada ao controle biológico da praga que ataca a cultura do algodão / An statistical model applied to the biological control of the pest that attacks the cotton cropTaveira, Abraão de Paula 02 October 2017 (has links)
As distribuições de probabilidade gama, normal inversa, Weibull, log-normal e exponencial são uma boa alternativa para modelar observações associadas ao tempo, pois, em geral, a variável tempo possui assimetria à esquerda ou à direita, o que caracteriza as distribuições citadas anteriormente. O objetivo deste trabalho constitui-se em avaliar o comportamento dos predadores, Euborellia annulipes (\"Tesourinha\") e Harmonia axyridis (\"Joaninha\"), em relação à praga conhecida como Aphis gossypii (\"Pulgão\"). Outra pretensão deste trabalho é a aplicação da modelagem estatística, dando ênfase as técnicas dos modelos lineares generalizados e análise de sobrevivência, as quais foram aplicadas aos dados provenientes de um experimento, instalado no Laboratório de Ecologia de Insetos da Escola Superior de Agricultura \"Luiz de Queiroz\" (ESALQ). O experimento foi composto por 21 repetições, sendo cada repetição efetuada por meio de uma placa de Petri medido 60 X 15 mm. Em cada placa foi liberado um pulgão adulto áptero na parte central, tendo três pesquisadores responsáveis por observar a varável definida como tempo de ataque. Inicialmente, foram ajustados os modelos com distribuição gama e diferentes funções de ligação, e o modelo com a distribuição normal inversa com função de ligação canônica. Esses modelos foram ajustados aos dados desconsiderando as censuras, em que por meio do gráfico half-normal plot e testes de hipóteses, verificou que o modelo com a distribuição normal inversa com função de ligação canônica, apresentou o melhor ajuste. Posteriormente, foram ajustados os modelos exponencial, Weibull e log-normal para os dados considerando as censuras, os quais foram avaliados mediante o teste de razão de verossimilhança, sendo o modelo log-normal mais apropriado aos dados. / The probability density function of gamma, inverse normal, Weibull, log-normal and exponential distributions are good alternatives for modelling observations related with time, since, in general, the time variable has left or right asymmetry, which characterizes the distributions previously mentioned . The aim of this work is the application of statistical modeling, emphasizing the techniques of generalized linear models and survival analysis, which were applied to data from an experiment, installed in the Laboratory of Insect Ecology of the \"Luiz de Queiroz\" College of Agriculture (ESALQ), in which the goal of this experiment was to evaluate the behavior of predators, Euborellia annulipes (\"ring-legged earwig\") and Harmonia axyridis (\"Ladybird\"), in relation to the pest known as Aphis. The experiment was composed of 21 replicates, each replicate being done by means of a petri dish measured 60 X 15 mm. On each plate an adult aphid was released in the central part, with three researchers responsible. The model with distribution was used to determine the variance, which was defined as the attack time. Normal distribution with canonical link function. These models were adjusted to the data disregarding censorship, in which through the half-normal plot and hypothesis tests, verified that the model with the normal inverse distribution with canonical link function, presented the best fit. Subsequently, the exponential, Weibull and log-normal models were adjusted for the data considering the censorship, which were evaluated by the likelihood ratio test, the log-normal model being more appropriate to the data.
|
16 |
Seleção de modelos econométricos não aninhados: J-Teste e FBST / Non nested econometric model selection: J-Test and FBSTCerezetti, Fernando Valvano 26 October 2007 (has links)
A comparação e seleção de modelos estatísticos desempenham um papel fundamental dentro da análise econométrica. No que se trata especificamente da avaliação de modelos não aninhados, o procedimento de teste denominado de J-Teste aparece como uma ferramenta de uso freqüente nessa literatura. De acordo com apontamentos, entre os anos de 1984 e 2004 o J-Teste foi citado em 497 artigos pertinentes. Diferentemente do J-Teste, as abordagens Bayesianas possuem um potencial de aplicabilidade ainda pouco explorado na literatura, dado que são metodologicamente coerentes com os procedimentos inferenciais da econometria. Nesse sentido, o objetivo do presente trabalho é o de avaliar a aplicabilidade do procedimento de teste Bayesiano FBST para a comparação de modelos econométricos não aninhados. Implementando-se o FBST para os mesmos dados de estudos estatísticos relevantes na Teoria Econômica, tais como Bremmer (2003) (Curva de Phillips) e Caporale e Grier (2000) (determinação da taxa de juros real), constata-se que os resultados obtidos apontam para conclusões semelhantes daquelas delineadas com a utilização do J-Teste. Além disso, ao se utilizar a noção de função poder para avaliar ambos os procedimentos de teste, observa-se que sob certas condições as chances de erro expressas pelo Erro Tipo I e Erro Tipo II se tornam relativamente próximas. / The comparison and selection of statistical models play an important role in econometric analysis. Dealing with evaluation of non nested models, the test procedure called J-Test is a frequently used tool in the literature. Accordingly to statistics, between the years 1894 and 2004 the J-Test was cited on 497 pertinent articles. Differently from J-Test, the Bayesian theories have an unexplored applicability potential in the literature, once they are methodologically coherent with the standard procedures of inference in econometrics. In this sense, the objective of this essay is to evaluate the applicability of the Bayesian procedure FBST to comparison of non nested econometric models. Implementing the FBST to the same data of some relevant statistical studies in Economic Theory, like Bremmer (2003) (Phillips Curve) and Caporale and Grier (2000) (real interest rate determination), it can be seen that the results obtained point to the same conclusions as that attained with J-Test utilization. Besides that, when implementing the power function to evaluate both test procedures, it can be observed that under some conditions the error chances expressed by Error Type I and Error Type II become relatively close.
|
17 |
Projeção de preços de alumínio: modelo ótimo por meio de combinação de previsões / Aluminum price forecasting: optimal forecast combinationCastro, João Bosco Barroso de 15 June 2015 (has links)
Commodities primárias, tais como metais, petróleo e agricultura, constituem matérias-primas fundamentais para a economia mundial. Dentre os metais, destaca-se o alumínio, usado em uma ampla gama de indústrias, e que detém o maior volume de contratos na London Metal Exchange (LME). Como o preço não está diretamente relacionado aos custos de produção, em momentos de volatilidade ou choques econômicos, o impacto financeiro na indústria global de alumínio é significativo. Previsão de preços do alumínio é fundamental, portanto, para definição de política industrial, bem como para produtores e consumidores. Este trabalho propõe um modelo ótimo de previsões para preços de alumínio, por meio de combinações de previsões e de seleção de modelos através do Model Confidence Set (MCS), capaz de aumentar o poder preditivo em relação a métodos tradicionais. A abordagem adotada preenche uma lacuna na literatura para previsão de preços de alumínio. Foram ajustados 5 modelos individuais: AR(1), como benchmarking, ARIMA, dois modelos ARIMAX e um modelo estrutural, utilizando a base de dados mensais de janeiro de 1999 a setembro de 2014. Para cada modelo individual, foram geradas 142 previsões fora da amostra, 12 meses à frente, por meio de uma janela móvel de 36 meses. Nove combinações de modelos foram desenvolvidas para cada ajuste dos modelos individuais, resultando em 60 previsões fora da amostra, 12 meses à frente. A avaliação de desempenho preditivo dos modelos foi realizada por meio do MCS para os últimos 60, 48 e 36 meses. Um total de 1.250 estimações foram realizadas e 1.140 variáveis independentes e suas transformadas foram avaliadas. A combinação de previsões usando ARIMA e um ARMAX foi o único modelo que permaneceu no conjunto de modelos com melhor acuracidade de previsão para 36, 48 e 60 meses a um nível descritivo do MCS de 0,10. Para os últimos 36 meses, o modelo combinado proposto apresentou resultados superiores em relação a todos os demais modelos. Duas co-variáveis identificadas no modelo ARMAX, preço futuro de três meses e estoques mundiais, aumentaram a acuracidade de previsão. A combinação ótima apresentou um intervalo de confiança pequeno, equivalente a 5% da média global da amostra completa analisada, fornecendo subsídio importante para tomada de decisão na indústria global de alumínio. iii / Primary commodities, including metals, oil and agricultural products are key raw materials for the global economy. Among metals, aluminum stands out for its large use in several industrial applications and for holding the largest contract volume on the London Metal Exchange (LME). As the price is not directly related to production costs, during volatility periods or economic shocks, the financial impact on the global aluminum industry is significant. Aluminum price forecasting, therefore, is critical for industrial policy as well as for producers and consumers. This work has proposed an optimal forecast model for aluminum prices by using forecast combination and the Model Confidence Set for model selection, resulting in superior performance compared to tradicional methods. The proposed approach was not found in the literature for aluminum price forecasting. Five individual models were developed: AR(1) for benchmarking, ARIMA, two ARIMAX models and a structural model, using monthly data from January 1999 to September 2014. For each individual model, 142 out-of-sample, 12 month ahead, forecasts were generated through a 36 month rolling window. Nine foreast combinations were deveoped for each individual model estimation, resulting in 60 out-of-sample, 12 month ahead forecasts. Model predictive performace was assessed through the Model Confidence Set for the latest 36, 48, and 60 months, through 12-month ahead out-of-sample forecasts. A total of 1,250 estimations were performed and 1,140 independent variables and their transformations were assessed. The forecast combination using ARMA and ARIMAX was the only model among the best set of models presenting equivalent performance at 0.10 MCS p-value in all three periods. For the latest 36 months, the proposed combination was the best model at 0.1 MCS p-value. Two co-variantes, identified for the ARMAX model, namely, 3-month forward price and global inventories increased forecast accuracy. The optimal forecast combination has generated a small confidence interval, equivalent to 5% of average aluminum price for the entire sample, proving relevant support for global industry decision makers.
|
18 |
Análise Bayesiana de modelos de mistura finita com dados censurados / Bayesian analysis of finite mixture models with censored dataMelo, Brian Alvarez Ribeiro de 21 February 2017 (has links)
Misturas finitas são modelos paramétricos altamente flexíveis, capazes de descrever diferentes características dos dados em vários contextos, especialmente na análise de dados heterogêneos (Marin, 2005). Geralmente, nos modelos de mistura finita, todas as componentes pertencem à mesma família paramétrica e são diferenciadas apenas pelo vetor de parâmetros associado a essas componentes. Neste trabalho, propomos um novo modelo de mistura finita, capaz de acomodar observações censuradas, no qual as componentes são as densidades das distribuições Gama, Lognormal e Weibull (mistura GLW). Essas densidades são reparametrizadas, sendo reescritas em função da média e da variância, uma vez que estas quantidades são mais difundidas em diversas áreas de estudo. Assim, construímos o modelo GLW e desenvolvemos a análise de tal modelo sob a perspectiva bayesiana de inferência. Essa análise inclui a estimação, através de métodos de simulação, dos parâmetros de interesse em cenários com censura e com fração de cura, a construção de testes de hipóteses para avaliar efeitos de covariáveis e pesos da mistura, o cálculo de medidas para comparação de diferentes modelos e estimação da distribuição preditiva de novas observações. Através de um estudo de simulação, avaliamos a capacidade da mistura GLW em recuperar a distribuição original dos tempos de falha utilizando testes de hipóteses e estimativas do modelo. Os modelos desenvolvidos também foram aplicados no estudo do tempo de seguimento de pacientes com insuficiência cardíaca do Instituto do Coração da Faculdade de Medicina da Universidade de São Paulo. Nesta aplicação, os resultados mostram uma melhor adequação dos modelos de mistura em relação à utilização de apenas uma distribuição na modelagem dos tempos de seguimentos. Por fim, desenvolvemos um pacote para o ajuste dos modelos apresentados no software R. / Finite mixtures are highly flexible parametric models capable of describing different data features and are widely considered in many contexts, especially in the analysis of heterogeneous data (Marin, 2005). Generally, in finite mixture models, all the components belong to the same parametric family and are only distinguished by the associated parameter vector. In this thesis, we propose a new finite mixture model, capable of handling censored observations, in which the components are the densities from the Gama, Lognormal and Weibull distributions (the GLW finite mixture). These densities are rewritten in such a way that the mean and the variance are the parameters, since the interpretation of such quantities is widespread in various areas of study. In short, we constructed the GLW model and developed its analysis under the bayesian perspective of inference considering scenarios with censorship and cure rate. This analysis includes the parameter estimation, wich is made through simulation methods, construction of hypothesis testing to evaluate covariate effects and to assess the values of the mixture weights, computatution of model adequability measures, which are used to compare different models and estimation of the predictive distribution for new observations. In a simulation study, we evaluated the feasibility of the GLW mixture to recover the original distribution of failure times using hypothesis testing and some model estimated quantities as criteria for selecting the correct distribution. The models developed were applied in the study of the follow-up time of patients with heart failure from the Heart Institute of the University of Sao Paulo Medical School. In this application, results show a better fit of mixture models, in relation to the use of only one distribution in the modeling of the failure times. Finally, we developed a package for the adjustment of the presented models in software R.
|
19 |
Seleção de modelos multiníveis para dados de avaliação educacional / Selection of multilevel models for educational evaluation dataCoelho, Fabiano Rodrigues 11 August 2017 (has links)
Quando um conjunto de dados possui uma estrutura hierárquica, uma possível abordagem são os modelos de regressão multiníveis, que se justifica pelo fato de haver uma porção significativa da variabilidade dos dados que pode ser explicada por níveis macro. Neste trabalho, desenvolvemos a seleção de modelos de regressão multinível aplicados a dados educacionais. Esta análise divide-se em duas partes: seleção de variáveis e seleção de modelos. Esta última subdivide-se em dois casos: modelagem clássica e modelagem bayesiana. Buscamos através de critérios como o Lasso, AIC, BIC, WAIC entre outros, encontrar quais são os fatores que influenciam no desempenho em matemática dos alunos do nono ano do ensino fundamental do estado de São Paulo. Também investigamos o funcionamento de cada um dos critérios de seleção de variáveis e de modelos. Foi possível concluir que, sob a abordagem frequentista, o critério de seleção de modelos BIC é o mais eficiente, já na abordagem bayesiana, o critérioWAIC apresentou melhores resultados. Utilizando o critério de seleção de variáveis Lasso para abordagem clássica, houve uma diminuição de 34% dos preditores do modelo. Por fim, identificamos que o desempenho em matemática dos estudantes do nono ano do ensino fundamental do estado de São Paulo é influenciado pelas seguintes covariáveis: grau de instrução da mãe, frequência de leitura de livros, tempo gasto com recreação em dia de aula, o fato de gostar de matemática, o desempenho em matemática global da escola, desempenho em língua portuguesa do aluno, dependência administrativa da escola, sexo, grau de instrução do pai, reprovações e distorção idade-série. / When a dataset contains a hierarchical data structure, a possible approach is the multilevel regression modelling, which is justified by the significative amout of the data variability that can be explained by macro level processes. In this work, a selection of multilevel regression models for educational data is developed. This analysis is divided into two parts: variable selection and model selection. The latter is subdivided into two categories: classical and Bayesian modeling. Traditional criteria for model selection such as Lasso, AIC, BIC, and WAIC, among others are used in this study as an attempt to identify the factors influencing ninth grade students performance in Mathematics of elementary education in the State of São Paulo. Likewise, an investigation was conducted to evaluate the performance of each variable selection criteria and model selection methods applied to fitted models that will be mentioned throughout this work. It was possible to conclude that, under the frequentist approach, BIC is the most efficient, whereas under the bayesian approach, WAIC presented better results. Using Lasso under the frequentist approach, a decrease of 34% on the number of predictors was observed. Finally, we identified that the performance in Mathematics of students in the ninth year of elementary school in the state of São Paulo is most influenced by the following covariates: mothers educational level, frequency of book reading, time spent with recreation in classroom, the fact of liking Math, school global performance in Mathematics, performance in Portuguese, school administrative dependence, gender, fathers educational degree, failures and age-grade distortion.
|
20 |
Análise Bayesiana de modelos de mistura finita com dados censurados / Bayesian analysis of finite mixture models with censored dataBrian Alvarez Ribeiro de Melo 21 February 2017 (has links)
Misturas finitas são modelos paramétricos altamente flexíveis, capazes de descrever diferentes características dos dados em vários contextos, especialmente na análise de dados heterogêneos (Marin, 2005). Geralmente, nos modelos de mistura finita, todas as componentes pertencem à mesma família paramétrica e são diferenciadas apenas pelo vetor de parâmetros associado a essas componentes. Neste trabalho, propomos um novo modelo de mistura finita, capaz de acomodar observações censuradas, no qual as componentes são as densidades das distribuições Gama, Lognormal e Weibull (mistura GLW). Essas densidades são reparametrizadas, sendo reescritas em função da média e da variância, uma vez que estas quantidades são mais difundidas em diversas áreas de estudo. Assim, construímos o modelo GLW e desenvolvemos a análise de tal modelo sob a perspectiva bayesiana de inferência. Essa análise inclui a estimação, através de métodos de simulação, dos parâmetros de interesse em cenários com censura e com fração de cura, a construção de testes de hipóteses para avaliar efeitos de covariáveis e pesos da mistura, o cálculo de medidas para comparação de diferentes modelos e estimação da distribuição preditiva de novas observações. Através de um estudo de simulação, avaliamos a capacidade da mistura GLW em recuperar a distribuição original dos tempos de falha utilizando testes de hipóteses e estimativas do modelo. Os modelos desenvolvidos também foram aplicados no estudo do tempo de seguimento de pacientes com insuficiência cardíaca do Instituto do Coração da Faculdade de Medicina da Universidade de São Paulo. Nesta aplicação, os resultados mostram uma melhor adequação dos modelos de mistura em relação à utilização de apenas uma distribuição na modelagem dos tempos de seguimentos. Por fim, desenvolvemos um pacote para o ajuste dos modelos apresentados no software R. / Finite mixtures are highly flexible parametric models capable of describing different data features and are widely considered in many contexts, especially in the analysis of heterogeneous data (Marin, 2005). Generally, in finite mixture models, all the components belong to the same parametric family and are only distinguished by the associated parameter vector. In this thesis, we propose a new finite mixture model, capable of handling censored observations, in which the components are the densities from the Gama, Lognormal and Weibull distributions (the GLW finite mixture). These densities are rewritten in such a way that the mean and the variance are the parameters, since the interpretation of such quantities is widespread in various areas of study. In short, we constructed the GLW model and developed its analysis under the bayesian perspective of inference considering scenarios with censorship and cure rate. This analysis includes the parameter estimation, wich is made through simulation methods, construction of hypothesis testing to evaluate covariate effects and to assess the values of the mixture weights, computatution of model adequability measures, which are used to compare different models and estimation of the predictive distribution for new observations. In a simulation study, we evaluated the feasibility of the GLW mixture to recover the original distribution of failure times using hypothesis testing and some model estimated quantities as criteria for selecting the correct distribution. The models developed were applied in the study of the follow-up time of patients with heart failure from the Heart Institute of the University of Sao Paulo Medical School. In this application, results show a better fit of mixture models, in relation to the use of only one distribution in the modeling of the failure times. Finally, we developed a package for the adjustment of the presented models in software R.
|
Page generated in 0.0555 seconds