Global ETD Search

1	[en] A COMPARATIVE STUDY OF METHODOLOGIES FOR MODELLING COMPLEX SURVEYS MODELLING - AN APPLICATION TO SAEB 99 / [pt] UM ESTUDO COMPARATIVO DAS METODOLOGIAS DE MODELAGEM DE DADOS AMOSTRAIS COMPLEXOS: UMA APLICAÇÃO AO SAEB 99 / [es] UN ESTUDIO COMPARATIVO DE LAS METODOLOGÍAS DE MODELAJE DE DATOS PROVENIENTES DE MUESTREOS COMPLEJOS UNA APLICACIÓN AL SAEB 99 MARCEL DE TOLEDO VIEIRA 23 July 2001 (has links) [pt] A consideração do desenho amostral é fundamental e indispensável em trabalhos que têm como objetivo a análise e modelagem de dados selecionados através de desenhos amostrais complexos. Desta forma torna-se possível a produção de resultados realmente úteis e confiáveis para os gestores de políticas públicas. O principal objetivo desta dissertação é chamar a atenção para a importância da utilização das técnicas adequadas ao tratamento de dados amostrais complexos, discutindo também as conseqüências de sua não adoção. As metodologias adequadas para a análise de dados amostrais complexos podem ser agrupadas em duas abordagens. A primeira, denominada de abordagem agregada, se baseia na incorporação de pesos e efeitos do plano amostral no ajuste dos modelos estatísticos. Através da outra abordagem, que é denominada de abordagem desagregada, a lógica de modelagem é modificada, incorporando os efeitos devidos à amostragem complexa. Isto pode ser feito através do uso de modelos lineares hierárquicos, ou multinível. Os dados analisados nesta dissertação foram coletados pelo Sistema Nacional de Avaliação da Educação Básica (SAEB) no ano de 1999. Esta pesquisa compreende um exame de conhecimentos e um levantamento sobre condições sócio-econômico-demográficas de mais de 200.000 alunos, suas escolas, professores e diretores. A amostra do SAEB 99 foi selecionada a partir de um plano amostral complexo. O desenho amostral do SAEB 99 considera amostragem aleatória estratificada de unidades conglomeradas, com múltiplas etapas. A estimação pontual de estatísticas descritivas a partir de dados amostrais complexos não apresenta grandes dificuldades na medida em que se utiliza de forma adequada os pesos na expansão da amostra. Será ilustrada, através de um exemplo, a importância dos pesos amostrais na estimação. Será verificado que sua não adoção no cálculo da média, na situação em questão, poderia gerar resultados superestimados. Nesta dissertação serão apresentados aspectos teóricos das técnicas (adequadas a dados amostrais complexos) de estimação pontual de parâmetros de modelos de regressão e de suas respectivas variâncias. Também é realizada uma discussão sobre o efeito do plano amostral, intervalos de confiança e testes de hipóteses, e sobre o pacote SUDAAN. Serão apresentados os resultados da aplicação das técnicas estudadas. Paralelamente, será conduzido um estudo dos determinantes da proficiência dos alunos. Ainda, serão apresentadas e analisadas as conseqüências de não se considerar o desenho amostral na estimação dos parâmetros dos modelos e de suas respectivas variâncias, para o SAEB 99. Será realizada uma interpretação educacional dos resultados apresentados. / [en] It is very important to consider the sample design in the analysis and modelling of complex survey data. It permits the production of correct results, which can be used for public political decision making and evaluation. The main objective of this dissertation is to give information about the importance of the use of the techniques for complex survey data. The methodologies for complex survey data analysis can be divided in two different approaches. The first is based on incorporating weights and design effects in the fitting of usual statistical models, such as contingency tables, regression, etc. This approach is called aggregated approach. The other approach, called disaggregated approach, modifies the model attempting to incorporate the complex population structure and/or design effects, for example using hierarchical (or multilevel) linear models. The data analysed in this dissertation were collected by the Brazilian National System of Basic Education Assessment (SAEB), in 1999. This survey applies an exam and asks social-economic-demographic information about more than 200.000 students, schools and teachers. The SAEB 99 sample were selected by a complex survey design, considering stratification and conglomeration, with multiples steps. There is not any problem in estimation of descriptive statistics, such as means, correlation and regression coefficients, provided that we correctly use the sample weights to expand the data. An example will be presented to verify the importance of the use of the sample weights. The theoretical aspects of the techniques for the estimation of regression model parameters and their variances will be presented. The design effect, confidence intervals, significance tests, and SUDAAN characteristics will also be discussed. The application of these techniques will be presented. It will be also conducted a study of the determinants of the student proficiency. It still will be presented and analysed the consequences of the non- consideration of the sample design in the estimation of parameters and their variances, for SAEB 99 data. The results will be educationally interpreted. / [es] La consideración del diseño muestral es fundamental e indispensable en trabajos que tienen como objetivo el análisis y modelaje de datos selecionados a través de diseños muestrales complejos. De esta forma es posible la producción de resultados realmente útiles y confiables para los gestores de políticas públicas. EL objetivo principal de esta disertación es llamar la atención para la importancia de la utilización de las técnicas adecuadas al tratamiento de datos muestrales complejos, discutiendo también las consecuencias de no adoptarlas. Las metodologías adecuadas para el análisis de datos muestrales complejos pueden ser agrupadas en dos abordajes. La primera, denominada de abordaje agregado, consiste en la incorporación de pesos y efectos del plano muestral en el ajuste de los modelos estadísticos. A través del otro abordaje, denominado de abordaje desagregado, se modifica la lógica, incorporando los efectos debidos al muestreo complejo. Esto puede realizarse a través del uso de modelos lineales jerárquicos, o multiníveles. Los datos analizados en esta disertación fueron colectados por el Sistema Nacional de Evaluación de la Educación Básica (SAEB) en el año de 1999. Esta investigación comprende un exámen de conocimientos y un levantamiento sobre condiciones socioeconómicas-demográficas de más de 200.000 alumnos, sus escuelas, profesores y directores. La muestra del SAEB 99 fue seleccionada a partir de un diseño muestral complejo. El diseño muestral del SAEB 99 considera el muestreo aleatório estratificado de unidades conglomeradas, con múltiples etapas. La estimación puntual de estadísticas descriptivas a partir de datos muestrales complejos no presenta grandes dificuldades si se utiliza de forma adecuada los pesos en la expansión de la muestra. Se ilustrará, a través de un ejemplo, la importancia de los pesos muestrales en la estimación. Será verificado que la no adopción de estos pesos en el cálculo de la media, podería generar resultados superestimados. En esta disertación serán presentados aspectos teóricos de las técnicas (adecuadas a datos de muestras complejas) de estimación puntual de parámetros de modelos de regresión y de sus respectivas varianzas. Se discute también el efecto del diseño muestral, intervalos de confianza y testes de hipótesis, y el paquete SUDAAN. Serán presentados los resultados de la aplicación de las técnicas estudiadas. Paralelamente, se estudian los determinantes de la proficiencia de los alumnos. Se presentan y analizan también, las consecuencias de no considerar el diseño muestral en la estimación de los parámetros del modelos y de sus respectivas varianzas, para el SAEB 99. Será realizada una interpretación educacional de los resultados presentados. [pt] PESQUISA COMPLEXA [pt] LINEARIZACAO [pt] PSEUDO-SEMELHANCA MAXIMA [pt] ABORDAGEM AGREGADA [en] COMPLEX SURVEY [en] LINEARIZATION [en] MAXIMUM PSEUDO-LIKELIHOOD [en] AGGREGATED APPROACH
2	Combinação de modelos de campos aleatórios markovianos para classificação contextual de imagens multiespectrais / Combining markov random field models for multispectral image contextual classification Levada, Alexandre Luis Magalhães 05 May 2010 (has links) Este projeto de doutorado apresenta uma nova abordagem MAP-MRF para a classificação contextual de imagens multiespectrais utilizando combinação de modelos de Campos Aleatórios Markovianos definidos em sistemas de ordens superiores. A modelagem estatística para o problema de classificação segue o paradigma Bayesiano, com a definição de um modelo Markoviano para os dados observados (Gaussian Markov Random Field multiespectral) e outro modelo para representar o conhecimento a priori (Potts). Nesse cenário, o parâmetro β do modelo de Potts atua como um parâmetro de regularização, tendo papel fundamental no compromisso entre as observações e o conhecimento a priori, de modo que seu correto ajuste é necessário para a obtenção de bons resultados. A introdução de sistemas de vizinhança de ordens superiores requer a definição de novos métodos para a estimação dos parâmetros dos modelos Markovianos. Uma das contribuições desse trabalho é justamente propor novas equações de pseudo-verossimilhança para a estimação desses parâmetros no modelo de Potts em sistemas de segunda e terceira ordens. Apesar da abordagem por máxima pseudo-verossimilhança ser amplamente utilizada e conhecida na literatura de campos aleatórios, pouco se conhece acerca da acurácia dessa estimação. Foram derivadas aproximações para a variância assintótica dos estimadores propostos, caracterizando-os completamente no caso limite, com o intuito de realizar inferências e análises quantitativas sobre os parâmetros dos modelos Markovianos. A partir da definição dos modelos e do conhecimento dos parâmetros, o próximo estágio é a classificação das imagens multiespectrais. A solução para esse problema de inferência Bayesiana é dada pelo critério de estimação MAP, onde a solução ótima é determinada maximizando a probabilidade a posteriori, o que define um problema de otimização. Como não há solução analítica para esse problema no caso de prioris Markovianas, algoritmos iterativos de otimização combinatória foram empregados para aproximar a solução ótima. Nesse trabalho, adotam-se três métodos sub-ótimos: Iterated Conditional Modes, Maximizer of the Posterior Marginals e Game Strategy Approach. Porém, é demonstrado na literatura que tais métodos convergem para máximos locais e não globais, pois são altamente dependentes de sua condição inicial. Isto motivou o desenvolvimento de uma nova abordagem para combinação de classificadores contextuais, que utiliza múltiplas inicializações simultâneas providas por diferentes classificadores estatísticos pontuais. A metodologia proposta define um framework MAP-MRF bastante robusto para solução de problemas inversos, pois permite a utilização e a integração de diferentes condições iniciais em aplicações como classificação, filtragem e restauração de imagens. Como medidas quantitativas de desempenho, são adotados o coeficiente Kappa de Cohen e o coeficiente Tau de Kendall para verificar a concordância entre as saídas dos classificadores e a verdade terrestre (amostras pré-rotuladas). Resultados obtidos mostram que a inclusão de sistemas de vizinhança de ordens superiores é de fato capaz de melhorar significativamente não apenas o desempenho da classificação como também a estimação dos parâmetros dos modelos Markovianos, reduzindo tanto o erro de estimação quanto a variância assintótica. Além disso, a combinação de classificadores contextuais através da utilização de múltiplas inicializações simultâneas melhora significativamente o desempenho da classificação se comparada com a abordagem tradicional com apenas uma inicialização. / This work presents a novel MAP-MRF approach for multispectral image contextual classification by combining higher-order Markov Random Field models. The statistical modeling follows the Bayesian paradigm, with the definition of a multispectral Gaussian Markov Random Field model for the observations and a Potts MRF model to represent the a priori knowledge. In this scenario, the Potts MRF model parameter (β) plays the role of a regularization parameter by controlling the tradeoff between the likelihood and the prior knowledge, in a way that a suitable tunning for this parameter is required for a good performance in contextual classification. The introduction of higher-order MRF models requires the specification of novel parameter estimation methods. One of the contributions of this work is the definition of novel pseudo-likelihood equations for the estimation of these MRF parameters in second and third order neighborhood systems. Despite its widely usage in practical MRF applications, little is known about the accuracy of maximum pseudo-likelihood approach. Approximations for the asymptotic variance of the proposed MPL estimators were derived, completely characterizing their behavior in the limiting case, allowing statistical inference and quantitative analysis. From the statistical modeling and having the model parameters estimated, the next step is the multispectral image classification. The solution for this Bayesian inference problem is given by the MAP criterion, where the optimal solution is obtained by maximizing the a posteriori distribution, defining an optimization problem. As there is no analytical solution for this problem in case of Markovian priors, combinatorial optimization algorithms are required to approximate the optimal solution. In this work, we use three suboptimal methods: Iterated Conditional Modes, Maximizer of the Posterior Marginals and Game Strategy Approach, a variant approach based on non-cooperative game theory. However, it has been shown that these methods converge to local maxima solutions, since they are extremelly dependent on the initial condition. This fact motivated the development of a novel approach for combination of contextual classifiers, by making use of multiple initializations at the same time, where each one of these initial conditions is provided by different pointwise pattern classifiers. The proposed methodology defines a robust MAP-MRF framework for the solution of general inverse problems since it allows the use and integration of several initial conditions in a variety of applications as image classification, denoising and restoration. To evaluate the performance of the classification results, two statistical measures are used to verify the agreement between the classifiers output and the ground truth: Cohens Kappa and Kendalls Tau coefficient. The obtained results show that the use of higher-order neighborhood systems is capable of significantly improve not only the classification performance, but also the MRF parameter estimation by reducing both the estimation error and the asymptotic variance. Additionally, the combination of contextual classifiers through the use of multiple initializations also improves the classificatoin performance, when compared to the traditional single initialization approach. Análise Assintótica Asymptotic analysis Bayesian Inference Campos Aleatórios Markovianos Classificação Contextual Contextual Classification Imagens Multiespectrais Inferência Bayesiana Markov Random Fields Máxima Pseudo Verossimilhança Maximum Pseudo-Likelihood Multispectral Images
3	Combinação de modelos de campos aleatórios markovianos para classificação contextual de imagens multiespectrais / Combining markov random field models for multispectral image contextual classification Alexandre Luis Magalhães Levada 05 May 2010 (has links) Este projeto de doutorado apresenta uma nova abordagem MAP-MRF para a classificação contextual de imagens multiespectrais utilizando combinação de modelos de Campos Aleatórios Markovianos definidos em sistemas de ordens superiores. A modelagem estatística para o problema de classificação segue o paradigma Bayesiano, com a definição de um modelo Markoviano para os dados observados (Gaussian Markov Random Field multiespectral) e outro modelo para representar o conhecimento a priori (Potts). Nesse cenário, o parâmetro β do modelo de Potts atua como um parâmetro de regularização, tendo papel fundamental no compromisso entre as observações e o conhecimento a priori, de modo que seu correto ajuste é necessário para a obtenção de bons resultados. A introdução de sistemas de vizinhança de ordens superiores requer a definição de novos métodos para a estimação dos parâmetros dos modelos Markovianos. Uma das contribuições desse trabalho é justamente propor novas equações de pseudo-verossimilhança para a estimação desses parâmetros no modelo de Potts em sistemas de segunda e terceira ordens. Apesar da abordagem por máxima pseudo-verossimilhança ser amplamente utilizada e conhecida na literatura de campos aleatórios, pouco se conhece acerca da acurácia dessa estimação. Foram derivadas aproximações para a variância assintótica dos estimadores propostos, caracterizando-os completamente no caso limite, com o intuito de realizar inferências e análises quantitativas sobre os parâmetros dos modelos Markovianos. A partir da definição dos modelos e do conhecimento dos parâmetros, o próximo estágio é a classificação das imagens multiespectrais. A solução para esse problema de inferência Bayesiana é dada pelo critério de estimação MAP, onde a solução ótima é determinada maximizando a probabilidade a posteriori, o que define um problema de otimização. Como não há solução analítica para esse problema no caso de prioris Markovianas, algoritmos iterativos de otimização combinatória foram empregados para aproximar a solução ótima. Nesse trabalho, adotam-se três métodos sub-ótimos: Iterated Conditional Modes, Maximizer of the Posterior Marginals e Game Strategy Approach. Porém, é demonstrado na literatura que tais métodos convergem para máximos locais e não globais, pois são altamente dependentes de sua condição inicial. Isto motivou o desenvolvimento de uma nova abordagem para combinação de classificadores contextuais, que utiliza múltiplas inicializações simultâneas providas por diferentes classificadores estatísticos pontuais. A metodologia proposta define um framework MAP-MRF bastante robusto para solução de problemas inversos, pois permite a utilização e a integração de diferentes condições iniciais em aplicações como classificação, filtragem e restauração de imagens. Como medidas quantitativas de desempenho, são adotados o coeficiente Kappa de Cohen e o coeficiente Tau de Kendall para verificar a concordância entre as saídas dos classificadores e a verdade terrestre (amostras pré-rotuladas). Resultados obtidos mostram que a inclusão de sistemas de vizinhança de ordens superiores é de fato capaz de melhorar significativamente não apenas o desempenho da classificação como também a estimação dos parâmetros dos modelos Markovianos, reduzindo tanto o erro de estimação quanto a variância assintótica. Além disso, a combinação de classificadores contextuais através da utilização de múltiplas inicializações simultâneas melhora significativamente o desempenho da classificação se comparada com a abordagem tradicional com apenas uma inicialização. / This work presents a novel MAP-MRF approach for multispectral image contextual classification by combining higher-order Markov Random Field models. The statistical modeling follows the Bayesian paradigm, with the definition of a multispectral Gaussian Markov Random Field model for the observations and a Potts MRF model to represent the a priori knowledge. In this scenario, the Potts MRF model parameter (β) plays the role of a regularization parameter by controlling the tradeoff between the likelihood and the prior knowledge, in a way that a suitable tunning for this parameter is required for a good performance in contextual classification. The introduction of higher-order MRF models requires the specification of novel parameter estimation methods. One of the contributions of this work is the definition of novel pseudo-likelihood equations for the estimation of these MRF parameters in second and third order neighborhood systems. Despite its widely usage in practical MRF applications, little is known about the accuracy of maximum pseudo-likelihood approach. Approximations for the asymptotic variance of the proposed MPL estimators were derived, completely characterizing their behavior in the limiting case, allowing statistical inference and quantitative analysis. From the statistical modeling and having the model parameters estimated, the next step is the multispectral image classification. The solution for this Bayesian inference problem is given by the MAP criterion, where the optimal solution is obtained by maximizing the a posteriori distribution, defining an optimization problem. As there is no analytical solution for this problem in case of Markovian priors, combinatorial optimization algorithms are required to approximate the optimal solution. In this work, we use three suboptimal methods: Iterated Conditional Modes, Maximizer of the Posterior Marginals and Game Strategy Approach, a variant approach based on non-cooperative game theory. However, it has been shown that these methods converge to local maxima solutions, since they are extremelly dependent on the initial condition. This fact motivated the development of a novel approach for combination of contextual classifiers, by making use of multiple initializations at the same time, where each one of these initial conditions is provided by different pointwise pattern classifiers. The proposed methodology defines a robust MAP-MRF framework for the solution of general inverse problems since it allows the use and integration of several initial conditions in a variety of applications as image classification, denoising and restoration. To evaluate the performance of the classification results, two statistical measures are used to verify the agreement between the classifiers output and the ground truth: Cohens Kappa and Kendalls Tau coefficient. The obtained results show that the use of higher-order neighborhood systems is capable of significantly improve not only the classification performance, but also the MRF parameter estimation by reducing both the estimation error and the asymptotic variance. Additionally, the combination of contextual classifiers through the use of multiple initializations also improves the classificatoin performance, when compared to the traditional single initialization approach. Análise Assintótica Campos Aleatórios Markovianos Classificação Contextual Imagens Multiespectrais Inferência Bayesiana Máxima Pseudo Verossimilhança Asymptotic analysis Bayesian Inference Contextual Classification Markov Random Fields Maximum Pseudo-Likelihood Multispectral Images
4	Regressão logística com erro de medida: comparação de métodos de estimação / Logistic regression model with measurement error: a comparison of estimation methods Rodrigues, Agatha Sacramento 27 June 2013 (has links) Neste trabalho estudamos o modelo de regressão logística com erro de medida nas covariáveis. Abordamos as metodologias de estimação de máxima pseudoverossimilhança pelo algoritmo EM-Monte Carlo, calibração da regressão, SIMEX e naïve (ingênuo), método este que ignora o erro de medida. Comparamos os métodos em relação à estimação, através do viés e da raiz do erro quadrático médio, e em relação à predição de novas observações, através das medidas de desempenho sensibilidade, especificidade, verdadeiro preditivo positivo, verdadeiro preditivo negativo, acurácia e estatística de Kolmogorov-Smirnov. Os estudos de simulação evidenciam o melhor desempenho do método de máxima pseudoverossimilhança na estimação. Para as medidas de desempenho na predição não há diferença entre os métodos de estimação. Por fim, utilizamos nossos resultados em dois conjuntos de dados reais de diferentes áreas: área médica, cujo objetivo está na estimação da razão de chances, e área financeira, cujo intuito é a predição de novas observações. / We study the logistic model when explanatory variables are measured with error. Three estimation methods are presented, namely maximum pseudo-likelihood obtained through a Monte Carlo expectation-maximization type algorithm, regression calibration, SIMEX and naïve, which ignores the measurement error. These methods are compared through simulation. From the estimation point of view, we compare the different methods by evaluating their biases and root mean square errors. The predictive quality of the methods is evaluated based on sensitivity, specificity, positive and negative predictive values, accuracy and the Kolmogorov-Smirnov statistic. The simulation studies show that the best performing method is the maximum pseudo-likelihood method when the objective is to estimate the parameters. There is no difference among the estimation methods for predictive purposes. The results are illustrated in two real data sets from different application areas: medical area, whose goal is the estimation of the odds ratio, and financial area, whose goal is the prediction of new observations. Calibração da regressão Logistic regression model Maximum pseudo-likelihood estimation Measurement error models Medidas de desempenho na predição Modelo de regressão logística Modelos com erro de medida Predictive measures Regression calibration estimation SIMEX estimation. SIMEX.
5	Regressão logística com erro de medida: comparação de métodos de estimação / Logistic regression model with measurement error: a comparison of estimation methods Agatha Sacramento Rodrigues 27 June 2013 (has links) Neste trabalho estudamos o modelo de regressão logística com erro de medida nas covariáveis. Abordamos as metodologias de estimação de máxima pseudoverossimilhança pelo algoritmo EM-Monte Carlo, calibração da regressão, SIMEX e naïve (ingênuo), método este que ignora o erro de medida. Comparamos os métodos em relação à estimação, através do viés e da raiz do erro quadrático médio, e em relação à predição de novas observações, através das medidas de desempenho sensibilidade, especificidade, verdadeiro preditivo positivo, verdadeiro preditivo negativo, acurácia e estatística de Kolmogorov-Smirnov. Os estudos de simulação evidenciam o melhor desempenho do método de máxima pseudoverossimilhança na estimação. Para as medidas de desempenho na predição não há diferença entre os métodos de estimação. Por fim, utilizamos nossos resultados em dois conjuntos de dados reais de diferentes áreas: área médica, cujo objetivo está na estimação da razão de chances, e área financeira, cujo intuito é a predição de novas observações. / We study the logistic model when explanatory variables are measured with error. Three estimation methods are presented, namely maximum pseudo-likelihood obtained through a Monte Carlo expectation-maximization type algorithm, regression calibration, SIMEX and naïve, which ignores the measurement error. These methods are compared through simulation. From the estimation point of view, we compare the different methods by evaluating their biases and root mean square errors. The predictive quality of the methods is evaluated based on sensitivity, specificity, positive and negative predictive values, accuracy and the Kolmogorov-Smirnov statistic. The simulation studies show that the best performing method is the maximum pseudo-likelihood method when the objective is to estimate the parameters. There is no difference among the estimation methods for predictive purposes. The results are illustrated in two real data sets from different application areas: medical area, whose goal is the estimation of the odds ratio, and financial area, whose goal is the prediction of new observations. Calibração da regressão Medidas de desempenho na predição Modelo de regressão logística Modelos com erro de medida SIMEX. Logistic regression model Maximum pseudo-likelihood estimation Measurement error models Predictive measures Regression calibration estimation SIMEX estimation.

1

Page generated in 0.0496 seconds