Spelling suggestions: "subject:"aximum pseudolikelihood"" "subject:"aximum unlikelihood""
1 |
[en] A COMPARATIVE STUDY OF METHODOLOGIES FOR MODELLING COMPLEX SURVEYS MODELLING - AN APPLICATION TO SAEB 99 / [pt] UM ESTUDO COMPARATIVO DAS METODOLOGIAS DE MODELAGEM DE DADOS AMOSTRAIS COMPLEXOS: UMA APLICAÇÃO AO SAEB 99 / [es] UN ESTUDIO COMPARATIVO DE LAS METODOLOGÍAS DE MODELAJE DE DATOS PROVENIENTES DE MUESTREOS COMPLEJOS UNA APLICACIÓN AL SAEB 99MARCEL DE TOLEDO VIEIRA 23 July 2001 (has links)
[pt] A consideração do desenho amostral é fundamental e
indispensável em trabalhos que têm como objetivo a análise
e modelagem de dados selecionados através de desenhos
amostrais complexos. Desta forma torna-se possível a
produção de resultados realmente úteis e confiáveis para os
gestores de políticas públicas. O principal objetivo desta
dissertação é chamar a atenção para a importância da
utilização das técnicas adequadas ao tratamento de
dados amostrais complexos, discutindo também as
conseqüências de sua não adoção. As metodologias adequadas
para a análise de dados amostrais complexos podem ser
agrupadas em duas abordagens. A primeira, denominada de
abordagem agregada, se baseia na incorporação de pesos e
efeitos do plano amostral no ajuste dos modelos
estatísticos. Através da outra abordagem, que é denominada
de abordagem desagregada, a lógica de modelagem é
modificada, incorporando os efeitos devidos à amostragem
complexa. Isto pode ser feito através do uso de modelos
lineares hierárquicos, ou multinível. Os dados analisados
nesta dissertação foram coletados pelo Sistema Nacional de
Avaliação da Educação Básica (SAEB) no ano de 1999. Esta
pesquisa compreende um exame de conhecimentos e um
levantamento sobre condições sócio-econômico-demográficas
de mais de 200.000 alunos, suas escolas, professores e
diretores. A amostra do SAEB 99 foi selecionada a partir de
um plano amostral complexo. O desenho amostral do SAEB 99
considera amostragem aleatória estratificada de unidades
conglomeradas, com múltiplas etapas. A estimação pontual de
estatísticas descritivas a partir de dados amostrais
complexos não apresenta grandes dificuldades na medida em
que se utiliza de forma adequada os pesos na expansão da
amostra. Será ilustrada, através de um exemplo, a
importância dos pesos amostrais na estimação. Será
verificado que sua não adoção no cálculo da média, na
situação em questão, poderia gerar resultados
superestimados. Nesta dissertação serão apresentados
aspectos teóricos das técnicas (adequadas a dados amostrais
complexos) de estimação pontual de parâmetros de modelos de
regressão e de suas respectivas variâncias. Também é
realizada uma discussão sobre o efeito do plano amostral,
intervalos de confiança e testes de hipóteses, e sobre o
pacote SUDAAN. Serão apresentados os resultados da
aplicação das técnicas estudadas. Paralelamente, será
conduzido um estudo dos determinantes da proficiência dos
alunos. Ainda, serão apresentadas e analisadas as
conseqüências de não se considerar o desenho amostral na
estimação dos parâmetros dos modelos e de suas respectivas
variâncias, para o SAEB 99. Será realizada uma
interpretação educacional dos resultados apresentados. / [en] It is very important to consider the sample design in the
analysis and modelling of complex survey data. It permits
the production of correct results, which can be used for
public political decision making and evaluation. The main
objective of this dissertation is to give information about
the importance of the use of the techniques for complex
survey data. The methodologies for complex survey data
analysis can be divided in two different approaches. The
first is based on incorporating weights and design effects
in the fitting of usual statistical models, such as
contingency tables, regression, etc. This approach is called
aggregated approach. The other approach, called
disaggregated approach, modifies the model attempting to
incorporate the complex population structure and/or design
effects, for example using hierarchical (or multilevel)
linear models. The data analysed in this dissertation were
collected by the Brazilian National System of Basic
Education Assessment (SAEB), in 1999. This survey applies
an exam and asks social-economic-demographic information
about more than 200.000 students, schools and teachers. The
SAEB 99 sample were selected by a complex survey design,
considering stratification and conglomeration, with
multiples steps. There is not any problem in estimation of
descriptive statistics, such as means, correlation and
regression coefficients, provided that we correctly use the
sample weights to expand the data. An example will be
presented to verify the importance of the use of the
sample weights. The theoretical aspects of the techniques
for the estimation of regression model parameters and their
variances will be presented. The design effect, confidence
intervals, significance tests, and SUDAAN characteristics
will also be discussed. The application of these techniques
will be presented. It will be also conducted a study
of the determinants of the student proficiency. It still
will be presented and analysed the consequences of the non-
consideration of the sample design in the estimation of
parameters and their variances, for SAEB 99 data. The
results will be educationally interpreted. / [es] La consideración del diseño muestral es fundamental e
indispensable en trabajos que tienen como objetivo el
análisis y modelaje de datos selecionados a través de
diseños muestrales complejos. De esta forma es posible la
producción de resultados realmente útiles y confiables para
los gestores de políticas públicas. EL objetivo principal
de esta disertación es llamar la atención para la
importancia de la utilización de las técnicas adecuadas al
tratamiento de datos muestrales complejos, discutiendo
también las consecuencias de no adoptarlas. Las
metodologías adecuadas para el análisis de datos muestrales
complejos pueden ser agrupadas en dos abordajes. La
primera, denominada de abordaje agregado, consiste en la
incorporación de pesos y efectos del plano muestral en el
ajuste de los modelos estadísticos. A través del otro
abordaje, denominado de abordaje desagregado, se modifica
la lógica, incorporando los efectos debidos al muestreo
complejo. Esto puede realizarse a través del uso de modelos
lineales jerárquicos, o multiníveles. Los datos analizados
en esta disertación fueron colectados por el Sistema
Nacional de Evaluación de la Educación Básica (SAEB) en el
año de 1999. Esta investigación comprende un exámen de
conocimientos y un levantamiento sobre condiciones
socioeconómicas-demográficas de más de 200.000 alumnos, sus
escuelas, profesores y directores. La muestra del SAEB 99
fue seleccionada a partir de un diseño muestral complejo.
El diseño muestral del SAEB 99 considera el muestreo
aleatório estratificado de unidades conglomeradas, con
múltiples etapas. La estimación puntual de estadísticas
descriptivas a partir de datos muestrales complejos no
presenta grandes dificuldades si se utiliza de forma
adecuada los pesos en la expansión de la muestra. Se
ilustrará, a través de un ejemplo, la importancia de los
pesos muestrales en la estimación. Será verificado que la
no adopción de estos pesos en el cálculo de la media,
podería generar resultados superestimados. En esta
disertación serán presentados aspectos teóricos de las
técnicas (adecuadas a datos de muestras complejas) de
estimación puntual de parámetros de modelos de regresión y
de sus respectivas varianzas. Se discute también el efecto
del diseño muestral, intervalos de confianza y testes de
hipótesis, y el paquete SUDAAN. Serán presentados los
resultados de la aplicación de las técnicas estudiadas.
Paralelamente, se estudian los determinantes de la
proficiencia de los alumnos. Se presentan y analizan
también, las consecuencias de no considerar el diseño
muestral en la estimación de los parámetros del modelos y
de sus respectivas varianzas, para el SAEB 99. Será
realizada una interpretación educacional de los resultados
presentados.
|
2 |
Combinação de modelos de campos aleatórios markovianos para classificação contextual de imagens multiespectrais / Combining markov random field models for multispectral image contextual classificationLevada, Alexandre Luis Magalhães 05 May 2010 (has links)
Este projeto de doutorado apresenta uma nova abordagem MAP-MRF para a classificação contextual de imagens multiespectrais utilizando combinação de modelos de Campos Aleatórios Markovianos definidos em sistemas de ordens superiores. A modelagem estatística para o problema de classificação segue o paradigma Bayesiano, com a definição de um modelo Markoviano para os dados observados (Gaussian Markov Random Field multiespectral) e outro modelo para representar o conhecimento a priori (Potts). Nesse cenário, o parâmetro β do modelo de Potts atua como um parâmetro de regularização, tendo papel fundamental no compromisso entre as observações e o conhecimento a priori, de modo que seu correto ajuste é necessário para a obtenção de bons resultados. A introdução de sistemas de vizinhança de ordens superiores requer a definição de novos métodos para a estimação dos parâmetros dos modelos Markovianos. Uma das contribuições desse trabalho é justamente propor novas equações de pseudo-verossimilhança para a estimação desses parâmetros no modelo de Potts em sistemas de segunda e terceira ordens. Apesar da abordagem por máxima pseudo-verossimilhança ser amplamente utilizada e conhecida na literatura de campos aleatórios, pouco se conhece acerca da acurácia dessa estimação. Foram derivadas aproximações para a variância assintótica dos estimadores propostos, caracterizando-os completamente no caso limite, com o intuito de realizar inferências e análises quantitativas sobre os parâmetros dos modelos Markovianos. A partir da definição dos modelos e do conhecimento dos parâmetros, o próximo estágio é a classificação das imagens multiespectrais. A solução para esse problema de inferência Bayesiana é dada pelo critério de estimação MAP, onde a solução ótima é determinada maximizando a probabilidade a posteriori, o que define um problema de otimização. Como não há solução analítica para esse problema no caso de prioris Markovianas, algoritmos iterativos de otimização combinatória foram empregados para aproximar a solução ótima. Nesse trabalho, adotam-se três métodos sub-ótimos: Iterated Conditional Modes, Maximizer of the Posterior Marginals e Game Strategy Approach. Porém, é demonstrado na literatura que tais métodos convergem para máximos locais e não globais, pois são altamente dependentes de sua condição inicial. Isto motivou o desenvolvimento de uma nova abordagem para combinação de classificadores contextuais, que utiliza múltiplas inicializações simultâneas providas por diferentes classificadores estatísticos pontuais. A metodologia proposta define um framework MAP-MRF bastante robusto para solução de problemas inversos, pois permite a utilização e a integração de diferentes condições iniciais em aplicações como classificação, filtragem e restauração de imagens. Como medidas quantitativas de desempenho, são adotados o coeficiente Kappa de Cohen e o coeficiente Tau de Kendall para verificar a concordância entre as saídas dos classificadores e a verdade terrestre (amostras pré-rotuladas). Resultados obtidos mostram que a inclusão de sistemas de vizinhança de ordens superiores é de fato capaz de melhorar significativamente não apenas o desempenho da classificação como também a estimação dos parâmetros dos modelos Markovianos, reduzindo tanto o erro de estimação quanto a variância assintótica. Além disso, a combinação de classificadores contextuais através da utilização de múltiplas inicializações simultâneas melhora significativamente o desempenho da classificação se comparada com a abordagem tradicional com apenas uma inicialização. / This work presents a novel MAP-MRF approach for multispectral image contextual classification by combining higher-order Markov Random Field models. The statistical modeling follows the Bayesian paradigm, with the definition of a multispectral Gaussian Markov Random Field model for the observations and a Potts MRF model to represent the a priori knowledge. In this scenario, the Potts MRF model parameter (β) plays the role of a regularization parameter by controlling the tradeoff between the likelihood and the prior knowledge, in a way that a suitable tunning for this parameter is required for a good performance in contextual classification. The introduction of higher-order MRF models requires the specification of novel parameter estimation methods. One of the contributions of this work is the definition of novel pseudo-likelihood equations for the estimation of these MRF parameters in second and third order neighborhood systems. Despite its widely usage in practical MRF applications, little is known about the accuracy of maximum pseudo-likelihood approach. Approximations for the asymptotic variance of the proposed MPL estimators were derived, completely characterizing their behavior in the limiting case, allowing statistical inference and quantitative analysis. From the statistical modeling and having the model parameters estimated, the next step is the multispectral image classification. The solution for this Bayesian inference problem is given by the MAP criterion, where the optimal solution is obtained by maximizing the a posteriori distribution, defining an optimization problem. As there is no analytical solution for this problem in case of Markovian priors, combinatorial optimization algorithms are required to approximate the optimal solution. In this work, we use three suboptimal methods: Iterated Conditional Modes, Maximizer of the Posterior Marginals and Game Strategy Approach, a variant approach based on non-cooperative game theory. However, it has been shown that these methods converge to local maxima solutions, since they are extremelly dependent on the initial condition. This fact motivated the development of a novel approach for combination of contextual classifiers, by making use of multiple initializations at the same time, where each one of these initial conditions is provided by different pointwise pattern classifiers. The proposed methodology defines a robust MAP-MRF framework for the solution of general inverse problems since it allows the use and integration of several initial conditions in a variety of applications as image classification, denoising and restoration. To evaluate the performance of the classification results, two statistical measures are used to verify the agreement between the classifiers output and the ground truth: Cohens Kappa and Kendalls Tau coefficient. The obtained results show that the use of higher-order neighborhood systems is capable of significantly improve not only the classification performance, but also the MRF parameter estimation by reducing both the estimation error and the asymptotic variance. Additionally, the combination of contextual classifiers through the use of multiple initializations also improves the classificatoin performance, when compared to the traditional single initialization approach.
|
3 |
Combinação de modelos de campos aleatórios markovianos para classificação contextual de imagens multiespectrais / Combining markov random field models for multispectral image contextual classificationAlexandre Luis Magalhães Levada 05 May 2010 (has links)
Este projeto de doutorado apresenta uma nova abordagem MAP-MRF para a classificação contextual de imagens multiespectrais utilizando combinação de modelos de Campos Aleatórios Markovianos definidos em sistemas de ordens superiores. A modelagem estatística para o problema de classificação segue o paradigma Bayesiano, com a definição de um modelo Markoviano para os dados observados (Gaussian Markov Random Field multiespectral) e outro modelo para representar o conhecimento a priori (Potts). Nesse cenário, o parâmetro β do modelo de Potts atua como um parâmetro de regularização, tendo papel fundamental no compromisso entre as observações e o conhecimento a priori, de modo que seu correto ajuste é necessário para a obtenção de bons resultados. A introdução de sistemas de vizinhança de ordens superiores requer a definição de novos métodos para a estimação dos parâmetros dos modelos Markovianos. Uma das contribuições desse trabalho é justamente propor novas equações de pseudo-verossimilhança para a estimação desses parâmetros no modelo de Potts em sistemas de segunda e terceira ordens. Apesar da abordagem por máxima pseudo-verossimilhança ser amplamente utilizada e conhecida na literatura de campos aleatórios, pouco se conhece acerca da acurácia dessa estimação. Foram derivadas aproximações para a variância assintótica dos estimadores propostos, caracterizando-os completamente no caso limite, com o intuito de realizar inferências e análises quantitativas sobre os parâmetros dos modelos Markovianos. A partir da definição dos modelos e do conhecimento dos parâmetros, o próximo estágio é a classificação das imagens multiespectrais. A solução para esse problema de inferência Bayesiana é dada pelo critério de estimação MAP, onde a solução ótima é determinada maximizando a probabilidade a posteriori, o que define um problema de otimização. Como não há solução analítica para esse problema no caso de prioris Markovianas, algoritmos iterativos de otimização combinatória foram empregados para aproximar a solução ótima. Nesse trabalho, adotam-se três métodos sub-ótimos: Iterated Conditional Modes, Maximizer of the Posterior Marginals e Game Strategy Approach. Porém, é demonstrado na literatura que tais métodos convergem para máximos locais e não globais, pois são altamente dependentes de sua condição inicial. Isto motivou o desenvolvimento de uma nova abordagem para combinação de classificadores contextuais, que utiliza múltiplas inicializações simultâneas providas por diferentes classificadores estatísticos pontuais. A metodologia proposta define um framework MAP-MRF bastante robusto para solução de problemas inversos, pois permite a utilização e a integração de diferentes condições iniciais em aplicações como classificação, filtragem e restauração de imagens. Como medidas quantitativas de desempenho, são adotados o coeficiente Kappa de Cohen e o coeficiente Tau de Kendall para verificar a concordância entre as saídas dos classificadores e a verdade terrestre (amostras pré-rotuladas). Resultados obtidos mostram que a inclusão de sistemas de vizinhança de ordens superiores é de fato capaz de melhorar significativamente não apenas o desempenho da classificação como também a estimação dos parâmetros dos modelos Markovianos, reduzindo tanto o erro de estimação quanto a variância assintótica. Além disso, a combinação de classificadores contextuais através da utilização de múltiplas inicializações simultâneas melhora significativamente o desempenho da classificação se comparada com a abordagem tradicional com apenas uma inicialização. / This work presents a novel MAP-MRF approach for multispectral image contextual classification by combining higher-order Markov Random Field models. The statistical modeling follows the Bayesian paradigm, with the definition of a multispectral Gaussian Markov Random Field model for the observations and a Potts MRF model to represent the a priori knowledge. In this scenario, the Potts MRF model parameter (β) plays the role of a regularization parameter by controlling the tradeoff between the likelihood and the prior knowledge, in a way that a suitable tunning for this parameter is required for a good performance in contextual classification. The introduction of higher-order MRF models requires the specification of novel parameter estimation methods. One of the contributions of this work is the definition of novel pseudo-likelihood equations for the estimation of these MRF parameters in second and third order neighborhood systems. Despite its widely usage in practical MRF applications, little is known about the accuracy of maximum pseudo-likelihood approach. Approximations for the asymptotic variance of the proposed MPL estimators were derived, completely characterizing their behavior in the limiting case, allowing statistical inference and quantitative analysis. From the statistical modeling and having the model parameters estimated, the next step is the multispectral image classification. The solution for this Bayesian inference problem is given by the MAP criterion, where the optimal solution is obtained by maximizing the a posteriori distribution, defining an optimization problem. As there is no analytical solution for this problem in case of Markovian priors, combinatorial optimization algorithms are required to approximate the optimal solution. In this work, we use three suboptimal methods: Iterated Conditional Modes, Maximizer of the Posterior Marginals and Game Strategy Approach, a variant approach based on non-cooperative game theory. However, it has been shown that these methods converge to local maxima solutions, since they are extremelly dependent on the initial condition. This fact motivated the development of a novel approach for combination of contextual classifiers, by making use of multiple initializations at the same time, where each one of these initial conditions is provided by different pointwise pattern classifiers. The proposed methodology defines a robust MAP-MRF framework for the solution of general inverse problems since it allows the use and integration of several initial conditions in a variety of applications as image classification, denoising and restoration. To evaluate the performance of the classification results, two statistical measures are used to verify the agreement between the classifiers output and the ground truth: Cohens Kappa and Kendalls Tau coefficient. The obtained results show that the use of higher-order neighborhood systems is capable of significantly improve not only the classification performance, but also the MRF parameter estimation by reducing both the estimation error and the asymptotic variance. Additionally, the combination of contextual classifiers through the use of multiple initializations also improves the classificatoin performance, when compared to the traditional single initialization approach.
|
4 |
Regressão logística com erro de medida: comparação de métodos de estimação / Logistic regression model with measurement error: a comparison of estimation methodsRodrigues, Agatha Sacramento 27 June 2013 (has links)
Neste trabalho estudamos o modelo de regressão logística com erro de medida nas covariáveis. Abordamos as metodologias de estimação de máxima pseudoverossimilhança pelo algoritmo EM-Monte Carlo, calibração da regressão, SIMEX e naïve (ingênuo), método este que ignora o erro de medida. Comparamos os métodos em relação à estimação, através do viés e da raiz do erro quadrático médio, e em relação à predição de novas observações, através das medidas de desempenho sensibilidade, especificidade, verdadeiro preditivo positivo, verdadeiro preditivo negativo, acurácia e estatística de Kolmogorov-Smirnov. Os estudos de simulação evidenciam o melhor desempenho do método de máxima pseudoverossimilhança na estimação. Para as medidas de desempenho na predição não há diferença entre os métodos de estimação. Por fim, utilizamos nossos resultados em dois conjuntos de dados reais de diferentes áreas: área médica, cujo objetivo está na estimação da razão de chances, e área financeira, cujo intuito é a predição de novas observações. / We study the logistic model when explanatory variables are measured with error. Three estimation methods are presented, namely maximum pseudo-likelihood obtained through a Monte Carlo expectation-maximization type algorithm, regression calibration, SIMEX and naïve, which ignores the measurement error. These methods are compared through simulation. From the estimation point of view, we compare the different methods by evaluating their biases and root mean square errors. The predictive quality of the methods is evaluated based on sensitivity, specificity, positive and negative predictive values, accuracy and the Kolmogorov-Smirnov statistic. The simulation studies show that the best performing method is the maximum pseudo-likelihood method when the objective is to estimate the parameters. There is no difference among the estimation methods for predictive purposes. The results are illustrated in two real data sets from different application areas: medical area, whose goal is the estimation of the odds ratio, and financial area, whose goal is the prediction of new observations.
|
5 |
Regressão logística com erro de medida: comparação de métodos de estimação / Logistic regression model with measurement error: a comparison of estimation methodsAgatha Sacramento Rodrigues 27 June 2013 (has links)
Neste trabalho estudamos o modelo de regressão logística com erro de medida nas covariáveis. Abordamos as metodologias de estimação de máxima pseudoverossimilhança pelo algoritmo EM-Monte Carlo, calibração da regressão, SIMEX e naïve (ingênuo), método este que ignora o erro de medida. Comparamos os métodos em relação à estimação, através do viés e da raiz do erro quadrático médio, e em relação à predição de novas observações, através das medidas de desempenho sensibilidade, especificidade, verdadeiro preditivo positivo, verdadeiro preditivo negativo, acurácia e estatística de Kolmogorov-Smirnov. Os estudos de simulação evidenciam o melhor desempenho do método de máxima pseudoverossimilhança na estimação. Para as medidas de desempenho na predição não há diferença entre os métodos de estimação. Por fim, utilizamos nossos resultados em dois conjuntos de dados reais de diferentes áreas: área médica, cujo objetivo está na estimação da razão de chances, e área financeira, cujo intuito é a predição de novas observações. / We study the logistic model when explanatory variables are measured with error. Three estimation methods are presented, namely maximum pseudo-likelihood obtained through a Monte Carlo expectation-maximization type algorithm, regression calibration, SIMEX and naïve, which ignores the measurement error. These methods are compared through simulation. From the estimation point of view, we compare the different methods by evaluating their biases and root mean square errors. The predictive quality of the methods is evaluated based on sensitivity, specificity, positive and negative predictive values, accuracy and the Kolmogorov-Smirnov statistic. The simulation studies show that the best performing method is the maximum pseudo-likelihood method when the objective is to estimate the parameters. There is no difference among the estimation methods for predictive purposes. The results are illustrated in two real data sets from different application areas: medical area, whose goal is the estimation of the odds ratio, and financial area, whose goal is the prediction of new observations.
|
Page generated in 0.0496 seconds