Spelling suggestions: "subject:"identificabilidade"" "subject:"identificabilidad""
1 |
As construções com objeto cognato em português: análise baseada no uso de um desencontro sintático-semântico e sua modelagem formal pela gramática das construçõesSilva, Marcelo Lopes da 05 April 2010 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-10-04T15:37:21Z
No. of bitstreams: 1
marcelolopesdasilva.pdf: 2035405 bytes, checksum: f42ad3f2f4b21d576dad7666e1d3c360 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-10-04T16:19:02Z (GMT) No. of bitstreams: 1
marcelolopesdasilva.pdf: 2035405 bytes, checksum: f42ad3f2f4b21d576dad7666e1d3c360 (MD5) / Made available in DSpace on 2016-10-04T16:19:02Z (GMT). No. of bitstreams: 1
marcelolopesdasilva.pdf: 2035405 bytes, checksum: f42ad3f2f4b21d576dad7666e1d3c360 (MD5)
Previous issue date: 2010-04-05 / Investigam-se as construções com objeto cognato (cOC) na língua portuguesa não apenas quanto às hipóteses gerativistas, mas principalmente com base nas hipóteses sociocognitivas e construcionista-unificacionistas. Verifica-se a ocorrência de tipos de cOC com os verbos intransitivo inergativo, intransitivo inacusativo e transitivo-opcional. Nas cOCs com os verbos intransitivos, ocorre um desencontro sintático-semântico que é licenciado no nível pragmático, para que eles suportem o termo cognato em posição de foco sintático: um espelhamento do padrão transitivo. Tal motivação se baseia, primariamente, na pressuposição de que seja instanciada alguma especificação como fator de identificabilidade para o nome cognato enfocado e, secundariamente, num apenas realce da noção verbal. Essas restrições contextuais para a ocorrência do objeto cognato são descritas nos níveis internos das relações sintático-semânticas, vinculando-se a elas um conjunto de efeitos estilístico-fonografêmicos e aspectualpsicológicos. Verificam-se os seguintes fatos: Que a nominalização efetua, simultaneamente, um recorte dos argumentos verbais e um livre preenchimento informacional no sintagma nominal cognato. Que a repetição do radical verbo-nome coocorre com outras licenças contextuais de repetição, por um lado, aparentando redundância, e por outro, valorizando cada informação nova como parte da cena reconstruída no discurso. Que numa cOC, a especificação, informação nova, concentrase no modificador e/ou no determinante forte e/ou nos sufixos do nome cognato. Que a variação quanto ao número de argumentos instanciados com um mesmo verbo confirma a hipótese de heranças múltiplas, referida como ‘valência emprestada’, associada às licenças pragmáticas para as cOCs serem adequadamente interpretáveis em contextos descritivos. A investigação empírica consiste na verificação de ocorrências no Google, classificadas e parcialmente anexadas no Corpus representativo das cOCs em Português; e a formalização dos dados teóricos consiste na implementação aplicativa aos modelos: Gramática das Construções (CxG), Gramática dos Enquadres Semântico-Cognitivos em Redes (FrameNet), e Gramática das Construções Baseada no Signo (SBCG). Pela investigação das cOCs é reconhecida a interferência direta do nível pragmático nos outros níveis que compõem a gramática, confirmando a maior plausibilidade de uma gramática de contexto ou uma Gramática (Sócio)Cognitiva e (Sócio)Construcionista. / The Portuguese cognate object construction (COC) research goes through generative hypothesis to find solid grounds in usage-based cognitivist and unificationalconstructionist lands. It is observed that COCs occur with optional transitive verbs, with unergative intransitive and also with unaccusative intransitive verbs. The COCs with intransive verbs instantiates a syntatic-semantic mismatch, which non-default relations are pragmatically licensed for them to support the cognate noun in a syntactic focus position: as in a transitive pattern mirrowing. This motivation is based, firstly, on the pressuposition that some specification will be structurally given to identify the cognate noun, and, secondly, it is based on the possibility of a CO to be constructed as a ‘single focus’ of that verbal scenic conceptual reconstruction. Such COCs’ contextual restrictions are explained within syntax-semantics relational levels, to which is bound a set of stylistic-fonographical and aspectual-psychological effects. These following facts are observed: Firstly, that nominalization, simultaneously, pruns verbal arguments and enables free informational filling-up in a cognate noun phrase. Secondly, that nounverbal root repetition occurs among other licenced repetitions, on the one hand, apparently just redundant stuffs, on the other hand, it valorizes each specific new information that, in COs, concentrates on a modifier and/or on a strong determiner and/or even on a cognate noun suffix. Thirdly, that the variation in number of instantiated arguments of a same verb confirms the ‘multiple inheritance’ hypothesis, referred to as ‘borrowed valence’, locally unified to pragmatic licences for adequate interpretability of COCs in descriptive contexts. The empirical approach amounts Google occurrences, partially annexed and classified in a ‘Representative Portuguese COCs Corpus’; and the formalization of theoretical data consists in an applied implementation to the following models: Construction Grammar (CxG), Semantic Frames Grammar (FrameNet), and Sign-Based Construction Grammar (SBCG). By the COCs inquiry, it is recognized a direct pragmatically leveled interference into the other grammatical levels, a sufficient condition to prove the plausibility of a contextual grammar or a (Socio)Cognitive and (Socio)Constructionist Grammar.
|
2 |
Modelos multidimensionais da TRI com distribuições assimétricas para os traços latentes / Multidimensional IRT models with skew distributions for latent traits.Gilberto da Silva Matos 15 December 2008 (has links)
A falta de alternativas ao modelo normal uni/multivariado já é um problema superado pois atualmente é possível encontrar inúmeros trabalhos que introduzem e desenvolvem generalizações da distribuição normal com relação `a assimetria, curtose e/ou multimodalidade (Branco e Arellano-Valle (2004), Genton (2004), Arellano-Valle et al. (2006)). No contexto dos modelos unidimensionais da Teoria da Resposta ao Item (TRI), Bazán (2005) percebeu esta realidade e introduziu uma classe denominada PANA (Probito Assimétrico - Normal Assimétrica) a qual permite modelar possíveis comportamentos assimétricos de um modelo (uma probabilidade) de resposta ao item bem como a especificação de uma distribuição normal assimétrica para os traços latentes (unidimensionais) a qual é utilizada no processo de estimação. Motivado pela necessidade de melhor representar os fenômenos da área psicométrica (Heinen, 1996, p. 105) e da atual disponibilidade de distribuições elípticas assimétricas cujas propriedades são tão convenientes quanto aquelas devidas `a distribuição normal, a proposta do presente trabalho é apresentar uma extensão do modelo K-dimensional de 3 Parâmetros Probito (Kd3PP) com vetores de traços latentes normalmente distribuídos para o caso t-Assimétrico, gerando, assim, o que denominamos modelo Kd3PP-tA. Nossa proposta, portanto, pode ser considerada como uma extensão do trabalho desenvolvido por Bazán (2005) tanto no sentido de extender a distribuição unidimensional assimétrica dos traços latentes para o caso multidimensional quanto no que conscerne em considerar o achatamento (curtose) da distribuição. Nossa proposta também pode ser vista como uma extensão do trabalho de Béguin e Glas (2001) no sentido de desenvolver o método de estimação bayesiana dos modelos multidimensionais da TRI via DAGS (Dados Aumentados com Amostrador de Gibbs) para o caso em que os vetores de traços latentes comportam-se segundo uma distribuição multivariada t-Assimétrica. No desenvolvimento deste trabalho nos deparamos com uma das principais dificuldades encontradas no processo de estimação e inferência dos modelos multidimensionais da TRI que é a falta de identificabilidade e, com a intenção de ampliar e desmistificar nossos conhecimentos sobre um assunto ainda pouco explorado na literatura da TRI, apresentamos um estudo bibliográfico sobre este tema tanto sob o contexto da inferência clássica quanto bayesiana. Com o intuito de identificar situações particulares em que o uso de uma distribuição normal assimétrica para os traços latentes seja de maior relevância para a estimação e inferência dos parâmetros de item, bem como outros parâmetros relacionados à distribuição dos traços latentes, algumas análises sobre conjuntos de dados simulados são desenvolvidas. Como conclusão destas análises, podemos dizer que há uma melhora superficial quando a informação sobre uma possível assimetria na distribuição dos traços latentes não é ignorada. Além disso, os resultados favoreceram a seleção dos modelos que consideram distribuições assimétricas para os traços latentes, principalmente quando são considerados os modelos que possibilitam a estimação dos parâmetros de localização e escala da distribuição dos vetores de traços latentes. Duas principais contribuições que consideramos de ordem prática, são: a análise e a interpretação de testes através da estimação de modelos uni e multidimensionais da TRI que consideram tanto distribuições simétricas quanto assimétricas para os vetores de traços latentes e a disponibilização de uma função escrita em códigos R e C++ para a estimação dos modelos apresentados e desenvolvidos no presente trabalho. / The lack of alternatives to the univariate or multivariate normal model has been already solved because actually it has been possible to find several works that introduce and develop generalizations of the normal distribution in relation to the asymmetry, kurtosis and/or multimodality (Branco e Arellano-Valle (2004), Genton (2004), Arellano-Valle et al. (2006). In the context of unidimensional models of the Item Response Theory (IRT), Baz´an (2005) observed this fact and introduced a class called PANA (Probito Assimétrico - Normal Assimétrica) which allows to take account for asymmetry in the shape of an item response model (probability) and the specification of a skew normal distribution for unidimensional latent traits which is used in the estimation process. Motivated by the need to better represent the phenomenon of psychometric area (Heinen, 1996, p. 105) and the current availability of skew elliptical distributions whose properties are as convenient as those due to normal distribution, the proposal of this work is to provide an extension of multidimensional 3 Parameters Probit model (Kd3PP) where latent traits vectors are normally distributed for the case of Skew-t distribution (Sahu et al., 2003), generating therefore what we call Kd3PP-St model. Our proposal, therefore, can be regarded as an extension of the work of Bazán (2005) in two ways: the first is extending the unidimensional skew normal distribution of latent traits to the multidimensional case and second in the sense to consider the flattening (kurtosis) of this distribution. Our proposal can also be seen as an extension of the work of B´eguin e Glas (2001) in the sense that we develop the Bayesian estimation method of the 3 parameters multidimensional item response model by DAGS (Augmentated Data with Gibbs sampling) for the case where the latent trait vectors behave according to a Skew-t multivariate distribution. In the development of this work we come across one of the main difficulties encountered in the process of estimation and inference of multidimensional IRT models which is the lack of identifiabilitie and, with the intent to demystify and expand our knowledge on a subject still little explored in the literature of the IRT, we present a bibliographical study on this subject both in the context of classical and Bayesian inference. In order to identify particular situations where the use of a skew normal distribution is more relevant to the estimation and inference of item parameters as well as other parameters related to the distribution of latent traits, some analyses on simulated data sets are developed. As results of these analyses, we can say that there is a modest improvement when information about a possible asymmetry in the distribution of latent traits is not ignored. Moreover, the results favored the selection of models that consider asymmetric distributions for latent traits, especially when models that enable the estimation of parameters of location and scale from this distribution are considered. Two main contributions that we consider of pratical interest are: analysis and interpretations of tests using unidimensional and multidimensional IRT models that consider both simetric and skewed distributions for the vectors of latent traits and a function written in R and C++ language program that is made disponible for the estimation of models treated in this work.
|
3 |
Modelos multidimensionais da TRI com distribuições assimétricas para os traços latentes / Multidimensional IRT models with skew distributions for latent traits.Matos, Gilberto da Silva 15 December 2008 (has links)
A falta de alternativas ao modelo normal uni/multivariado já é um problema superado pois atualmente é possível encontrar inúmeros trabalhos que introduzem e desenvolvem generalizações da distribuição normal com relação `a assimetria, curtose e/ou multimodalidade (Branco e Arellano-Valle (2004), Genton (2004), Arellano-Valle et al. (2006)). No contexto dos modelos unidimensionais da Teoria da Resposta ao Item (TRI), Bazán (2005) percebeu esta realidade e introduziu uma classe denominada PANA (Probito Assimétrico - Normal Assimétrica) a qual permite modelar possíveis comportamentos assimétricos de um modelo (uma probabilidade) de resposta ao item bem como a especificação de uma distribuição normal assimétrica para os traços latentes (unidimensionais) a qual é utilizada no processo de estimação. Motivado pela necessidade de melhor representar os fenômenos da área psicométrica (Heinen, 1996, p. 105) e da atual disponibilidade de distribuições elípticas assimétricas cujas propriedades são tão convenientes quanto aquelas devidas `a distribuição normal, a proposta do presente trabalho é apresentar uma extensão do modelo K-dimensional de 3 Parâmetros Probito (Kd3PP) com vetores de traços latentes normalmente distribuídos para o caso t-Assimétrico, gerando, assim, o que denominamos modelo Kd3PP-tA. Nossa proposta, portanto, pode ser considerada como uma extensão do trabalho desenvolvido por Bazán (2005) tanto no sentido de extender a distribuição unidimensional assimétrica dos traços latentes para o caso multidimensional quanto no que conscerne em considerar o achatamento (curtose) da distribuição. Nossa proposta também pode ser vista como uma extensão do trabalho de Béguin e Glas (2001) no sentido de desenvolver o método de estimação bayesiana dos modelos multidimensionais da TRI via DAGS (Dados Aumentados com Amostrador de Gibbs) para o caso em que os vetores de traços latentes comportam-se segundo uma distribuição multivariada t-Assimétrica. No desenvolvimento deste trabalho nos deparamos com uma das principais dificuldades encontradas no processo de estimação e inferência dos modelos multidimensionais da TRI que é a falta de identificabilidade e, com a intenção de ampliar e desmistificar nossos conhecimentos sobre um assunto ainda pouco explorado na literatura da TRI, apresentamos um estudo bibliográfico sobre este tema tanto sob o contexto da inferência clássica quanto bayesiana. Com o intuito de identificar situações particulares em que o uso de uma distribuição normal assimétrica para os traços latentes seja de maior relevância para a estimação e inferência dos parâmetros de item, bem como outros parâmetros relacionados à distribuição dos traços latentes, algumas análises sobre conjuntos de dados simulados são desenvolvidas. Como conclusão destas análises, podemos dizer que há uma melhora superficial quando a informação sobre uma possível assimetria na distribuição dos traços latentes não é ignorada. Além disso, os resultados favoreceram a seleção dos modelos que consideram distribuições assimétricas para os traços latentes, principalmente quando são considerados os modelos que possibilitam a estimação dos parâmetros de localização e escala da distribuição dos vetores de traços latentes. Duas principais contribuições que consideramos de ordem prática, são: a análise e a interpretação de testes através da estimação de modelos uni e multidimensionais da TRI que consideram tanto distribuições simétricas quanto assimétricas para os vetores de traços latentes e a disponibilização de uma função escrita em códigos R e C++ para a estimação dos modelos apresentados e desenvolvidos no presente trabalho. / The lack of alternatives to the univariate or multivariate normal model has been already solved because actually it has been possible to find several works that introduce and develop generalizations of the normal distribution in relation to the asymmetry, kurtosis and/or multimodality (Branco e Arellano-Valle (2004), Genton (2004), Arellano-Valle et al. (2006). In the context of unidimensional models of the Item Response Theory (IRT), Baz´an (2005) observed this fact and introduced a class called PANA (Probito Assimétrico - Normal Assimétrica) which allows to take account for asymmetry in the shape of an item response model (probability) and the specification of a skew normal distribution for unidimensional latent traits which is used in the estimation process. Motivated by the need to better represent the phenomenon of psychometric area (Heinen, 1996, p. 105) and the current availability of skew elliptical distributions whose properties are as convenient as those due to normal distribution, the proposal of this work is to provide an extension of multidimensional 3 Parameters Probit model (Kd3PP) where latent traits vectors are normally distributed for the case of Skew-t distribution (Sahu et al., 2003), generating therefore what we call Kd3PP-St model. Our proposal, therefore, can be regarded as an extension of the work of Bazán (2005) in two ways: the first is extending the unidimensional skew normal distribution of latent traits to the multidimensional case and second in the sense to consider the flattening (kurtosis) of this distribution. Our proposal can also be seen as an extension of the work of B´eguin e Glas (2001) in the sense that we develop the Bayesian estimation method of the 3 parameters multidimensional item response model by DAGS (Augmentated Data with Gibbs sampling) for the case where the latent trait vectors behave according to a Skew-t multivariate distribution. In the development of this work we come across one of the main difficulties encountered in the process of estimation and inference of multidimensional IRT models which is the lack of identifiabilitie and, with the intent to demystify and expand our knowledge on a subject still little explored in the literature of the IRT, we present a bibliographical study on this subject both in the context of classical and Bayesian inference. In order to identify particular situations where the use of a skew normal distribution is more relevant to the estimation and inference of item parameters as well as other parameters related to the distribution of latent traits, some analyses on simulated data sets are developed. As results of these analyses, we can say that there is a modest improvement when information about a possible asymmetry in the distribution of latent traits is not ignored. Moreover, the results favored the selection of models that consider asymmetric distributions for latent traits, especially when models that enable the estimation of parameters of location and scale from this distribution are considered. Two main contributions that we consider of pratical interest are: analysis and interpretations of tests using unidimensional and multidimensional IRT models that consider both simetric and skewed distributions for the vectors of latent traits and a function written in R and C++ language program that is made disponible for the estimation of models treated in this work.
|
4 |
Avaliação de testes diagnósticos na ausência de padrão ouro considerando relaxamento da suposição de independência condicional, covariáveis e estratificação da população: uma abordagem BayesianaPereira, Gilberto de Araujo 16 December 2011 (has links)
Made available in DSpace on 2016-06-02T20:04:51Z (GMT). No. of bitstreams: 1
4040.pdf: 1510214 bytes, checksum: 7dfe4542c20ffa8a47309738bc22a922 (MD5)
Previous issue date: 2011-12-16 / Financiadora de Estudos e Projetos / The application of a gold standard reference test in all or part of the sample under investigation is often not feasible for the majority of diseases affecting humans, either by a lack of consensus on which testing may be considered a gold standard, the high level of invasion of the gold standard technique, the high cost of financially large-scale application, or by ethical questions, so to know the performance of existing tests is essential for the process of diagnosis of these diseases. In statistical modeling aimed to obtain robust estimates of the prevalence of the disease (x ) and the performance parameters of diagnostic tests (sensitivity (Se) and specificity (Sp)), various strategies have been considered such as the stratification of the population, the relaxation of the assumption of conditional independence, the inclusion of covariates, the verification type (partial or total) and the techniques to replace the gold standard. In this thesis we propose a new structure of stratification of the population considering both the prevalence rates and the parameters of test performance among the different strata (EHW). A Bayesian latent class modeling to estimate these parameters was developed for the general case of K diagnostic tests under investigation, relaxation of the assumption of conditional independence according to the formulations of the fixed effect (FECD) and random (RECD) with dependent order (h _ k) and M covariates. The application of models to two data sets about the performance evaluation of diagnostic tests used in screening for Chagas disease in blood donors showed results consistent with the sensitivity studies. Overall, we observed for the structure of stratification proposal (EHW) superior performance and estimates closer to the nominal values when compared to the structure of stratification when only the prevalence rates are different between the strata (HW), even when we consider data set with rates of Se, Sp and x close among the strata. Generally, the structure of latent class, when we have low or high prevalence of the disease, estimates of sensitivity and specificity rates have higher standard errors. However, in these cases, when there is high concordance of positive or negative results of the tests, the error pattern of these estimates are reduced. Regardless of the structure of stratification (EHW, HW), sample size and the different scenarios used to model the prior information, the model of conditional dependency from the FECD and RECD had, from the information criteria (AIC, BIC and DIC), superior performance to the structure of conditional independence (CI) and to FECD with improved performance and estimates closer to the nominal values. Besides the connection logit, derived from the logistic distribution with symmetrical shape, find in the link GEV, derived from the generalized extreme value distribution which accommodates symmetric and asymmetric shapes, a interesting alternative to construct the conditional dependence structure from the RECD. As an alternative to the problem of identifiability, present in this type of model, the criteria adopted to elicit the informative priors by combining descriptive analysis of data, adjustment models from simpler structures, were able to produce estimates with low standard error and very close to the nominal values. / Na área da saúde a aplicação de teste de referência padrão ouro na totalidade ou parte da amostra sob investigação é, muitas vezes, impraticável devido à inexistência de consenso sobre o teste a ser considerado padrão ouro, ao elevado nível de invasão da técnica, ao alto custo da aplicação em grande escala ou por questões éticas. Contudo, conhecer o desempenho dos testes é fundamental no processo de diagnóstico. Na modelagem estatística voltada à estimação da taxa de prevalência da doença (x ) e dos parâmetros de desempenho de testes diagnósticos (sensibilidade (S) e especificidade (E)), a literatura tem explorado: estratificação da população, relaxamento da suposição de independência condicional, inclusão de covariáveis, tipo de verificação pelo teste padrão ouro e técnicas para substituir o teste padrão ouro inexistente ou inviável de ser aplicado em toda a amostra. Neste trabalho, propomos uma nova estrutura de estratificação da população considerando taxas de prevalências e parâmetros de desempenho diferentes entre os estratos (HWE). Apresentamos uma modelagem bayesiana de classe latente para o caso geral de K testes diagnósticos sob investigação, relaxamento da suposição de independência condicional segundo as formulações de efeito fixo (DCEF) e efeito aleatório (DCEA) com dependência de ordem (h _ K) e inclusão de M covariáveis. A aplicação dos modelos a dois conjuntos de dados sobre avaliação do desempenho de testes diagnósticos utilizados na triagem da doença de Chagas em doadores de sangue apresentou resultados coerentes com os estudos de sensibilidade. Observamos, para a estrutura de estratificação proposta, HWE, desempenho superior e estimativas muito próximas dos valores nominais quando comparados à estrutura de estratificação na qual somente as taxas de prevalências são diferentes entre os estratos (HW), mesmo quando consideramos dados com taxas de S, E e x muito próximas entre os estratos. Geralmente, na estrutura de classe latente, quando temos baixa ou alta prevalência da doença, as estimativas das sensibilidades e especificidades apresentam, respectivamente, erro padrão mais elevado. No entanto, quando há alta concordância de resultados positivos ou negativos, tal erro diminui. Independentemente da estrutura de estratificação (HWE, HW), do tamanho amostral e dos diferentes cenários utilizados para modelar o conhecimento a priori, os modelos de DCEF e de DCEA apresentaram, a partir dos critérios de informação (AIC, BIC e DIC), desempenhos superiores à estrutura de independência condicional (IC), sendo o de DCEF com melhor desempenho e estimativas mais próximas dos valores nominais. Além da ligação logito, derivada da distribuição logística com forma simétrica, encontramos na ligação VEG , derivada da distribuição de valor extremo generalizada a qual acomoda formas simétricas e assimétricas, interessante alternativa para construir a estrutura de DCEA. Como alternativa ao problema de identificabilidade, neste tipo de modelo, os critérios para elicitar as prioris informativas, combinando análise descritiva dos dados com ajuste de modelos de estruturas mais simples, contribuíram para produzir estimativas com baixo erro padrão e muito próximas dos valores nominais.
|
5 |
[en] THE LINEAR LOCAL-GLOBAL NEURAL NETWORK MODEL / [pt] O MODELO DE REDES NEURAIS GLOBAIS-LOCAISMAYTE SUAREZ FARINAS 02 July 2003 (has links)
[pt] Nesta tese apresenta-se o Modelo de Redes Neurais Globais-
Locais (RNGL) dentro do contexto de modelos de séries
temporais. Esta formulação abrange alguns modelos não-
lineares já existentes e admite também o enfoque de Mistura
de Especialistas. Dedica-se especial atenção ao caso de
especialistas lineares, e são discutidos extensivamente
aspectos teóricos do modelo: condições de estacionariedade,
identificabilidade do modelo, existência, consistência e
normalidade assintótica dos estimadores dos parâmetros.
Considera-se também uma estratégia de construção do modelo
e são discutidos os procedimentos numéricos de estimação,
apresentando uma solução para o cálculo de valores
iniciais. Finalmente, ilustra-se a metodologia apresentada
em duas séries temporais reais, amplamente utilizada na
literatura de modelos não lineares. / [en] In this thesis, the Local Global Neural Networks model is
proposed within the context of time series models. This
formulation encompasses some already existing nonlinear
models and also admits the Mixture of Experts approach. We
place emphasis on the linear expert case and extensively
discuss the theoretical aspects of the model: stationary
conditions, existence, consistency and asymptotic normality
of the parameter estimates, and model identifiability. A
model building strategy is also considered and the whole
procedure is illustrated with two real time-series.
|
6 |
Análise de dados categorizados com omissão em variáveis explicativas e respostas / Categorical data analysis with missingness in explanatory and response variablesPoleto, Frederico Zanqueta 08 April 2011 (has links)
Nesta tese apresentam-se desenvolvimentos metodológicos para analisar dados com omissão e também estudos delineados para compreender os resultados de tais análises. Escrutinam-se análises de sensibilidade bayesiana e clássica para dados com respostas categorizadas sujeitas a omissão. Mostra-se que as componentes subjetivas de cada abordagem podem influenciar os resultados de maneira não-trivial, independentemente do tamanho da amostra, e que, portanto, as conclusões devem ser cuidadosamente avaliadas. Especificamente, demonstra-se que distribuições \\apriori\\ comumente consideradas como não-informativas ou levemente informativas podem, na verdade, ser bastante informativas para parâmetros inidentificáveis, e que a escolha do modelo sobreparametrizado também tem um papel importante. Quando há omissão em variáveis explicativas, também é necessário propor um modelo marginal para as covariáveis mesmo se houver interesse apenas no modelo condicional. A especificação incorreta do modelo para as covariáveis ou do modelo para o mecanismo de omissão leva a inferências enviesadas para o modelo de interesse. Trabalhos anteriormente publicados têm-se dividido em duas vertentes: ou utilizam distribuições semiparamétricas/não-paramétricas, flexíveis para as covariáveis, e identificam o modelo com a suposição de um mecanismo de omissão não-informativa, ou empregam distribuições paramétricas para as covariáveis e permitem um mecanismo mais geral, de omissão informativa. Neste trabalho analisam-se respostas binárias, combinando um mecanismo de omissão informativa com um modelo não-paramétrico para as covariáveis contínuas, por meio de uma mistura induzida pela distribuição \\apriori\\ de processo de Dirichlet. No caso em que o interesse recai apenas em momentos da distribuição das respostas, propõe-se uma nova análise de sensibilidade sob o enfoque clássico para respostas incompletas que evita suposições distribucionais e utiliza parâmetros de sensibilidade de fácil interpretação. O procedimento tem, em particular, grande apelo na análise de dados contínuos, campo que tradicionalmente emprega suposições de normalidade e/ou utiliza parâmetros de sensibilidade de difícil interpretação. Todas as análises são ilustradas com conjuntos de dados reais. / We present methodological developments to conduct analyses with missing data and also studies designed to understand the results of such analyses. We examine Bayesian and classical sensitivity analyses for data with missing categorical responses and show that the subjective components of each approach can influence results in non-trivial ways, irrespectively of the sample size, concluding that they need to be carefully evaluated. Specifically, we show that prior distributions commonly regarded as slightly informative or non-informative may actually be too informative for non-identifiable parameters, and that the choice of over-parameterized models may drastically impact the results. When there is missingness in explanatory variables, we also need to consider a marginal model for the covariates even if the interest lies only on the conditional model. An incorrect specification of either the model for the covariates or of the model for the missingness mechanism leads to biased inferences for the parameters of interest. Previously published works are commonly divided into two streams: either they use semi-/non-parametric flexible distributions for the covariates and identify the model via a non-informative missingness mechanism, or they employ parametric distributions for the covariates and allow a more general informative missingness mechanism. We consider the analysis of binary responses, combining an informative missingness model with a non-parametric model for the continuous covariates via a Dirichlet process mixture. When the interest lies only in moments of the response distribution, we consider a new classical sensitivity analysis for incomplete responses that avoids distributional assumptions and employs easily interpreted sensitivity parameters. The procedure is particularly useful for analyses of missing continuous data, an area where normality is traditionally assumed and/or relies on hard-to-interpret sensitivity parameters. We illustrate all analyses with real data sets.
|
7 |
Análise de dados categorizados com omissão em variáveis explicativas e respostas / Categorical data analysis with missingness in explanatory and response variablesFrederico Zanqueta Poleto 08 April 2011 (has links)
Nesta tese apresentam-se desenvolvimentos metodológicos para analisar dados com omissão e também estudos delineados para compreender os resultados de tais análises. Escrutinam-se análises de sensibilidade bayesiana e clássica para dados com respostas categorizadas sujeitas a omissão. Mostra-se que as componentes subjetivas de cada abordagem podem influenciar os resultados de maneira não-trivial, independentemente do tamanho da amostra, e que, portanto, as conclusões devem ser cuidadosamente avaliadas. Especificamente, demonstra-se que distribuições \\apriori\\ comumente consideradas como não-informativas ou levemente informativas podem, na verdade, ser bastante informativas para parâmetros inidentificáveis, e que a escolha do modelo sobreparametrizado também tem um papel importante. Quando há omissão em variáveis explicativas, também é necessário propor um modelo marginal para as covariáveis mesmo se houver interesse apenas no modelo condicional. A especificação incorreta do modelo para as covariáveis ou do modelo para o mecanismo de omissão leva a inferências enviesadas para o modelo de interesse. Trabalhos anteriormente publicados têm-se dividido em duas vertentes: ou utilizam distribuições semiparamétricas/não-paramétricas, flexíveis para as covariáveis, e identificam o modelo com a suposição de um mecanismo de omissão não-informativa, ou empregam distribuições paramétricas para as covariáveis e permitem um mecanismo mais geral, de omissão informativa. Neste trabalho analisam-se respostas binárias, combinando um mecanismo de omissão informativa com um modelo não-paramétrico para as covariáveis contínuas, por meio de uma mistura induzida pela distribuição \\apriori\\ de processo de Dirichlet. No caso em que o interesse recai apenas em momentos da distribuição das respostas, propõe-se uma nova análise de sensibilidade sob o enfoque clássico para respostas incompletas que evita suposições distribucionais e utiliza parâmetros de sensibilidade de fácil interpretação. O procedimento tem, em particular, grande apelo na análise de dados contínuos, campo que tradicionalmente emprega suposições de normalidade e/ou utiliza parâmetros de sensibilidade de difícil interpretação. Todas as análises são ilustradas com conjuntos de dados reais. / We present methodological developments to conduct analyses with missing data and also studies designed to understand the results of such analyses. We examine Bayesian and classical sensitivity analyses for data with missing categorical responses and show that the subjective components of each approach can influence results in non-trivial ways, irrespectively of the sample size, concluding that they need to be carefully evaluated. Specifically, we show that prior distributions commonly regarded as slightly informative or non-informative may actually be too informative for non-identifiable parameters, and that the choice of over-parameterized models may drastically impact the results. When there is missingness in explanatory variables, we also need to consider a marginal model for the covariates even if the interest lies only on the conditional model. An incorrect specification of either the model for the covariates or of the model for the missingness mechanism leads to biased inferences for the parameters of interest. Previously published works are commonly divided into two streams: either they use semi-/non-parametric flexible distributions for the covariates and identify the model via a non-informative missingness mechanism, or they employ parametric distributions for the covariates and allow a more general informative missingness mechanism. We consider the analysis of binary responses, combining an informative missingness model with a non-parametric model for the continuous covariates via a Dirichlet process mixture. When the interest lies only in moments of the response distribution, we consider a new classical sensitivity analysis for incomplete responses that avoids distributional assumptions and employs easily interpreted sensitivity parameters. The procedure is particularly useful for analyses of missing continuous data, an area where normality is traditionally assumed and/or relies on hard-to-interpret sensitivity parameters. We illustrate all analyses with real data sets.
|
Page generated in 0.0745 seconds