Spelling suggestions: "subject:"faltantes"" "subject:"saltantes""
21 |
Alternativas de análise para experimentos G × E multiatributo / Alternatives of analysis of G×E trials multi-attributePeña, Marisol Garcia 04 February 2016 (has links)
Geralmente, nos experimentos genótipo por ambiente (G × E) é comum observar o comportamento dos genótipos em relação a distintos atributos nos ambientes considerados. A análise deste tipo de experimentos tem sido abordada amplamente para o caso de um único atributo. Nesta tese são apresentadas algumas alternativas de análise considerando genótipos, ambientes e atributos simultaneamente. A primeira, é baseada no método de mistura de máxima verossimilhança de agrupamento - Mixclus e a análise de componentes principais de 3 modos - 3MPCA, que permitem a análise de tabelas de tripla entrada, estes dois métodos têm sido muito usados na área da psicologia e da química, mas pouco na agricultura. A segunda, é uma metodologia que combina, o modelo de efeitos aditivos com interação multiplicativa - AMMI, modelo eficiente para a análise de experimentos (G × E) com um atributo e a análise de procrustes generalizada, que permite comparar configurações de pontos e proporcionar uma medida numérica de quanto elas diferem. Finalmente, é apresentada uma alternativa para realizar imputação de dados nos experimentos (G × E), pois, uma situação muito frequente nestes experimentos, é a presença de dados faltantes. Conclui-se que as metodologias propostas constituem ferramentas úteis para a análise de experimentos (G × E) multiatributo. / Usually, in the experiments genotype by environment (G×E) it is common to observe the behaviour of genotypes in relation to different attributes in the environments considered. The analysis of such experiments have been widely discussed for the case of a single attribute. This thesis presents some alternatives of analysis, considering genotypes, environments and attributes simultaneously. The first, is based on the mixture maximum likelihood method - Mixclus and the three-mode principal component analysis, these two methods have been very used in the psychology and chemistry, but little in agriculture. The second, is a methodology that combines the additive main effects and multiplicative interaction models - AMMI, efficient model for the analysis of experiments (G×E) with one attribute, and the generalised procrustes analysis, which allows compare configurations of points and provide a numerical measure of how much they differ. Finally, an alternative to perform data imputation in the experiments (G×E) is presented, because, a very frequent situation in these experiments, is the presence of missing values. It is concluded that the proposed methodologies are useful tools for the analysis of experiments (G×E) multi-attribute.
|
22 |
Análise de dados categorizados com omissão / Analysis of categorical data with missingnessPoleto, Frederico Zanqueta 30 August 2006 (has links)
Neste trabalho aborda-se aspectos teóricos, computacionais e aplicados de análises clássicas de dados categorizados com omissão. Uma revisão da literatura é apresentada enquanto se introduz os mecanismos de omissão, mostrando suas características e implicações nas inferências de interesse por meio de um exemplo considerando duas variáveis respostas dicotômicas e estudos de simulação. Amplia-se a modelagem descrita em Paulino (1991, Brazilian Journal of Probability and Statistics 5, 1-42) da distribuição multinomial para a produto de multinomiais para possibilitar a inclusão de variáveis explicativas na análise. Os resultados são desenvolvidos em formulação matricial adequada para a implementação computacional, que é realizada com a construção de uma biblioteca para o ambiente estatístico R, a qual é disponibilizada para facilitar o traçado das inferências descritas nesta dissertação. A aplicação da teoria é ilustrada por meio de cinco exemplos de características diversas, uma vez que se ajusta modelos estruturais lineares (homogeneidade marginal), log-lineares (independência, razão de chances adjacentes comum) e funcionais lineares (kappa, kappa ponderado, sensibilidade/especificidade, valor preditivo positivo/negativo) para as probabilidades de categorização. Os padrões de omissão também são variados, com omissões em uma ou duas variáveis, confundimento de células vizinhas, sem ou com subpopulações. / We consider theoretical, computational and applied aspects of classical categorical data analyses with missingness. We present a literature review while introducing the missingness mechanisms, highlighting their characteristics and implications in the inferences of interest by means of an example involving two binary responses and simulation studies. We extend the multinomial modeling scenario described in Paulino (1991, Brazilian Journal of Probability and Statistics 5, 1-42) to the product-multinomial setup to allow for the inclusion of explanatory variables. We develop the results in matrix formulation and implement the computational procedures via subroutines written under R statistical environment. We illustrate the application of the theory by means of five examples with different characteristics, fitting structural linear (marginal homogeneity), log-linear (independence, constant adjacent odds ratio) and functional linear models (kappa, weighted kappa, sensitivity/specificity, positive/negative predictive value) for the marginal probabilities. The missingness patterns includes missingness in one or two variables, neighbor cells confounded, with or without explanatory variables.
|
23 |
Alternativas de análise para experimentos G × E multiatributo / Alternatives of analysis of G×E trials multi-attributeMarisol Garcia Peña 04 February 2016 (has links)
Geralmente, nos experimentos genótipo por ambiente (G × E) é comum observar o comportamento dos genótipos em relação a distintos atributos nos ambientes considerados. A análise deste tipo de experimentos tem sido abordada amplamente para o caso de um único atributo. Nesta tese são apresentadas algumas alternativas de análise considerando genótipos, ambientes e atributos simultaneamente. A primeira, é baseada no método de mistura de máxima verossimilhança de agrupamento - Mixclus e a análise de componentes principais de 3 modos - 3MPCA, que permitem a análise de tabelas de tripla entrada, estes dois métodos têm sido muito usados na área da psicologia e da química, mas pouco na agricultura. A segunda, é uma metodologia que combina, o modelo de efeitos aditivos com interação multiplicativa - AMMI, modelo eficiente para a análise de experimentos (G × E) com um atributo e a análise de procrustes generalizada, que permite comparar configurações de pontos e proporcionar uma medida numérica de quanto elas diferem. Finalmente, é apresentada uma alternativa para realizar imputação de dados nos experimentos (G × E), pois, uma situação muito frequente nestes experimentos, é a presença de dados faltantes. Conclui-se que as metodologias propostas constituem ferramentas úteis para a análise de experimentos (G × E) multiatributo. / Usually, in the experiments genotype by environment (G×E) it is common to observe the behaviour of genotypes in relation to different attributes in the environments considered. The analysis of such experiments have been widely discussed for the case of a single attribute. This thesis presents some alternatives of analysis, considering genotypes, environments and attributes simultaneously. The first, is based on the mixture maximum likelihood method - Mixclus and the three-mode principal component analysis, these two methods have been very used in the psychology and chemistry, but little in agriculture. The second, is a methodology that combines the additive main effects and multiplicative interaction models - AMMI, efficient model for the analysis of experiments (G×E) with one attribute, and the generalised procrustes analysis, which allows compare configurations of points and provide a numerical measure of how much they differ. Finally, an alternative to perform data imputation in the experiments (G×E) is presented, because, a very frequent situation in these experiments, is the presence of missing values. It is concluded that the proposed methodologies are useful tools for the analysis of experiments (G×E) multi-attribute.
|
24 |
Imputação filogenética: uma perspectiva macroecológica / Phylogenetic imputation: a macroecological perspectiveJardim, Lucas Lacerda Caldas Zanini 27 April 2018 (has links)
Submitted by Onia Arantes Albuquerque (onia.ufg@gmail.com) on 2018-10-15T15:02:15Z
No. of bitstreams: 2
Tese - Lucas Lacerda Caldas Zanini Jardim - 2018.pdf: 5066072 bytes, checksum: 4280b5b19a9111a59fea8065049fd5b3 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2018-10-15T15:25:17Z (GMT) No. of bitstreams: 2
Tese - Lucas Lacerda Caldas Zanini Jardim - 2018.pdf: 5066072 bytes, checksum: 4280b5b19a9111a59fea8065049fd5b3 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-10-15T15:25:17Z (GMT). No. of bitstreams: 2
Tese - Lucas Lacerda Caldas Zanini Jardim - 2018.pdf: 5066072 bytes, checksum: 4280b5b19a9111a59fea8065049fd5b3 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2018-04-27 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Macroecology studies ecological pattern at large geographical and temporal scales. At
these scales, information about hundreds or even thousands of studied species. This lack
of information may potentially bias studies’ conclusions related with macroecological
processes and patterns. In this thesis, we evaluated phylogenetic imputation methods,
their uses and effects in macroecological studies. The first chapter evaluated different
methods used to deal with missing data, taking into account different scenarios of species
trait evolution, as well as percentage and pattern of missing data. We found that dealing
with missing data relies on the specific goals and data of the study. Therefore, we
suggested caution while using imputed database. In the second chapter, we tested the
island rule effect in body mass and brain volume of primates. To do so, we fitted
evolutionary models to those traits and then imputed the body mass and brain volume for
Homo floresiensis. We concluded that primates do not follow the island rule and even
though our models overestimated, on average, brain and body size of Homo floresiensis,
its evolution did not deviate from primates’ evolutionary expectation. Lastly, in the third
chapter, we tested existence of Bergmann’s rule in mammals using multiple imputation
methods, in addition to considering the consequences of ignoring missing data while
testing the rule. We found that ignoring missing data can invert (eg. changing from
positive to negative effect) the effect of temperature on body mass, but this bias did not
turn the effect statistically significant. Therefore, we concluded that mammals do not
follow Bergmann’s rule, when evaluated at the class taxonomic level. Finally, this thesis
discussed pros, cons and future research avenues in order to make phylogenetic
imputation a more robust tool to deal with missing data in macroecology. / A macroecologia estuda padrões ecológicos em grandes escalas geográficas e temporais,
em busca de quais processos moldam esses padrões. Nessas escalas de estudo, há
raramente informações completas sobre as centenas ou até milhares de espécies
estudadas. Essa ausência de informações tem o potencial de enviesar as conclusões dos
estudos sobre padrões e processos macroecológicos. Nessa tese, nós avaliamos métodos
de imputação filogenética, a sua aplicação e consequências em estudos macroecológicos.
Para avaliar potenciais vieses do uso de banco de dados imputados, no primeiro capítulo,
nós aplicamos diferentes métodos utilizados para tratar dados faltantes, sob diferentes
cenários de evolução dos atributos das espécies, porcentagem e padrão dos dados
faltantes. Nós encontramos que a forma de tratar o dado faltante pode ser dependente dos
objetivos e dos dados de cada estudo e, portanto, nós sugerimos cautela ao utilizarmos
bancos de dados imputados. No segundo capítulo, nós testamos o efeito da regra de ilha
na evolução da massa corpórea e do volume cerebral de primatas. A partir dos melhores
modelos evolutivos ajustados a esses atributos, nós imputamos a massa corpórea e
volume cerebral de Homo floresiensis. Nós concluímos que primatas não seguem regra
de ilha e que apesar de nossos modelos superestimarem, em média, o tamanho do corpo
e cérebro de Homo floresiensis, a sua evolução não se desvia do esperado pela evolução
de primatas. Por fim, no terceiro capítulo testamos a regra de Bergmann em mamíferos,
utilizando métodos de imputação múltipla e avaliamos as consequências de desconsiderar
os dados faltantes na detecção da regra. Nós encontramos que testar a regra sem
considerar os dados faltantes pode inverter o efeito da temperatura na massa do corpo,
mas esse viés não tornou o efeito estatisticamente significante. Portanto, concluímos que
mamíferos não seguem a regra de Bergmann, quando toda a classe é avaliada. Por fim,
essa tese discutiu vantagens, desvantagens e futuras linhas de pesquisa para tornar a
imputação filogenética uma ferramenta mais robusta para tratarmos dados faltantes em
macroecologia.
|
25 |
Modelagem de mudanças climáticas: do nicho fundamental à conservação da biodiversidade / Climate change modeling: from the fundamental niche to biodiversity conservationFaleiro, Frederico Augusto Martins Valtuille 07 March 2016 (has links)
Submitted by Cássia Santos (cassia.bcufg@gmail.com) on 2016-05-31T09:35:51Z
No. of bitstreams: 2
Tese - Frederico Augusto Martins Valtuille Faleiro - 2016.pdf: 7096330 bytes, checksum: 04cfce04ef128c5bd6e99ce18bb7f650 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-05-31T10:52:51Z (GMT) No. of bitstreams: 2
Tese - Frederico Augusto Martins Valtuille Faleiro - 2016.pdf: 7096330 bytes, checksum: 04cfce04ef128c5bd6e99ce18bb7f650 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2016-05-31T10:52:51Z (GMT). No. of bitstreams: 2
Tese - Frederico Augusto Martins Valtuille Faleiro - 2016.pdf: 7096330 bytes, checksum: 04cfce04ef128c5bd6e99ce18bb7f650 (MD5)
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
Previous issue date: 2016-03-07 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The climate changes are one of the major threats to the biodiversity and it is expected to increase its impact along the 21st century. The climate change affect all levels of the biodiversity from individuals to biomes, reducing the ecosystem services. Despite of this, the prediction of climate change impacts on biodiversity is still a challenge. Overcoming these issues depends on improvements in different aspects of science that support predictions of climate change impact on biodiversity. The common practice to predict the climate change impact consists in formulate ecological niche models based in the current climate and project the changes based in the future climate predicted by the climate models. However, there are some recognized limitations both in the formulation of the ecological niche model and in the use of predictions from the climate models that need to be analyzed. Here, in the first chapter we review the science behind the climate models in order to reduce the knowledge gap between the scientific community that formulate the climate models and the community that use the predictions of these models. We showed that there is not consensus about evaluate the climate models, obtain regional models with higher spatial resolution and define consensual models. However, we gave some guidelines for use the predictions of the climate models. In the second chapter, we tested if the predictions of correlative ecological niche models fitted with presence-absence match the predictions of models fitted with abundance data on the metrics of climate change impact on orchid bees in the Atlantic Forest. We found that the presence-absence models were a partial proxy of change in abundance when the output of the models was continuous, but the same was not true when the predictions were converted to binary. The orchid bees in general will decrease the abundance in the future, but will retain a good amount of suitable sites in the future and the distance to gained climatic suitable areas can be very close, despite of great variation. The change in the species richness and turnover will be mainly in the western and some regions of southern of the Atlantic Forest. In the third chapter, we discussed the drawbacks in using the estimations of realized niche instead the fundamental niche, such as overpredicting the effect of climate change on species’ extinction risk. We proposed a framework based on phylogenetic comparative and missing data methods to predict the dimensions of the fundamental niche of species with missing data. Moreover, we explore sources of uncertainty in predictions of fundamental niche and highlight future directions to overcome current limitations of phylogenetic comparative and missing data methods to improve predictions. We conclude that it is possible to make better use of the current knowledge about species’ fundamental niche with phylogenetic information and auxiliary traits to predict the fundamental niche of poorly-studied species. In the fourth chapter, we used the framework of the chapter three to test the performance of two recent phylogenetic modeling methods to predict the thermal niche of mammals. We showed that PhyloPars had better performance than Phylogenetic Eigenvector Maps in predict the thermal niche. Moreover, the error and bias had similar phylogenetic pattern for both margins of the thermal niche while they had differences in the geographic pattern. The variance in the performance was explained by taxonomic differences and not by methodological aspects. Finally, our models better predicted the upper margin than the lower margin of the thermal niche. This is a good news for predicting the effect of climate change on species without physiological data. We hope our finds can be used to improve the predictions of climate change effect on the biodiversity in future studies and support the political decisions on minimizing the effects of climate change on biodiversity. / As mudanças climáticas são uma das principais ameaças à biodiversidade e é esperado que aumente seu impacto ao longo do século XXI. As mudanças climáticas afetam todos os níveis de biodiversidade, de indivíduos à biomas, reduzindo os serviços ecossistêmicos. Apesar disso, as predições dos impactos das mudanças climáticas na biodiversidade é ainda um desafio. A superação dessas questões depende de melhorias em diferentes aspectos da ciência que dá suporte para predizer o impacto das mudanças climáticas na biodiversidade. A prática comum para predizer o impacto das mudanças climáticas consiste em formular modelos de nicho ecológico baseado no clima atual e projetar as mudanças baseadas no clima futuro predito pelos modelos climáticos. No entanto, existem algumas limitações reconhecidas na formulação do modelo de nicho ecológico e no uso das predições dos modelos climáticos que precisam ser analisadas. Aqui, no primeiro capítulo nós revisamos a ciência por detrás dos modelos climáticos com o intuito de reduzir a lacuna de conhecimentos entre a comunidade científica que formula os modelos climáticos e a comunidade que usa as predições dos modelos. Nós mostramos que não existe consenso sobre avaliar os modelos climáticos, obter modelos regionais com maior resolução espacial e definir modelos consensuais. No entanto, nós damos algumas orientações para usar as predições dos modelos climáticos. No segundo capítulo, nós testamos se as predições dos modelos correlativos de nicho ecológicos ajustados com presença-ausência são congruentes com aqueles ajustados com dados de abundância nas medidas de impacto das mudanças climáticas em abelhas de orquídeas da Mata Atlântica. Nós encontramos que os modelos com presença-ausência foram substitutos parciais das mudanças na abundância quando o resultado dos modelos foi contínuo (adequabilidade), mas o mesmo não ocorreu quando as predições foram convertidas para binárias. As espécies de abelhas, de modo geral, irão diminuir em abundância no futuro, mas reterão uma boa quantidade de locais adequados no futuro e a distância para áreas climáticas adequadas ganhadas podem estar bem próximo, apesar da grande variação. A mudança na riqueza e na substituição de espécies ocorrerá principalmente no Oeste e algumas regiões no sul da Mata Atlântica. No terceiro capítulo, nós discutimos as desvantagens no uso de estimativas do nicho realizado ao invés do nicho fundamental, como superestimar o efeito das mudanças climáticas no risco de extinção das espécies. Nós propomos um esquema geral baseado em métodos filogenéticos comparativos e métodos de dados faltantes para predizer as dimensões do nicho fundamental das espécies com dados faltantes. Além disso, nós exploramos as fontes de incerteza nas predições do nicho fundamental e destacamos direções futuras para superar as limitações atuais dos métodos comparativos filogenéticas e métodos de dados faltantes para melhorar as predições. Nós concluímos que é possível fazer melhor uso do conhecimento atual sobre o nicho fundamental das espécies com informação filogenética e caracteres auxiliares para predizer o nicho fundamental de espécies pouco estudadas. No quarto capítulo, nós usamos o esquema geral do capítulo três para testar a performance de dois novos métodos de modelagem filogenética para predizer o nicho térmico dos mamíferos. Nós mostramos que o “PhyloPars” teve uma melhor performance que o “Phylogenetic Eigenvector Maps” em predizer o nicho térmico. Além disso, o erro e o viés tiveram um padrão filogenético similar para ambas as margens do nicho térmico, enquanto eles apresentaram diferentes padrões espaciais. A variância na performance foi explicada pelas diferenças taxonômicas e não pelas diferenças em aspectos metodológicos. Finalmente, nossos modelos melhor predizem a margem superior do que a margem inferior do nicho térmico. Essa é uma boa notícia para predizer o efeito das mudanças climáticas em espécies sem dados fisiológicos. Nós esperamos que nossos resultados possam ser usados para melhorar as predições do efeito das mudanças climáticas na biodiversidade em estudos futuros e dar suporte para decisões políticas para minimização dos efeitos das mudanças climáticas na biodiversidade.
|
26 |
Análise de dados categorizados com omissão / Analysis of categorical data with missingnessFrederico Zanqueta Poleto 30 August 2006 (has links)
Neste trabalho aborda-se aspectos teóricos, computacionais e aplicados de análises clássicas de dados categorizados com omissão. Uma revisão da literatura é apresentada enquanto se introduz os mecanismos de omissão, mostrando suas características e implicações nas inferências de interesse por meio de um exemplo considerando duas variáveis respostas dicotômicas e estudos de simulação. Amplia-se a modelagem descrita em Paulino (1991, Brazilian Journal of Probability and Statistics 5, 1-42) da distribuição multinomial para a produto de multinomiais para possibilitar a inclusão de variáveis explicativas na análise. Os resultados são desenvolvidos em formulação matricial adequada para a implementação computacional, que é realizada com a construção de uma biblioteca para o ambiente estatístico R, a qual é disponibilizada para facilitar o traçado das inferências descritas nesta dissertação. A aplicação da teoria é ilustrada por meio de cinco exemplos de características diversas, uma vez que se ajusta modelos estruturais lineares (homogeneidade marginal), log-lineares (independência, razão de chances adjacentes comum) e funcionais lineares (kappa, kappa ponderado, sensibilidade/especificidade, valor preditivo positivo/negativo) para as probabilidades de categorização. Os padrões de omissão também são variados, com omissões em uma ou duas variáveis, confundimento de células vizinhas, sem ou com subpopulações. / We consider theoretical, computational and applied aspects of classical categorical data analyses with missingness. We present a literature review while introducing the missingness mechanisms, highlighting their characteristics and implications in the inferences of interest by means of an example involving two binary responses and simulation studies. We extend the multinomial modeling scenario described in Paulino (1991, Brazilian Journal of Probability and Statistics 5, 1-42) to the product-multinomial setup to allow for the inclusion of explanatory variables. We develop the results in matrix formulation and implement the computational procedures via subroutines written under R statistical environment. We illustrate the application of the theory by means of five examples with different characteristics, fitting structural linear (marginal homogeneity), log-linear (independence, constant adjacent odds ratio) and functional linear models (kappa, weighted kappa, sensitivity/specificity, positive/negative predictive value) for the marginal probabilities. The missingness patterns includes missingness in one or two variables, neighbor cells confounded, with or without explanatory variables.
|
27 |
Técnicas de diagnóstico para modelos lineares generalizados com medidas repetidas / Diagnostics for generalized linear models for repeated measures data with missing valuesLucas Petri Damiani 10 May 2012 (has links)
A literatura dispõe de métodos de diagnóstico para avaliar o ajuste de modelos lineares generalizados (MLGs) para medidas repetidas baseado em equações de estimação generalizada (EEG). No entanto, tais métodos não contemplam a distribuição binomial nem bancos de dados com observações faltantes. O presente trabalho generalizou os métodos já desenvolvidos para essas duas situações. Na construção de gráficos de probabilidade meio-normal com envelope simulado para a distribuição binomial, foi proposto um método para geração de variáveis aleatórias com distribuição marginal binomial correlacionadas, baseado na convolução de variáveis com distribuição de Poisson independentes. Os métodos de diagnóstico desenvolvidos foram aplicados em dados reais e simulados. / Literature provides diagnostic methods to assess the fit of generalized linear models (GLM) for repeated measures based on generalized estimating equations (GEE). Still, such methods do not include the binomial distribution or databases with missing observations. This work generalizes the methods already developed for these two situations. A method for generating random variables with correlated marginal binomial distributions based on convolution of independent Poisson random variables has been proposed for the construction of half-normal probability plots. The diagnostic methods developed were applied to real and simulated data.
|
28 |
Análise de dados categorizados com omissão em variáveis explicativas e respostas / Categorical data analysis with missingness in explanatory and response variablesPoleto, Frederico Zanqueta 08 April 2011 (has links)
Nesta tese apresentam-se desenvolvimentos metodológicos para analisar dados com omissão e também estudos delineados para compreender os resultados de tais análises. Escrutinam-se análises de sensibilidade bayesiana e clássica para dados com respostas categorizadas sujeitas a omissão. Mostra-se que as componentes subjetivas de cada abordagem podem influenciar os resultados de maneira não-trivial, independentemente do tamanho da amostra, e que, portanto, as conclusões devem ser cuidadosamente avaliadas. Especificamente, demonstra-se que distribuições \\apriori\\ comumente consideradas como não-informativas ou levemente informativas podem, na verdade, ser bastante informativas para parâmetros inidentificáveis, e que a escolha do modelo sobreparametrizado também tem um papel importante. Quando há omissão em variáveis explicativas, também é necessário propor um modelo marginal para as covariáveis mesmo se houver interesse apenas no modelo condicional. A especificação incorreta do modelo para as covariáveis ou do modelo para o mecanismo de omissão leva a inferências enviesadas para o modelo de interesse. Trabalhos anteriormente publicados têm-se dividido em duas vertentes: ou utilizam distribuições semiparamétricas/não-paramétricas, flexíveis para as covariáveis, e identificam o modelo com a suposição de um mecanismo de omissão não-informativa, ou empregam distribuições paramétricas para as covariáveis e permitem um mecanismo mais geral, de omissão informativa. Neste trabalho analisam-se respostas binárias, combinando um mecanismo de omissão informativa com um modelo não-paramétrico para as covariáveis contínuas, por meio de uma mistura induzida pela distribuição \\apriori\\ de processo de Dirichlet. No caso em que o interesse recai apenas em momentos da distribuição das respostas, propõe-se uma nova análise de sensibilidade sob o enfoque clássico para respostas incompletas que evita suposições distribucionais e utiliza parâmetros de sensibilidade de fácil interpretação. O procedimento tem, em particular, grande apelo na análise de dados contínuos, campo que tradicionalmente emprega suposições de normalidade e/ou utiliza parâmetros de sensibilidade de difícil interpretação. Todas as análises são ilustradas com conjuntos de dados reais. / We present methodological developments to conduct analyses with missing data and also studies designed to understand the results of such analyses. We examine Bayesian and classical sensitivity analyses for data with missing categorical responses and show that the subjective components of each approach can influence results in non-trivial ways, irrespectively of the sample size, concluding that they need to be carefully evaluated. Specifically, we show that prior distributions commonly regarded as slightly informative or non-informative may actually be too informative for non-identifiable parameters, and that the choice of over-parameterized models may drastically impact the results. When there is missingness in explanatory variables, we also need to consider a marginal model for the covariates even if the interest lies only on the conditional model. An incorrect specification of either the model for the covariates or of the model for the missingness mechanism leads to biased inferences for the parameters of interest. Previously published works are commonly divided into two streams: either they use semi-/non-parametric flexible distributions for the covariates and identify the model via a non-informative missingness mechanism, or they employ parametric distributions for the covariates and allow a more general informative missingness mechanism. We consider the analysis of binary responses, combining an informative missingness model with a non-parametric model for the continuous covariates via a Dirichlet process mixture. When the interest lies only in moments of the response distribution, we consider a new classical sensitivity analysis for incomplete responses that avoids distributional assumptions and employs easily interpreted sensitivity parameters. The procedure is particularly useful for analyses of missing continuous data, an area where normality is traditionally assumed and/or relies on hard-to-interpret sensitivity parameters. We illustrate all analyses with real data sets.
|
29 |
Análise de dados categorizados com omissão em variáveis explicativas e respostas / Categorical data analysis with missingness in explanatory and response variablesFrederico Zanqueta Poleto 08 April 2011 (has links)
Nesta tese apresentam-se desenvolvimentos metodológicos para analisar dados com omissão e também estudos delineados para compreender os resultados de tais análises. Escrutinam-se análises de sensibilidade bayesiana e clássica para dados com respostas categorizadas sujeitas a omissão. Mostra-se que as componentes subjetivas de cada abordagem podem influenciar os resultados de maneira não-trivial, independentemente do tamanho da amostra, e que, portanto, as conclusões devem ser cuidadosamente avaliadas. Especificamente, demonstra-se que distribuições \\apriori\\ comumente consideradas como não-informativas ou levemente informativas podem, na verdade, ser bastante informativas para parâmetros inidentificáveis, e que a escolha do modelo sobreparametrizado também tem um papel importante. Quando há omissão em variáveis explicativas, também é necessário propor um modelo marginal para as covariáveis mesmo se houver interesse apenas no modelo condicional. A especificação incorreta do modelo para as covariáveis ou do modelo para o mecanismo de omissão leva a inferências enviesadas para o modelo de interesse. Trabalhos anteriormente publicados têm-se dividido em duas vertentes: ou utilizam distribuições semiparamétricas/não-paramétricas, flexíveis para as covariáveis, e identificam o modelo com a suposição de um mecanismo de omissão não-informativa, ou empregam distribuições paramétricas para as covariáveis e permitem um mecanismo mais geral, de omissão informativa. Neste trabalho analisam-se respostas binárias, combinando um mecanismo de omissão informativa com um modelo não-paramétrico para as covariáveis contínuas, por meio de uma mistura induzida pela distribuição \\apriori\\ de processo de Dirichlet. No caso em que o interesse recai apenas em momentos da distribuição das respostas, propõe-se uma nova análise de sensibilidade sob o enfoque clássico para respostas incompletas que evita suposições distribucionais e utiliza parâmetros de sensibilidade de fácil interpretação. O procedimento tem, em particular, grande apelo na análise de dados contínuos, campo que tradicionalmente emprega suposições de normalidade e/ou utiliza parâmetros de sensibilidade de difícil interpretação. Todas as análises são ilustradas com conjuntos de dados reais. / We present methodological developments to conduct analyses with missing data and also studies designed to understand the results of such analyses. We examine Bayesian and classical sensitivity analyses for data with missing categorical responses and show that the subjective components of each approach can influence results in non-trivial ways, irrespectively of the sample size, concluding that they need to be carefully evaluated. Specifically, we show that prior distributions commonly regarded as slightly informative or non-informative may actually be too informative for non-identifiable parameters, and that the choice of over-parameterized models may drastically impact the results. When there is missingness in explanatory variables, we also need to consider a marginal model for the covariates even if the interest lies only on the conditional model. An incorrect specification of either the model for the covariates or of the model for the missingness mechanism leads to biased inferences for the parameters of interest. Previously published works are commonly divided into two streams: either they use semi-/non-parametric flexible distributions for the covariates and identify the model via a non-informative missingness mechanism, or they employ parametric distributions for the covariates and allow a more general informative missingness mechanism. We consider the analysis of binary responses, combining an informative missingness model with a non-parametric model for the continuous covariates via a Dirichlet process mixture. When the interest lies only in moments of the response distribution, we consider a new classical sensitivity analysis for incomplete responses that avoids distributional assumptions and employs easily interpreted sensitivity parameters. The procedure is particularly useful for analyses of missing continuous data, an area where normality is traditionally assumed and/or relies on hard-to-interpret sensitivity parameters. We illustrate all analyses with real data sets.
|
30 |
Imputação de dados faltantes via algoritmo EM e rede neural MLP com o método de estimativa de máxima verossimilhança para aumentar a acurácia das estimativasRibeiro, Elisalvo Alves 14 August 2015 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Database with missing values it is an occurrence often found in the real world, beiging of this problem caused by several reasons (equipment failure that transmits and stores the data, handler failure, failure who provides information, etc.). This may make the data inconsistent and unable to be analyzed, leading to very skewed conclusions. This dissertation aims to explore the use of Multilayer Perceptron Artificial Neural Network (ANN MLP), with new activation functions, considering two approaches (single imputation and multiple imputation). First, we propose the use of Maximum Likelihood Estimation Method (MLE) in each network neuron activation function, against the approach currently used, which is without the use of such a method or when is used only in the cost function (network output). It is then analyzed the results of these approaches compared with the Expectation Maximization algorithm (EM) is that the state of the art to treat missing data. The results indicate that when using the Artificial Neural Network MLP with Maximum Likelihood Estimation Method, both in all neurons and only in the output function, lead the an imputation with lower error. These experimental results, evaluated by metrics such as MAE (Mean Absolute Error) and RMSE (Root Mean Square Error), showed that the better results in most experiments occured when using the MLP RNA addressed in this dissertation to single imputation and multiple. / Base de dados com valores faltantes é uma ocorrência frequentemente encontrada no mundo real, sendo as causas deste problema são originadas por motivos diversos (falha no equipamento que transmite e armazena os dados, falha do manipulador, falha de quem fornece a informação, etc.). Tal situação pode tornar os dados inconsistentes e inaptos de serem analisados, conduzindo às conclusões muito enviesadas. Esta dissertação tem como objetivo explorar o emprego de Redes Neurais Artificiais Multilayer Perceptron (RNA MLP), com novas funções de ativação, considerando duas abordagens (imputação única e imputação múltipla). Primeiramente, é proposto o uso do Método de Estimativa de Máxima Verossimilhança (EMV) na função de ativação de cada neurônio da rede, em contrapartida à abordagem utilizada atualmente, que é sem o uso de tal método, ou quando o utiliza é apenas na função de custo (na saída da rede). Em seguida, são analisados os resultados destas abordagens em comparação com o algoritmo Expectation Maximization (EM) que é o estado da arte para tratar dados faltantes. Os resultados obtidos indicam que ao utilizar a Rede Neural Artificial MLP com o Método de Estimativa de Máxima Verossimilhança, tanto em todos os neurônios como apenas na função de saída, conduzem a uma imputação com menor erro. Os resultados experimentais foram avaliados via algumas métricas, sendo as principais o MAE (Mean Absolute Error) e RMSE (Root Mean Square Error), as quais apresentaram melhores resultados na maioria dos experimentos quando se utiliza a RNA MLP abordada neste trabalho para fazer imputação única e múltipla.
|
Page generated in 0.0456 seconds