Return to search

Transformações em dados composicionais para a aplicação da análise de componentes principais / Transformations in compositional data for application of principal components analysis

A análise de dados composicionais está sendo amplamente utilizada nas diversas áreas do conhecimento como por exemplo na análise de sedimentos rochosos, na comparação de diferentes células e até na análise criminalística na comparação de evidências de crimes. Durante a história da análise deste tipo de dados existiram muitos tipos de ajustes utilizados para contornar o problema da soma constante das variáveis e ainda hoje não temos um consenso de qual a melhor solução a ser utilizada. Neste trabalho, temos como objetivo a enunciação das 7 transformações que mais foram utilizadas ao longo do tempo e suas vantagens e desvantagens. A análise de componentes principais foi escolhida para o comparativo destas transformações. Fizemos a aplicação destas transformações em três bancos de dados reais com características diferentes entre si, comparamos os resultados e analisamos qual das transformações apresentou o melhor desempenho em cada base de dados. Os critérios de comparação foram o percentual da variância explicada, as variáveis que foram mais importantes para a primeira componente principal, cargas das variáveis nas componentes principais mais importantes assim como suas correlações com as variáveis. Também, simulamos quatro estruturas de bases de dados composicionais para avaliar o desempenho das transformações. Para essas comparações e simulações, foram desenvolvidas algumas funções, utilizando o \\textit estatístico R, que visam facilitar a comparação entre as sete transformações, assim auxiliando na escolha de qual das transformações melhor se adapta aos dados. Pelos resultados obtidos notamos que: nas bases de dados reais, os resultados das explicações da variância das transformações são similares e as transformações Ref e Alr mostram melhores desempenhos que as demais; nas quatro estruturas simuladas as transformações Ref e Alr também possuem os melhores resultados na explicação da variância e a interpretação de suas componentes principais são parecidas, assim como as transformações Trad, Log e Clr. Com isso notamos que independentemente da aplicação do logaritmo nas transformações Alr e Log elas apresentaram resultados muitos similares às transformações Ref e Trad, respectivamente, tanto na explicação da variância como na interpretação das componentes principais. / The compositional data analysis is being widely used in several areas of knowledge such as the analysis of rocky sediments, to compare different biological cells and even in forensic analysis to compare crimes evidences. During the history of the analysis of such data, to circumvent the problem of variable\'s constant sum were used many types of adjustments. Until now, we do not have a consensus in which is the best solution to be used in this cases. In this paper, we aim to enunciate seven transformations that most were used over time and their advantages and disadvantages. The principal component analysis was chosen for the comparison of these transformations. We applied this transformations in three real databases with different characteristics, we hope to compare the results and analyze which transformation have the best performance in each database. The comparison criteria were the percentage of explained variance, the variables that were most important to the first principal component,variable\'s loads in the most important principal components as well their correlation with the variables. We also simulated four compositional data bases structures to evaluate the performance of the transformations. For these comparisons and simulations were developed some functions, using the statistical software R, to facilitate comparison between the seven transformations, thus assisting in choosing which of the best transformation fits to the data. From the results we note that: for the real databases, the results of the variance explanation of all transformations are similar, thus Ref and Alr transformations show better performances than the others; in the four simulated structures the Ref and Alr transformations also have the best results in the variance explanation and interpretation of its main components are similar, as well as the transformations Trad, Log and Clr. Thus we note that independently of applying logarithm in and Log and Alr transformations they present very similar results as Ref and Trad transformations, respectively, both in variance explanation and in the interpretation of the principal components.

Identiferoai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-12072016-211056
Date29 April 2016
CreatorsRicardo Matioli Messias
ContributorsLucia Pereira Barroso, Denise Aparecida Botter, Casimiro Jayme Alfredo Sepulveda Munita
PublisherUniversidade de São Paulo, Estatística, USP, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0021 seconds