Return to search

Abordagens para análise de dados composicionais / Approaches to compositional data analysis

Dados composicionais são vetores, chamados de composições, cujos componentes são todos positivos, satisfazem a soma igual a 1 e possuem um espaço amostral próprio chamado Simplex. A restrição da soma induz a correlação entre os componentes. Isso exige que os métodos estatísticos para análise desses conjuntos de dados considerem esse fato. A teoria para dados composicionais foi desenvolvida inicialmente por Aitchison na década de 80. Desde então, várias técnicas e métodos têm sido desenvolvidos para a modelagem dos dados composicionais. Este trabalho apresenta as principais abordagens para a análise estatística de dados composicionais independentes. Sendo, regressão Dirichlet (distribuição natural aos dados composicionais) ou o uso de transformações em razões logarítmicas que saem do espaço simplex para o espaço real. Também descreve os métodos para os casos em que a suposição de independência não pode ser atendida. Por exemplo, dados composionais com dependência espacial. Para esses casos, há na literatura métodos baseados nas teorias desenvolvidas para análise geoestatística de dados univariados; ou, no uso de transformações em razões logarítmicas com a inclusão da dependência espacial. Além de revisitar os métodos já difundidos, propõe-se o uso do método de Equações de Estimação Generalizadas (EEG) como alternativa para a análise de dados composicionais independentes e com dependência espacial. A principal vantagem é que as equações de estimação necessitam apenas da especificação de funções que descrevam a média e a estrutura de covariância. Assim, não é necessário atribuir uma distribuição de probabilidade aos dados ou fazer o uso de transformações. A aplicação do método EEG para dados composicionais independentes apresentou resultados tão eficientes quanto a regressão Dirichlet ou transformação em razões logarítmicas. Para os dados composicionais com dependência espacial, o método baseado em verossimilhança foi o que apresentou valores preditos mais próximos aos valores reais. O método EEG foi mais eficaz do que a abordagem geoestatística dos componentes individuais, porém, comparado com os demais métodos, foi o que apresentou maior valor residual. / C ompositional data are vectors, called compositions, whose components are all positive, it satisfies the sum equal one and has a Simplex space. The sum constraint induces the correlation between the components and this requires that the statistical methods for the analysis of datasets consider this fact. The theory for compositional data was developed mainly by Aitchison in the 1980s, and since then, several techniques and methods have been developed for compositional data modelling. This work presents the main approaches for the statistical analysis of independent compositional data, such as Dirichlet regression (natural distribution to compositional data) or the use of transformations log-ratios that aim to leave the simplex space for to Euclidean space. Also describes the methods for cases where the assumption of independence cannot be satisfied, for example, spatial dependence compositional data. For these cases, there are in the literature methods of analysis based on the theories developed for univariate geostatistics analysis or use of logratios transformations with the inclusion of the spatial dependence generated by the distance between the points. In addition, to revisiting the already diffused methods, this work propose the use of the Generalized Estimation Equation (GEE) method as an alternative for the analysis of independent compositional data and with spatial dependence. The GEE only requires the specification of functions that describe the mean and correlation matrix (covariance structure, therefore, it is not necessary to assign a probability distribution to the data or transformations. The application of the GEE method for independent compositional data presented results as efficient as Dirichlet regression or log-ratios transformation. Compositional data with spatial dependence, log-ratios transformations presented predicted values close to the real values. GEE method was more effective than the traditional geostatistical approach, however, compared with the other methods, It was the one that presented the high residual values.

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-17082017-155240
Date03 April 2017
CreatorsPrado, Naimara Vieira do
ContributorsRibeiro Junior, Paulo Justiniano
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguagePortuguese
TypeTese de Doutorado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0024 seconds