Return to search

Proposta de algoritmos para aumento de dados via arquétipos

Arquétipos, na estatística, são os elementos extremos mais representativos de uma amostra ou população, a partir dos quais todos os outros podem ser reescritos. A Análise de Arquétipos (AA) é uma técnica multivariada que visa reduzir a dimensionalidade dos dados, por meio de combinações convexas dos próprios dados, proporcionando encontrar e selecionar seus arquétipos. Existem aplicações da AA em diversas áreas do conhecimento, contudo ainda não foi explorado o seu potencial no aumento de dados amostrais. Quando um conjunto de dados é caracterizado como incompleto ou não possui o tamanho necessário para cometer o erro desejado no procedimento de inferência estatística, surge a ideia, ou necessidade, de aumentar essa amostra. Para esse fim, a técnica de aumento de dados consiste em introduzir dados não observados ou variáveis latentes por meio de métodos iterativos ou algoritmos de amostragem. Sendo assim, como os arquétipos permitem reescrever os elementos amostrais com um erro mínimo, gerando elementos não observados, esses poderiam ser utilizados para o aumento de dados. Então, o objetivo deste trabalho foi propor e avaliar a eficiência do aumento de dados por meio dos arquétipos. Foram programados três algoritmos para aumento de dados amostrais via arquétipos (Algoritmos 1, 2 e 3 - A1, A2 e A3, respectivamente), e foram realizados dois estudos de simulação para avaliar e comparar cada algoritmo quanto à sua eficiência; sendo testada a distribuição da variável aleatória e as estimativas de seus parâmetros, e também para verificar se esse aumento pode ser executado sucessivas vezes. Além disso, foi feita a aplicação dos algoritmos em um conjunto de dados reais sobre análise sensorial. Os três algoritmos apresentaram resultados semelhantes, destacando-se o A3, por ter apresentado um desempenho apropriado em todos os cenários. Esse algoritmo permitiu aumentar 10% do tamanho da amostra inicial, sem alterar a distribuição de probabilidade, bem como as estimativas de seus parâmetros. O estudo sobre aumentos sucessivos de dados também indicou o A3 como o mais eficiente, que foi capaz de aumentar a amostra em 110% de seu tamanho inicial, através de 11 aumentos sucessivos de 10% cada. O estudo com dados reais permitiu aumentar o tamanho da amostra e proporcionar maior precisão na inferência praticada. Portanto, parece seguro realizar o aumento de dados via arquétipos sugerindo-se o algoritmo 3. / In statistics, archetypes are the most representative extreme observations of a sample or population, from which all others can be written. The Archetypal Analysis (AA) is a multivariate technique that aims to reduce the dimensionality of data through convex combinations of data itself, providing to find and select their archetypes. There are applications of AA in several areas of knowledge, but its potential in sample data augmentation still has not been exploited. When our data set is characterized as missing data or does not have the size needed to make the desired error in statistical inference procedure, there is the idea or need to increase this sample. For this purpose, data augmentation technique consists to introduce non observed data or latent variables by iterative methods or sampling algorithms. Thus, as archetypes allow rewriting the sample elements with a minimum error, generating elements not observed, these could be used to augment data. So the aim of this work was to propose and evaluate the efficiency of data augmentation through archetypes. Three algorithms were programmed to augment sample data using the archetypes (Algorithms 1, 2 and 3 - A1, A2 and A3, respectively), and two simulation studies were conducted to assess and compare the algorithms about the efficacy; testing the random variable distribution, and the estimatives of its parameters, and also to check whether this augment can be run successive times. In addition, was made an application of the algorithms into a real sensory analysis data. All algorithms showed similar results, highlighting the A3, that present an appropriate performance in all scenarios. This algorithm allowed to augment 10% of the initial sample size, without changing the probability distribution, as well as estimatives of its parameters. The study about successive augments also indicated A3 as the most efficient, that was able to augment the sample up to 110% of their initial size by 11 successive augments of 10%. The study with real data allowed to augment the sample size and improve the precision in practiced inference. So it seems safe to perform data augmentation by archetypes suggesting the algorithm 3.

Identiferoai:union.ndltd.org:IBICT/oai:10.254.254.39:tede/1048
Date11 July 2016
CreatorsCAVALCANTI, Pórtya Piscitelli
ContributorsFERREIRA, Eric Batista, http://lattes.cnpq.br/9965398009651936, NOGUEIRA, Denismar Alves, SILVA, Roberta Bessa Veloso
PublisherUniversidade Federal de Alfenas, Instituto de Ciências Exatas, Brasil, UNIFAL-MG, Programa de Pós-Graduação em Estatística Aplicada e Biometria
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UNIFAL, instname:Universidade Federal de Alfenas, instacron:UNIFAL
Rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds