A análise de agrupamentos (cluster analysis) é o conjunto de ferramentas estatísticas de análise multivariada para encontrar ou revelar a existência de grupos em uma amostra. A literatura apresenta muitos métodos para particionar um conjunto de dados. Porém, ao utilizá-los, o pesquisador muitas vezes se depara com o problema de decidir em quantos grupos deverá ser feita essa divisão, bem como comparar agrupamentos obtidos por diferentes métodos estabelecendo quão semelhantes eles são. Neste trabalho é feita uma revisão dos principais métodos de comparação de agrupamentos e é apresentada uma nova técnica para a escolha do número ideal de grupos, baseada na diferença de entropias. Afim de avaliá-la, estudos de simulação foram realizados comparando-a com outras técnicas conhecidas: a estatística Gap e a silhueta média. Os resultados indicaram que a nova proposta é tão ou mais eficiente que as demais, no sentido de encontrar o número correto de grupos. Além disso, ela também é computacionalmente mais rápida e de simples implementação. Duas aplicações a dados reais são apresentadas, ambas na área de genética. / Cluster analysis is the set of multivariate statistical techniques to uncover or discover groups in a sample. There?s plenty of methods in the literature to partition a dataset. But, when doing so, the user is frequently faced with the problem of choosing the appropriate number of groups and, also, how to compare clusterings obtained through different methods and establish how similar they are. In the present work, it is presented a revision of methods to compare clusterings and proposed a new technique to choose the appropriate number of groups, based on the difference of entropies. To evaluate it, a simulation study was made comparing it with other already known techniques: the Gap statistic and the silhouette. The results indicated that the new approach is more or as efficient as the others, in the sense of finding the correct number of clusters. Moreover, it is computationally faster and simple to implement. Two application are shown, both in genetics.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-13092007-145328 |
Date | 06 August 2007 |
Creators | Souza, Estevão Freitas de |
Contributors | Giampaoli, Viviana |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0022 seconds