Global ETD Search

Return to search

Comparação e escolha de agrupamentos: uma proposta utilizando a entropia / Comparison and selection of the clustering: a method using entropy

A análise de agrupamentos (cluster analysis) é o conjunto de ferramentas estatísticas de análise multivariada para encontrar ou revelar a existência de grupos em uma amostra. A literatura apresenta muitos métodos para particionar um conjunto de dados. Porém, ao utilizá-los, o pesquisador muitas vezes se depara com o problema de decidir em quantos grupos deverá ser feita essa divisão, bem como comparar agrupamentos obtidos por diferentes métodos estabelecendo quão semelhantes eles são. Neste trabalho é feita uma revisão dos principais métodos de comparação de agrupamentos e é apresentada uma nova técnica para a escolha do número ideal de grupos, baseada na diferença de entropias. Afim de avaliá-la, estudos de simulação foram realizados comparando-a com outras técnicas conhecidas: a estatística Gap e a silhueta média. Os resultados indicaram que a nova proposta é tão ou mais eficiente que as demais, no sentido de encontrar o número correto de grupos. Além disso, ela também é computacionalmente mais rápida e de simples implementação. Duas aplicações a dados reais são apresentadas, ambas na área de genética. / Cluster analysis is the set of multivariate statistical techniques to uncover or discover groups in a sample. There?s plenty of methods in the literature to partition a dataset. But, when doing so, the user is frequently faced with the problem of choosing the appropriate number of groups and, also, how to compare clusterings obtained through different methods and establish how similar they are. In the present work, it is presented a revision of methods to compare clusterings and proposed a new technique to choose the appropriate number of groups, based on the difference of entropies. To evaluate it, a simulation study was made comparing it with other already known techniques: the Gap statistic and the silhouette. The results indicated that the new approach is more or as efficient as the others, in the sense of finding the correct number of clusters. Moreover, it is computationally faster and simple to implement. Two application are shown, both in genetics.

http://www.teses.usp.br/teses/disponiveis/45/45133/tde-13092007-145328/

análise de agrupamentos

análise multivariada

comparação de agrupamentos

cluster analysis

comparing clusterings

multivariate analysis

Identifer	oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-13092007-145328
Date	06 August 2007
Creators	Estevão Freitas de Souza
Contributors	Viviana Giampaoli, Junior Barrera, Alejandro CÃ©sar Frery Orgambide
Publisher	Universidade de São Paulo, Estatística, USP, BR
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds

Comparação e escolha de agrupamentos: uma proposta utilizando a entropia / Comparison and selection of the clustering: a method using entropy

Description

Links & Downloads

Tags

Additional Fields