A Clusterização de dados em grupos oferece uma maneira de entender e extrair informações relevantes de grandes conjuntos de dados. A abordagem em relação a aspectos como a representação dos dados e medida de similaridade entre clusters, e a necessidade de ajuste de parâmetros iniciais são as principais diferenças entre os algoritmos de clusterização, influenciando na qualidade da divisão dos clusters. O uso cada vez mais comum de grandes conjuntos de dados aliado à possibilidade de melhoria das técnicas já existentes tornam a clusterização de dados uma área de pesquisa que permite inovações em diferentes campos. Nesse trabalho é feita uma revisão dos métodos de clusterização já existentes, e é descrito um novo método de clusterização de dados baseado na identificação de comunidades em redes complexas e modelos computacionais inspirados biologicamente. A técnica de clusterização proposta é composta por duas etapas: formação da rede usando os dados de entrada; e particionamento dessa rede para obtenção dos clusters. Nessa última etapa, a técnica de otimização por nuvens de partículas é utilizada a fim de identificar os clusters na rede, resultando em um algoritmo de clusterização hierárquico divisivo. Resultados experimentais revelaram como características do método proposto a capacidade de detecção de clusters de formas arbitrárias e a representação de clusters com diferentes níveis de refinamento. / DAta clustering is an important technique to understand and to extract relevant information in large datasets. Data representation and similarity measure adopted, and the need to adjust initial parameters, are the main differences among clustering algorithms, interfering on clusters quality. The crescent use of large datasets and the possibility to improve existing techniques make data clustering a research area that allows innovation in different fields. In this work is made a review of existing data clustering methods, and it is proposed a new data clustering technique based on community dectection on complex networks and bioinspired models. The proposed technique is composed by two steps: network formation to represent input data; and network partitioning to identify clusters. In the last step, particle swarm optimization technique is used to detect clusters, resulting in an hierarchical clustering algorithm. Experimental results reveal two main features of the algorithm: the ability to detect clusters in arbitrary shapes and the ability to generate clusters with different refinement degrees
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-01042008-142253 |
Date | 25 February 2008 |
Creators | Tatyana Bitencourt Soares de Oliveira |
Contributors | Zhao Liang, Anne Magaly de Paula Canuto, Roseli Aparecida Francelin Romero |
Publisher | Universidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0024 seconds