Made available in DSpace on 2019-03-29T23:23:07Z (GMT). No. of bitstreams: 0
Previous issue date: 2009-12-21 / A remarkable progress has been recently achieved in the area of data clustering,
in part due to the development of clustering ensemble methods. In a nutshell, this
approach aims at combining multiple partitions produced over the same dataset into a
single consensus partition. Although promising, this approach is still restrictive in the sense that obtaining a single solution (partition) as result limits the knowledge that could be grasped from the data, which could contain several meaningful alternative
solutions. On the other hand, there exist several validation criteria to assess the data
partitions, each considering a distinct viewpoint. This permits to model the data
clustering task as a typical multiobjective optimization problem. This strategy, which
has also gained much attention in the last years, is known as multiobjective clustering.
In this context, this study presents a novel hybrid approach, based on multiobjective
genetic programming, aiming at the automatic design of novel hierarchical fusion
operators for clustering ensembles. By this means, an initial set of partitions obtained
via the application of different clustering techniques could be continuously refined
through a population of hierarchies of fusion operators, which select and combine the
original partitions, using different quality criteria as objective functions. To validate the new approach in terms of efficiency and effectiveness, we have implemented a prototype and conducted a comparative study including other clustering algorithms
(three of which are of clustering ensembles and two are multiobjective in nature) over
10 different datasets. The experiments indicate that, in general, the idea of having a
fusion hierarchy together with the correct selection of the data partitions can provide
significant gains in terms of effectiveness and robustness.
Keywords: Data Clustering. Clustering Ensembles. Hierarchical Fusion. Multiobjective
Evolutionary Algorithms, Genetic Programming. / Um notável avanço vem sendo recentemente obtido na área de agrupamento de
dados mediante o desenvolvimento de métodos de fusão de partições. Essa abordagem,
conhecida como clustering ensembles, consiste em combinar os resultados de múltiplos
agrupamentos de uma mesma base de dados em uma única partição-consenso. Embora
promissora, essa abordagem ainda é restritiva, já que uma única resposta para um
problema limita a aquisição do conhecimento que poderia ser obtido considerando
outras possíveis soluções (partições). Por outro lado, devido à existência de vários
critérios de avaliação da qualidade de agrupamentos, pode-se modelar essa tarefa como
um problema típico de otimização multiobjetivo. Nesse contexto, o presente estudo
apresenta uma nova abordagem, baseada em programação genética multiobjetivo, que
projeta automaticamente novos operadores hierárquicos de fusão de partições. Desse
modo, um conjunto inicial de partições, obtido via a aplicação de diferentes técnicas de
agrupamento, pode ser continuamente refinado através de uma população de hierarquias
de fusores, que selecionam e combinam as partições originais, utilizando diferentes
critérios de qualidade como funções-objetivo. Para validar a nova abordagem, em
termos de eficiência e eficácia, foi implementado um protótipo e conduzido um estudo
comparativo, envolvendo outros algoritmos de agrupamento (dentre os quais três são de
clustering ensembles e dois são multiobjetivo), sobre 10 diferentes bases de dados. Os
experimentos demonstram que, em geral, a ideia de se ter uma hierarquia de fusores
aliada à correta seleção das partições pode proporcionar ganhos significativos em
termos de eficácia e robustez.
Palavras-chave: Agrupamento de Dados. Clustering Ensembles. Fusão Hierárquica de
Partições. Algoritmos Evolutivos Multiobjetivos. Programação Genética.
Identifer | oai:union.ndltd.org:IBICT/oai:dspace.unifor.br:tede/83498 |
Date | 21 December 2009 |
Creators | Fernandes, Everlandio Rebouças Queiroz |
Contributors | Coelho, Andre Luis Vasconcelos, Faceli, Katti, Santos, Cícero Nogueira dos, Coelho, Andre Luis Vasconcelos, Santos, Rafael Duarte Coelho dos |
Publisher | Universidade de Fortaleza, Mestrado Em Informática Aplicada, UNIFOR, Brasil, Centro de Ciências Tecnológicas |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR, instname:Universidade de Fortaleza, instacron:UNIFOR |
Rights | info:eu-repo/semantics/openAccess |
Relation | 5443571202788449035, 500, 500, -7645770940771915222 |
Page generated in 0.0022 seconds