Made available in DSpace on 2016-03-15T19:38:14Z (GMT). No. of bitstreams: 1
Ederson Borges.pdf: 626219 bytes, checksum: d83887c1b3e2287f434525ac9701f0c7 (MD5)
Previous issue date: 2010-01-27 / Clustering is an important data mining task from the field of Knowledge Discovery in Databases. There are several algorithms capable of performing clustering tasks, and the most popular ones involve the calculation of a similarity or distance measure among objects from the database. Many algorithms can perform clustering in a simple and efficient manner, but have drawbacks as a way to get the optimal number of partitions and the possibility of getting stuck in local optima solutions. To try and reduce these drawbacks this dissertation proposes a new clustering algorithm based on Artificial Immune Systems. This algorithm is characterized by the generation of multiple simultaneous high quality solutions in terms of the number of partitions (clusters) for the database and the use of a cost function that explicitly evaluates the quality of partitions, minimizing the inconvenience of getting stuck in local optima. The algorithm was tested using four databases known in the literature and obtained satisfactory results in terms of the diversity of solutions, but has a high computational cost compared to other algorithms tested. / Agrupamento de dados é uma importante tarefa da mineração de dados e descoberta de conhecimentos em bases de dados. Existem diversos algoritmos capazes de realizar a tarefa de agrupamento de dados, sendo que os mais populares envolvem o cálculo de similaridade ou distância entre objetos da base de dados. Boa parte dos algoritmos pode agrupar os dados de forma simples e eficiente, mas possui inconvenientes como a forma de obter o número ótimo de partições e a possibilidade de ficar preso em ótimos locais. Para tentar diminuir estes inconvenientes essa dissertação propõe um novo Algoritmo Imunológico para Agrupamento de Dados baseado em Sistemas Imunológicos Artificiais. Esse algoritmo é caracterizado pela geração de múltiplas soluções simultâneas de boa qualidade no que tange o número de partições (grupos) para a base de dados e uma função de custo que avalia explicitamente a qualidade dessas partições, minimizando o inconveniente de ficar preso em ótimos locais. O algoritmo foi testado utilizando quatro bases de dados conhecidas na literatura e obteve resultados satisfatórios no que tange a diversidade das soluções encontradas, mas apresentou um custo computacional elevado em relação a outros algoritmos testados.
Identifer | oai:union.ndltd.org:IBICT/oai:tede.mackenzie.br:tede/1511 |
Date | 27 January 2010 |
Creators | Borges, Ederson |
Contributors | Silva, Leandro Nunes de Castro, Oliveira, Pedro Paulo Balbi de, Gomes, Lalinka Teixeira de Campos |
Publisher | Universidade Presbiteriana Mackenzie, Engenharia Elétrica, UPM, BR, Engenharia Elétrica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações do Mackenzie, instname:Universidade Presbiteriana Mackenzie, instacron:MACKENZIE |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0024 seconds