Return to search

Dissimilarity fuctions analysis based on dynamic clustering for symbolic data

Made available in DSpace on 2014-06-12T16:01:14Z (GMT). No. of bitstreams: 2
arquivo7274_1.pdf: 1733810 bytes, checksum: 2d9eb7a4489382e5afbf1790810474a0 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / A análise de dados simbólicos (Symbolic Data Analysis) é um novo domínio na área
de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos
por variáveis que podem assumir como valor conjuntos de categorias, intervalos ou
distribuições de probabilidade. Essas novas variáveis permitem levar em conta a variabilidade
e/ou a incerteza presente nos dados. O tratamento de dados simbólicos através de técnicas
estatísticas e de aprendizagem de máquina necessita da introdução de medidas de distância
capazes de manipular tal tipo de dado. Com esse objetivo, diversas funções de dissimilaridade
têm sido propostas na literatura. Entretanto, nenhum estudo comparativo acerca do
desempenho de tais funções em problemas que envolvem simultaneamente dados simbólicos
booleanos e modais foi realizado.
A principal contribuição dessa dissertação é realizar uma análise comparativa e uma
avaliação empírica sobre funções de dissimilaridade para dados simbólicos, uma vez que esse
tipo de estudo, apesar de muito relevante, é quase inexistente na literatura. Além disso, este
trabalho também introduz novas funções de dissimilaridade que podem ser usadas no
agrupamento dinâmico de dados simbólicos. Os algoritmos de agrupamento dinâmico
consistem em obter, simultaneamente, uma partição em um número fixo de classes e a
identificação de um representante para cada classe, minimizando localmente um critério que
mede a adequação entre as classes e os seus representantes.
Para validar esse estudo, foram realizados experimentos com bases de dados de
referência na literatura e dois conjuntos de dados artificiais de intervalos com diferentes graus
de dificuldade de classificação, objetivando a comparação das funções avaliadas. A precisão
dos resultados foi mensurada por um índice externo de agrupamento aplicado na validação
cruzada não supervisionada, para as bases de dados reais, e também no quadro de uma
experiência Monte Carlo, para as bases de dados artificiais. Com os resultados alcançados é
possível verificar a adequação das diversas funções de dissimilaridade aos diferentes tipos de
dados simbólicos (multivalorado, multivalorado ordinal, intervalar, e modal de mesmo
suporte e de suportes diferentes), bem como identificar as melhores configurações de funções.
Testes estatísticos validam as conclusões

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2797
Date January 2005
CreatorsCléa Gomes da Silva, Alzennyr
Contributorsde Assis Tenório Carvalho, Francisco
PublisherUniversidade Federal de Pernambuco
Source SetsIBICT Brazilian ETDs
LanguageEnglish
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds