Made available in DSpace on 2014-06-12T16:01:16Z (GMT). No. of bitstreams: 2
arquivo7286_1.pdf: 1505089 bytes, checksum: dd1714eed2f544fc9d92cd54ceaddbf3 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / Com os progressos recentes nas tecnologias das ciências de informacão, diferentes tecnicas
são introduzidas para sintetizar, analisar e extrair conhecimentos das informações armazenadas
em enormes bases de dados. A analise de dados simbolicos (SDA) e um
dominio na area de descoberta automatica de conhecimentos (KDD), relacionada com
analise de dados multivariados, reconhecimento de padrões, inteligência artificial e banco
de dados. SDA visa generalizar os metodos da analise exploratoria de dados e as tecnicas
estatisticas (analise fatorial, regress~ao, classificac~ao etc.) par dados simbolicos. Esses
novos dados são mais complexos do que os dados classicos, pois contêm variação interna
e são estruturados.
Este trabalho introduz um classificador para dados descritos por vetores de valores
quantitativos baseado em regi~oes de tipo casca convexa. A ideia central desta abordagem
e construir regiões que descrevem e discriminem classes de exemplos observados. Nos
classificadores para dados simbolicos baseados em regi~oes existentes na literatura de SDA,
a etapa de aprendizagem fornece a descric~ao de uma classe por uma região (ou conjunto de
regiões), definida pelo hiper-cubo formado pelos objetos pertencentes a esta classe. Esta
descricão e obtida atraves de um operador simbolico (junção) e um Grafo de Vizinhos
Mutuos. Na etapa de alocação, as novas observações são classificadas usando diferentes
funções de matching.
No classificador proposto neste trabalho, a descrição de cada classe e uma região (ou
conjunto de regiões) em Rp definida pela casca convexa formada pelos seus objetos. Esta
nova abordagem tem, como proposito, reduzir a sobre generalização que e produzida
quando a classe e descrita por uma região (ou conjunto de regiões) definida pelo hipercubo
formado pelos objetos da classe e, por isso, melhorar o desempenho do classificador.Na etapa de alocação, cada nova observação e afetada a uma classe ou grupo, de acordo
com uma função de dissimilaridade que compara a descric~ao de uma classe (uma região
ou um conjunto de regiões) com um ponto em Rp.
Diferentes conjuntos de dados reais e artificiais são usados nesta avaliacão. Para
os dados simulados, a performance do classificador proposto e avaliada pela taxa de
erro de classificação, tempo de execuc~ao e memoria utilizada, em comparac~ao com um
classificador para dados simbolicos que usa hiper-cubos para descrever as classes. Esta
performance e computada no quadro de uma simulação de tipo Monte Carlo. Para os
dados reais, a performance do classificador proposto tambem e avaliada pela taxa de
erro de classificação, tempo de execução e memoria utilizada em comparação com os
algoritmos Part e J48. A performance, para o caso real, e computada usando o 10-Fold
repetido.
Os resultados mostraram que, em termos da taxa de erro de classificação, o metodo
proposto e superior ao metodo em que as regiões são representadas por hiper-cubos, porem
o mesmo não ocorre em relação aos algoritmos Part e J48, pois, em algumas situações, o
metodo proposto e superior a esses algoritmos
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2805 |
Date | January 2005 |
Creators | Tupinambá D'Oliveira Júnior, Simith |
Contributors | de Assis Tenório Carvalho, Francisco |
Publisher | Universidade Federal de Pernambuco |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0022 seconds