Return to search

Seleção local de características em agrupamento hierárquico de documentos

Made available in DSpace on 2014-06-12T15:53:25Z (GMT). No. of bitstreams: 2
arquivo1911_1.pdf: 1714905 bytes, checksum: beb3cb826b1a4fcfa50d90b854a019d0 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / O agrupamento hierárquico de documentos é utilizado para prover interface de navegação
em coleções de documentos, ajudando na atividade de recuperação de informação. Como
os vetores que representam os documentos possuem uma alta dimensionalidade, a presença
de termos irrelevantes confunde o algoritmo de agrupamento. O uso da seleção de
características em agrupamento de documentos é capaz de melhorar a precisão e o tempo
de execução do agrupamento. Esta dissertação discute vários métodos de seleção de características
já aplicados e aborda a forma como a seleção de características interage com
o algoritmo de agrupamento, que pode ser classificada de forma global, quando um único
subconjunto de características é considerado, ou local, quando cada grupo é descrito por
subconjuntos de características distintas. Por conta da diversidade de visões das características
proporcionada pela seleção local, o algoritmo de agrupamento é capaz de revelar
grupos ocultos nos dados. Nesta dissertação, é aplicado o mesmo princípio de seleção local
para o caso de agrupamento hierárquico divisivo de documentos, com a realização de uma
nova seleção de características a cada passo de divisão dos grupos. Este método foi batizado
de ZOOM-IN. Foram feitos experimentos com as bases de documentos Reuters-21578
e RCV2 e foi comprovado um ganho de precisão no resultado do agrupamento quando a
heurística de escolha do número de termos do método ZOOM-IN é capaz de eliminar os
termos irrelevantes. Também é desenvolvida uma aplicação dos métodos discutidos para
agrupar documentos do resultado de uma consulta ao Google, com etiquetagem e escolha
do número de grupos usando amostragem e o conceito de estabilidade do agrupamento.
Os resultados mostraram que a execução do algoritmo com diferentes parâmetros é capaz
de descobrir diferentes grupos interessantes, o que motiva a pesquisa de uma interface de
acesso aos documentos que combine os resultados de diferentes execuções dos algoritmos.
Por fim, são apresentadas vantagens e limitações do uso do método ZOOM-IN, além de
indicações de trabalhos futuros

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/1948
Date31 January 2009
CreatorsRIBEIRO, Marcelo Nunes
ContributorsPRUDÊNCIO, Ricardo Bastos Cavalcante
PublisherUniversidade Federal de Pernambuco
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0027 seconds