Made available in DSpace on 2014-06-12T15:58:24Z (GMT). No. of bitstreams: 2
arquivo4097_1.pdf: 888475 bytes, checksum: 0cb3006c0211d4a3f7598e6efed04914 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Os sistemas de classificação de documentos servem, de modo geral, para facilitar o acesso
do usuário a uma base de documentos. Esses sistemas podem ser utilizados para detectar
spams; recomendar notícias de uma revista, artigos científicos ou produtos de uma loja virtual;
refinar buscas e direcioná-las por assunto. Uma das maiores dificuldades na classificação de
documentos é sua alta dimensionalidade. A abordagem bag of words, utilizada para extrair as
características e obter os vetores que representam os documentos, gera dezenas de milhares de
características. Vetores dessa dimensão demandam elevado custo computacional, além de possuir
informações irrelevantes e redundantes. Técnicas de seleção de características reduzem a
dimensionalidade da representação, de modo a acelerar o processamento do sistema e a facilitar
a classificação. Entretanto, a seleção de características utilizada em problemas de classificação
de documentos requer um parâmetro m que define quantas características serão selecionadas.
Encontrar um bom valor para m é um procedimento complicado e custoso. A idéia introduzida
neste trabalho visa remover a necessidade do parâmetro m e garantir que as características
selecionadas cubram todos os documentos do conjunto de treinamento. Para atingir esse objetivo,
o algoritmo proposto itera sobre os documentos do conjunto de treinamento e, para cada
documento, escolhe a característica mais relevante. Se a característica escolhida já tiver sido
selecionada, ela é ignorada, caso contrário, ela é selecionada. Deste modo, a quantidade de
características é conhecida no final da execução do algoritmo, sem a necessidade de declarar
um valor prévio para m. Os métodos propostos seguem essa ideia inicial com certas variações:
inserção do parâmetro f para selecionar várias características por documento; utilização de informação
local das classes; restrição de quais documentos serão usados no processo de seleção.
Os novos algoritmos são comparados com um método clássico (Variable Ranking). Nos experimentos,
foram usadas três bases de dados e cinco funções de avaliação de característica. Os
resultados mostram que os métodos propostos conseguem melhores taxas de acerto
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2459 |
Date | 31 January 2011 |
Creators | Hugo Wanderley Pinheiro, Roberto |
Contributors | Darmiton da Cunha Cavalcanti, George |
Publisher | Universidade Federal de Pernambuco |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0018 seconds