Global ETD Search

Return to search

Seleção de características para problemas de classificação de documentos

Made available in DSpace on 2014-06-12T15:58:24Z (GMT). No. of bitstreams: 2
arquivo4097_1.pdf: 888475 bytes, checksum: 0cb3006c0211d4a3f7598e6efed04914 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Os sistemas de classificação de documentos servem, de modo geral, para facilitar o acesso
do usuário a uma base de documentos. Esses sistemas podem ser utilizados para detectar
spams; recomendar notícias de uma revista, artigos científicos ou produtos de uma loja virtual;
refinar buscas e direcioná-las por assunto. Uma das maiores dificuldades na classificação de
documentos é sua alta dimensionalidade. A abordagem bag of words, utilizada para extrair as
características e obter os vetores que representam os documentos, gera dezenas de milhares de
características. Vetores dessa dimensão demandam elevado custo computacional, além de possuir
informações irrelevantes e redundantes. Técnicas de seleção de características reduzem a
dimensionalidade da representação, de modo a acelerar o processamento do sistema e a facilitar
a classificação. Entretanto, a seleção de características utilizada em problemas de classificação
de documentos requer um parâmetro m que define quantas características serão selecionadas.
Encontrar um bom valor para m é um procedimento complicado e custoso. A idéia introduzida
neste trabalho visa remover a necessidade do parâmetro m e garantir que as características
selecionadas cubram todos os documentos do conjunto de treinamento. Para atingir esse objetivo,
o algoritmo proposto itera sobre os documentos do conjunto de treinamento e, para cada
documento, escolhe a característica mais relevante. Se a característica escolhida já tiver sido
selecionada, ela é ignorada, caso contrário, ela é selecionada. Deste modo, a quantidade de
características é conhecida no final da execução do algoritmo, sem a necessidade de declarar
um valor prévio para m. Os métodos propostos seguem essa ideia inicial com certas variações:
inserção do parâmetro f para selecionar várias características por documento; utilização de informação
local das classes; restrição de quais documentos serão usados no processo de seleção.
Os novos algoritmos são comparados com um método clássico (Variable Ranking). Nos experimentos,
foram usadas três bases de dados e cinco funções de avaliação de característica. Os
resultados mostram que os métodos propostos conseguem melhores taxas de acerto

Classificação de Documentos

Seleção de Características

K vizinhos mais próximos

Naïve Bayes

Recuperação de Informação

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/2459
Date	31 January 2011
Creators	Hugo Wanderley Pinheiro, Roberto
Contributors	Darmiton da Cunha Cavalcanti, George
Publisher	Universidade Federal de Pernambuco
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0018 seconds

Seleção de características para problemas de classificação de documentos

Description

Links & Downloads

Tags

Additional Fields