Return to search

Seleção de atributos para classificação de textos usando técnicas baseadas em agrupamento, PoS tagging e algoritmos evolutivos

Orientadora: Profa. Dra. Debora Maria Rossi de Medeiros / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2016. / Neste trabalho são investigadas técnicas de seleção de atributos para serem
aplicadas à tarefa de classificação de textos. Três técnicas diferentes são propostas
para serem comparadas com as técnicas tradicionais de pré-processamento de textos.
A primeira técnica propõe que nem todas as classes gramaticais de um dado idioma
sejam relevantes em um texto quando este é submetido à tarefa de classificação.
A segunda técnica emprega agrupamento de atributos e algoritmos genéticos para
seleção de grupos. Na terceira técnica são levantadas 2 hipóteses: a primeira supõe
que as palavras que ocorrem com mais frequência em uma base de textos do que no
idioma como um todo, podem ser as palavras mais importantes para comporem os
atributos; a segunda presume que as relações de cada instância de dados com cada
classe pode compor um novo conjunto de atributos.
Os resultados obtidos sugerem que as abordagens propostas são promissoras
e que as hipóteses levantadas podem ser válidas. Os experimentos com a primeira
abordagem mostram que existe um conjunto de classes gramaticais cujas palavras
podem ser desconsideradas do conjunto de atributos em bases de textos diferentes
mantendo ou até melhorando a acurácia de classificação. A segunda abordagem consegue
realizar uma forte redução no número de atributos original e ainda melhorar
a acurácia de classificação. Com a terceira abordagem, foi obtida a redução mais
acentuada do número de atributos pois, pela natureza da proposta, o número final
de atributos é igual ao número de classes da base, e o impacto na acurácia foi nulo
ou até positivo. / This work investigates feature selection techniques to be applied to text
classification task. Three different techniques are proposed to be compared with
the traditional techniques of preprocessing texts. The first technique proposed that
not all grammatical classes of a given language in a text are relevant when it is
subjected to the classification task. The second technique employs clustering features
and genetic algorithms for selecting groups. In the third technique are raised two
hypotheses: the first assumes that the words that occur most often on the dataset
than the language as a whole, may be the most important words to compose the
features; the second assumes that the relationship of each data instance with each
class can compose a new set of attributes.
The results suggest that the proposed approaches are promising and that
the hypotheses may be valid. The experiments show that the first approach is a
set of grammatical word classes which can be disregarded from the set of features
from different datasets maintaining or even improving the accuracy of classification.
The second approach can achieve a significant reduction in the number of unique
features and to improve the accuracy of classification. With the third approach, it
obtained the more pronounced reduction in the number of features because, by the
nature of the proposal, the final number offeatures is equal to the number of classes
of the dataset, and the impact on the accuracy was zero or even positive.

Identiferoai:union.ndltd.org:IBICT/oai:BDTD:100866
Date January 2016
CreatorsFerreira, Charles Henrique Porto
ContributorsMedeiros, Debora Maria Rossi de, Martins Junior, David Corrêa, Carvalho, André Carlos Ponce de Leon Ferreira de
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf, 100 f. : il.
Sourcereponame:Repositório Institucional da UFABC, instname:Universidade Federal do ABC, instacron:UFABC
Rightsinfo:eu-repo/semantics/openAccess
Relationhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=100866&midiaext=72216, http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=100866&midiaext=72215, Cover: http://biblioteca.ufabc.edu.brphp/capa.php?obra=100866

Page generated in 0.0016 seconds