Spelling suggestions: "subject:"expans dde documentos"" "subject:"expans dee documentos""
1 |
Uso de Seleção de Características da Wikipedia na Classificação Automática de Textos. / Selection of Wikipedia features for automatic text classificationAlvarenga, Leonel Diógenes Carvalhaes 20 September 2012 (has links)
Submitted by Cássia Santos (cassia.bcufg@gmail.com) on 2014-07-31T14:43:10Z
No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
uso_de_selecao_de_caracteristicas_da_wikipedia_na_classificacao_automatica_de_textos.pdf: 1449954 bytes, checksum: 9086dec3868b6b703340b550c614d33d (MD5) / Made available in DSpace on 2014-07-31T14:43:10Z (GMT). No. of bitstreams: 2
license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5)
uso_de_selecao_de_caracteristicas_da_wikipedia_na_classificacao_automatica_de_textos.pdf: 1449954 bytes, checksum: 9086dec3868b6b703340b550c614d33d (MD5)
Previous issue date: 2012-09-20 / Fundação de Amparo à Pesquisa do Estado de Goiás - FAPEG / The traditional methods of text classification typically represent documents only as a
set of words, also known as "Bag of Words"(BOW). Several studies have shown good
results on making use of thesauri and encyclopedias as external information sources,
aiming to expand the BOW representation by the identification of synonymy and
hyponymy relationships between present terms in a document collection. However,
the expansion process may introduce terms that lead to an erroneous classification. In
this paper, we propose the use of feature selection measures in order to select features
extracted from Wikipedia in order to improve the efectiveness of the expansion
process. The study also proposes a feature selection measure called Tendency Factor
to One Category (TF1C), so that the experiments showed that this measure proves
to be competitive with the other measures Information Gain, Gain Ratio and Chisquared,
in the process, delivering the best gains in microF1 and macroF1, in most
experiments. The full use of features selected in this process showed to be more stable
in assisting the classification, while it showed lower performance on restricting its
insertion only to documents of the classes in which these features are well punctuated
by the selection measures. When applied in the Reuters-21578, Ohsumed first -
20000 and 20Newsgroups collections, our approach to feature selection allowed the
reduction of noise insertion inherent in the expansion process, and improved the
results of use hyponyms, and demonstrated that the synonym relationship from
Wikipedia can also be used in the document expansion, increasing the efectiveness
of the automatic text classification. / Os métodos tradicionais de classificação de textos normalmente representam documentos
apenas como um conjunto de palavras, também conhecido como BOW (do inglês, Bag of Words). Vários estudos têm mostrado bons resultados ao utilizar-se de tesauros e enciclopédias como fontes externas de informações, objetivando expandir a representação BOW a partir da identificação de relacionamentos de sinonômia e hiponômia entre os termos presentes em uma coleção de documentos. Todavia, o processo
de expansão pode introduzir termos que conduzam a uma classificação errônea do documento. No presente trabalho, propõe-se a aplicação de medidas de avaliação de termos para a seleção de características extraídas da Wikipédia, com o objetivo de melhorar a eficácia de sua utilização durante o processo de expansão de documentos. O estudo também propõe uma medida de seleção de características denominada
Fator de Tendência a uma Categoria (FT1C), de modo que os experimentos realizados demonstraram que esta medida apresenta desempenho competitivo com as medidas Information Gain, Gain Ratio e Chi-squared, neste processo, apresentando os melhores ganhos de microF1 e macroF1, na maioria dos experimentos realizados. O uso integral das características selecionadas neste processo, demonstrou auxiliar a classificação de forma mais estável, ao passo que apresentou menor desempenho ao
se restringir sua inserção somente aos documentos das classes em que estas características são bem pontuadas pelas medidas de seleção. Ao ser aplicada nas coleções Reuters-21578, Ohsumed rst-20000 e 20Newsgroups, a abordagem com seleção de características permitiu a redução da inserção de ruídos inerentes do processo de expansão e potencializou o uso de hipônimos, assim como demonstrou que as relações de sinonômia da Wikipédia também podem ser utilizadas na expansão de documentos, elevando a eficácia da classificação automática de textos.
|
Page generated in 0.1203 seconds