Return to search

Combinação de classificadores na categorização de textos

Made available in DSpace on 2013-08-07T18:42:16Z (GMT). No. of bitstreams: 1
000409150-Texto+Completo-0.pdf: 923910 bytes, checksum: 44e59b532fd1e8f249aeacfa7777f126 (MD5)
Previous issue date: 2008 / This study presents and evaluates a proposal for Hierarchical Text Categorization combining k- Nearest Neighbors (k-NN) and Support VectorMachines (SVM) classifiers. The study was based on several experiments which made use of Folha-RIcol text collection in Portuguese language. The texts in this collection are hierarchically organized in categories. In the experiments, the performance of k-NN and SVM classifiers was analyzed, individually first, with a variant of hold-out evaluation methodology, and then combined. The proposed combination, referred to as k-NN+SVM, had its performance compared to the individual classifiers and also to the combination by vote. In synthesis, the k-NN+SVM combination did not present better performance to the alternative ones, however the study allowed to observe the classifiers’ behavior and its combined use, the identification of problems and possible solutions, as well as taking into consideration the document collection used. / Este trabalho apresenta e avalia uma proposta para Categorização Hierárquica de Textos com uso combinado dos classificadores k-Nearest Neighbors (k-NN) e Support Vector Machines (SVM). O estudo foi embasado numa série de experimentos os quais fizeram uso da coleção Folha-RIcol de textos em língua portuguesa, que se encontram hierarquicamente organizados em categorias. Nos experimentos realizados, os classificadores k-NN e SVM tiveram seu desempenho analisado, primeiro individualmente, com uma variante da metodologia de avaliação hold-out, e após, de modo combinado. A combinação proposta, denominada k-NN+SVM, teve seu desempenho comparado com aquele dos classificadores individuais e com o da combinação por voto. Em síntese, a combinação k-NN+SVM não apresentou desempenho superior às demais alternativas, todavia o estudo permitiu a observação do comportamento dos classificadores e seu uso combinado, a identificação de problemas e possíveis soluções, bem como algumas considerações sobre a coleção de documentos utilizada.

Identiferoai:union.ndltd.org:IBICT/urn:repox.ist.utl.pt:RI_PUC_RS:oai:meriva.pucrs.br:10923/1454
Date January 2008
CreatorsLinden, Gustavo Sandini
ContributorsLima, Vera Lúcia Strube de
PublisherPontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds