1 |
[en] A STUDY OF MULTILABEL TEXT CLASSIFICATION ALGORITHMS USING NAIVE-BAYES / [pt] UM ESTUDO DE ALGORITMOS PARA CLASSIFICAÇÃO AUTOMÁTICA DE TEXTOS UTILIZANDO NAIVE-BAYESDAVID STEINBRUCH 12 March 2007 (has links)
[pt] A quantidade de informação eletrônica vem crescendo de
forma acelerada,
motivada principalmente pela facilidade de publicação e
divulgação que a
Internet proporciona. Desta forma, é necessária a
organização da informação
de forma a facilitar a sua aquisição. Muitos trabalhos
propuseram resolver
este problema através da classificação automática de
textos associando a
eles vários rótulos (classificação multirótulo). No
entanto, estes trabalhos
transformam este problema em subproblemas de classificação
binária,
considerando que existe independência entre as categorias.
Além disso,
utilizam limiares (thresholds), que são muito específicos
para o conjunto
de treinamento utilizado, não possuindo grande capacidade
de generalização
na aprendizagem. Esta dissertação propõe dois algoritmos
de classificação
automática de textos baseados no algoritmo multinomial
naive Bayes e sua
utilização em um ambiente on-line de classificação
automática de textos
com realimentação de relevância pelo usuário. Para testar
a eficiência dos
algoritmos propostos, foram realizados experimentos na
base de notícias
Reuters 21758 e na base de documentos médicos Ohsumed. / [en] The amount of electronic information has been growing
fast, mainly due to
the easiness of publication and spreading that Internet
provides. Therefore,
is necessary the organisation of information to facilitate
its retrieval. Many
works have solved this problem through the automatic text
classification,
associating to them several labels (multilabel
classification). However, those
works have transformed this problem into binary
classification subproblems,
considering there is not dependence among categories.
Moreover, they have
used thresholds, which are very sepecific of the
classifier document base,
and so, does not have great generalization capacity in the
learning process.
This thesis proposes two text classifiers based on the
multinomial algorithm
naive Bayes and its usage in an on-line text
classification environment with
user relevance feedback. In order to test the proposed
algorithms efficiency,
experiments have been performed on the Reuters 21578 news
base, and on
the Ohsumed medical document base.
|
Page generated in 0.0351 seconds