Return to search

Medida de Certeza na Categorização Multi-Rótulo de Texto e sua Utilização como Estratégia de Poda de Ranking de Categorias

Made available in DSpace on 2016-08-29T15:33:13Z (GMT). No. of bitstreams: 1
tese_4087_.pdf: 1240371 bytes, checksum: a21ac1192a3b6108cf1746b0a5e824d2 (MD5)
Previous issue date: 2010-08-27 / Dado um documento de entrada, um sistema de categorização multi-rótulo de texto tipicamente computa graus de crença para as categorias de um conjunto prédefinido, ordena as categorias por grau de crença, e atribui ao documento as categorias com grau de crença superior a um determinado limiar de poda. Idealmente, o grau de
crença deveria informar a probabilidade do documento de fato pertencer à categoria. Infelizmente, ainda não existem categorizadores que computam tais probabilidades e mapear graus de crença em probabilidades é um problema ainda pouco explorado na área de RI.
Neste trabalho, propomos um método baseado na regra de Bayes para mapear graus de crença em medidas de certeza de categorização multi-rótulo de texto. Propomos também uma estratégia para determinar limiares de poda baseada na medida de certeza de categorização - bayesian cut (BCut) - e uma variante para BCut - position
based bayesian CUT (PBCut). Avaliamos experimentalmente o impacto dos métodos propostos no desempenho de duas técnicas de categorização multi-rótulo de texto, kvizinhos mais próximos multi-rótulo (ML-kNN) e rede neural sem peso do tipo VGRAM
com correlação de dados (VG-RAM WNN-COR), no contexto da categorização de descrições de atividades econômicas de empresas brasileiras segundo a Classificação Nacional de Atividades Econômicas (CNAE). Investigamos também o impacto no desempenho de categorização multi-rótulo de texto de três métodos de poda comumente usados na literatura de RI - RCut, PCut, e SCut e uma variante de RCut - RTCut. Além disso, propomos novas variantes para PCut e SCut PCut* e SCut*, respectivamente para tratar problemas existentes nestas abordagens. Nossos resultados
experimentais mostram que, usando nosso método de geração de medidas de certeza de categorização, é possível prever o quão certo está o categorizador de que as categorias por ele preditas são de fato pertinentes para um dado documento. Nossos resultados
mostram também que o uso de nossas estratégias de poda BCut e PBCut produz desempenho de categorização superior ao de todas as outras estratégias consideradas em termos de precisão.

Identiferoai:union.ndltd.org:IBICT/oai:dspace2.ufes.br:10/4228
Date27 August 2010
CreatorsSOUZA, C. Z.
ContributorsDE SOUZA, A. F., OLIVEIRA, E. S., MEIRA JUNIOR, W., BADUE, Claudine
PublisherUniversidade Federal do Espírito Santo, Mestrado em Informática, Programa de Pós-Graduação em Informática, UFES, BR
Source SetsIBICT Brazilian ETDs
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formattext
Sourcereponame:Repositório Institucional da UFES, instname:Universidade Federal do Espírito Santo, instacron:UFES
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0143 seconds