Made available in DSpace on 2016-08-29T15:33:13Z (GMT). No. of bitstreams: 1
tese_4087_.pdf: 1240371 bytes, checksum: a21ac1192a3b6108cf1746b0a5e824d2 (MD5)
Previous issue date: 2010-08-27 / Dado um documento de entrada, um sistema de categorização multi-rótulo de texto tipicamente computa graus de crença para as categorias de um conjunto prédefinido, ordena as categorias por grau de crença, e atribui ao documento as categorias com grau de crença superior a um determinado limiar de poda. Idealmente, o grau de
crença deveria informar a probabilidade do documento de fato pertencer à categoria. Infelizmente, ainda não existem categorizadores que computam tais probabilidades e mapear graus de crença em probabilidades é um problema ainda pouco explorado na área de RI.
Neste trabalho, propomos um método baseado na regra de Bayes para mapear graus de crença em medidas de certeza de categorização multi-rótulo de texto. Propomos também uma estratégia para determinar limiares de poda baseada na medida de certeza de categorização - bayesian cut (BCut) - e uma variante para BCut - position
based bayesian CUT (PBCut). Avaliamos experimentalmente o impacto dos métodos propostos no desempenho de duas técnicas de categorização multi-rótulo de texto, kvizinhos mais próximos multi-rótulo (ML-kNN) e rede neural sem peso do tipo VGRAM
com correlação de dados (VG-RAM WNN-COR), no contexto da categorização de descrições de atividades econômicas de empresas brasileiras segundo a Classificação Nacional de Atividades Econômicas (CNAE). Investigamos também o impacto no desempenho de categorização multi-rótulo de texto de três métodos de poda comumente usados na literatura de RI - RCut, PCut, e SCut e uma variante de RCut - RTCut. Além disso, propomos novas variantes para PCut e SCut PCut* e SCut*, respectivamente para tratar problemas existentes nestas abordagens. Nossos resultados
experimentais mostram que, usando nosso método de geração de medidas de certeza de categorização, é possível prever o quão certo está o categorizador de que as categorias por ele preditas são de fato pertinentes para um dado documento. Nossos resultados
mostram também que o uso de nossas estratégias de poda BCut e PBCut produz desempenho de categorização superior ao de todas as outras estratégias consideradas em termos de precisão.
Identifer | oai:union.ndltd.org:IBICT/oai:dspace2.ufes.br:10/4228 |
Date | 27 August 2010 |
Creators | SOUZA, C. Z. |
Contributors | DE SOUZA, A. F., OLIVEIRA, E. S., MEIRA JUNIOR, W., BADUE, Claudine |
Publisher | Universidade Federal do Espírito Santo, Mestrado em Informática, Programa de Pós-Graduação em Informática, UFES, BR |
Source Sets | IBICT Brazilian ETDs |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | text |
Source | reponame:Repositório Institucional da UFES, instname:Universidade Federal do Espírito Santo, instacron:UFES |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0021 seconds