Global ETD Search

Return to search

Medida de Certeza na Categorização Multi-Rótulo de Texto e sua Utilização como Estratégia de Poda de Ranking de Categorias

Made available in DSpace on 2016-08-29T15:33:13Z (GMT). No. of bitstreams: 1
tese_4087_.pdf: 1240371 bytes, checksum: a21ac1192a3b6108cf1746b0a5e824d2 (MD5)
Previous issue date: 2010-08-27 / Dado um documento de entrada, um sistema de categorização multi-rótulo de texto tipicamente computa graus de crença para as categorias de um conjunto prédefinido, ordena as categorias por grau de crença, e atribui ao documento as categorias com grau de crença superior a um determinado limiar de poda. Idealmente, o grau de
crença deveria informar a probabilidade do documento de fato pertencer à categoria. Infelizmente, ainda não existem categorizadores que computam tais probabilidades e mapear graus de crença em probabilidades é um problema ainda pouco explorado na área de RI.
Neste trabalho, propomos um método baseado na regra de Bayes para mapear graus de crença em medidas de certeza de categorização multi-rótulo de texto. Propomos também uma estratégia para determinar limiares de poda baseada na medida de certeza de categorização - bayesian cut (BCut) - e uma variante para BCut - position
based bayesian CUT (PBCut). Avaliamos experimentalmente o impacto dos métodos propostos no desempenho de duas técnicas de categorização multi-rótulo de texto, kvizinhos mais próximos multi-rótulo (ML-kNN) e rede neural sem peso do tipo VGRAM
com correlação de dados (VG-RAM WNN-COR), no contexto da categorização de descrições de atividades econômicas de empresas brasileiras segundo a Classificação Nacional de Atividades Econômicas (CNAE). Investigamos também o impacto no desempenho de categorização multi-rótulo de texto de três métodos de poda comumente usados na literatura de RI - RCut, PCut, e SCut e uma variante de RCut - RTCut. Além disso, propomos novas variantes para PCut e SCut PCut* e SCut*, respectivamente para tratar problemas existentes nestas abordagens. Nossos resultados
experimentais mostram que, usando nosso método de geração de medidas de certeza de categorização, é possível prever o quão certo está o categorizador de que as categorias por ele preditas são de fato pertinentes para um dado documento. Nossos resultados
mostram também que o uso de nossas estratégias de poda BCut e PBCut produz desempenho de categorização superior ao de todas as outras estratégias consideradas em termos de precisão.

categorização multi-rótulo de texto

medida de certeza de c

Identifer	oai:union.ndltd.org:IBICT/oai:dspace2.ufes.br:10/4228
Date	27 August 2010
Creators	SOUZA, C. Z.
Contributors	DE SOUZA, A. F., OLIVEIRA, E. S., MEIRA JUNIOR, W., BADUE, Claudine
Publisher	Universidade Federal do Espírito Santo, Mestrado em Informática, Programa de Pós-Graduação em Informática, UFES, BR
Source Sets	IBICT Brazilian ETDs
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	text
Source	reponame:Repositório Institucional da UFES, instname:Universidade Federal do Espírito Santo, instacron:UFES
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds

Medida de Certeza na Categorização Multi-Rótulo de Texto e sua Utilização como Estratégia de Poda de Ranking de Categorias

Description

Links & Downloads

Tags

Additional Fields