Submitted by Maike Costa (maiksebas@gmail.com) on 2017-06-29T13:56:38Z
No. of bitstreams: 1
arquivototal.pdf: 871101 bytes, checksum: a9b35b3a9f68a5f416dae837f77d9645 (MD5) / Made available in DSpace on 2017-06-29T13:56:38Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 871101 bytes, checksum: a9b35b3a9f68a5f416dae837f77d9645 (MD5)
Previous issue date: 2015-08-31 / The power of interaction between internet users has grown since the appearance of tools
aligned with the principles of WEB 2.0, including blogs, forums and social networks
like Twitter and Facebook. This kind of application is based on frequent message
exchanges between users, generating large quantities of textual data comprised of small
messages. Text classification techniques allow the extraction of relevant information
from such messages. In this context, the challenges are related to the fact that the short
messages common in social networks contain, individually, too little data for the
traditional analyses. In this work a new technique for improving topic classification in
short texts is proposed. This technique is based on the idea of combining a standard text
classifier with a keywords-based simple classification scheme; the novelty here beyond
the combination of two classification schemes is the use of a semi-automated,
unsupervised technique for building the list of keywords reated to the desired topic; this
technique is based on the use of topic modeling using the LDA algorithm. To
demonstrate the validity of the proposed approach, a Corpus of twitter messages was
built around the topic “violence”. This Corpus was used in experiments to assess the
performance of the proposed classification technique. Results show that topic
classification for short texts is improved by the proposed technique. / O poder da interação entre usuários na internet aumentou consideravelmente através do
surgimento de ferramentas alinhadas com os conceitos da WEB 2.0, a exemplo dos
blogs, fóruns de discussão, e redes sociais como o Facebook e Twitter. Estas aplicações
são constituídas por uma troca contínua de mensagens entre os usuários, gerando com
isso, uma expressiva massa de dados formada por várias pequenas mensagens. Estudos
mostram que informações podem ser extraídas com base em tais dados através da
classificação de textos. O desafio da classificação de texto nesse contexto é que as
mensagens dos usuários nas redes sociais são curtas, por exemplo o twitter, que possui
apenas cento e quarenta caracteres, fazendo com que ocorra o problema de escassez de
dados e ausência de similaridade entre palavras relevantes. Nesta dissertação é
apresentada uma técnica que propõe uma melhoria na classificação de tópicos em textos
curtos usando background knowledge. A técnica proposta consiste em realizar a
classificação de textos curtos em três etapas, usando um algoritmo de classificação de
texto convencional, sendo o NaiveBayes escolhido para esta dissertação, realizando uma
comparação simples de texto, aqui denominada de “Contador de Palavras” que verifica
a existência ou não das palavras-chave da background knowledge nos textos e,
finalmente, ao término das duas etapas, os resultados são combinados para que o texto
seja efetivamente classificado. Para demonstrar a eficiência da melhoria proposta, foram
extraídos mensagens do Twitter e construído um Corpus em português tendo como
tema a “Violência”. Esse Corpus foi utilizado em um experimento para determinar o
desempenho de classificação da técnica proposta. Os resultados demonstram que a
técnica de classificação proposta consegue melhorar o desempenho de classificação de
tópicos em textos curtos.
Identifer | oai:union.ndltd.org:IBICT/oai:tede.biblioteca.ufpb.br:tede/9035 |
Date | 31 August 2015 |
Creators | Ribeiro Neto, Francisco Porfírio |
Contributors | Formiga, Andrei de Araújo |
Publisher | Universidade Federal da Paraíba, Programa de Pós-Graduação em Informática, UFPB, Brasil, Informática |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFPB, instname:Universidade Federal da Paraíba, instacron:UFPB |
Rights | info:eu-repo/semantics/openAccess |
Relation | 4679641312648529202, 600, 600, 600, 7879657947546587587, 3671711205811204509 |
Page generated in 0.002 seconds