Return to search

Uma abordagem unificada para análise de sentimento de tweets com domínio específico

Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-01-06T15:17:23Z
No. of bitstreams: 1
2015_PatríciaLustosaVenturaRibeiro.pdf: 1900858 bytes, checksum: f612b5d977ca76e8d1fc4e2cc0bb5aeb (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2016-03-24T15:44:39Z (GMT) No. of bitstreams: 1
2015_PatríciaLustosaVenturaRibeiro.pdf: 1900858 bytes, checksum: f612b5d977ca76e8d1fc4e2cc0bb5aeb (MD5) / Made available in DSpace on 2016-03-24T15:44:39Z (GMT). No. of bitstreams: 1
2015_PatríciaLustosaVenturaRibeiro.pdf: 1900858 bytes, checksum: f612b5d977ca76e8d1fc4e2cc0bb5aeb (MD5) / Twitter é uma rede social online que permite que os usuários enviem e leiam mensagens curtas chamadas tweets. Em dezembro de 2014, o Twitter possuia mais de 500 milhões de usuários, dos quais mais de 284 milhões são usuários ativos, gerando aproximadamente 500 milhões de tweets todos os dias. O uso massivo de redes sociais online está atraindo atenção da academia e de empresas para o estudo da análise de sentimento, especialmente o Twitter, através da Análise de Sentimento de Tweets (AST). Essa análise proporciona insights sobre a opinião do público sobre vários tópicos, como política, notícias e produtos. Para executar AST eficientemente em um domínio específico, uma abordagem com uma ferramenta unificada é proposta. Essa abordagem possui quatro passos: coletar tweets relacionados ao domínio, identificar e excluir tweets que são spam, construir um léxico de sentimento específico para o domínio e analisar o sentimento dos tweets válidos. O léxico é um elemento chave que deve ser específico para domínio para poder incorporar expressões cujo sentimento varia de um domínio para outro. A ferramenta de AST proposta foi implementada e testada nos domínios ’iPhone 6 ’ e ’cigarros eletrônicos’ e obteve resultados convincentes nas quatro etapas, mostrando a superioridade de uma ferramenta de AST específica para domínio em relação a uma genérica. ______________________________________________________________________________________________ ABSTRACT / Twitter is an online social networking (OSN) service that enables users to send and read short messages called "tweets". As of December 2014, Twitter has more than 500 million users, out of which more than 284 million are active users and about 500 million tweets are posted every day. The massive use of online social networks is attracting great attention to the study of sentiment analysis, specially Tweet Sentiment Analysis (TSA). This analysis provides insights into the opinion of the public on various topics, from political affairs, hot news to commercial products. In order to execute efficient TSA on a particular topic or domain, an approach with a unified tool is proposed. This approach consists of four steps: collecting tweets related to that topic, identifying and excluding spam tweets, building a domain-specific sentiment lexicon and analyzing the sentiment of tweets. Among them, the lexicon is a key element that is domain-specific as well as incorporates expressions whose sentiment varies from one domain to another. The proposed TSA tool is tested on the ’iPhone 6’ and ’electronic cigarettes’ domains which obtains convincing results in all of the four phases, showing the superiority of the domain-specific TSA tool over a generic one.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/19779
Date24 April 2015
CreatorsRibeiro, Patrícia Lustosa Ventura
ContributorsWeigang, Li
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
RightsA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data., info:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds