Return to search

[en] USING MACHINE LEARNING TO BUILD A TOOL THAT HELPS COMMENTS MODERATION / [pt] UTILIZANDO APRENDIZADO DE MÁQUINA PARA CONSTRUÇÃO DE UMA FERRAMENTA DE APOIO A MODERAÇÃO DE COMENTÁRIOS

[pt] Uma das mudanças trazidas pela Web 2.0 é a maior participação dos
usuários na produção do conteúdo, através de opiniões em redes sociais ou
comentários nos próprios sites de produtos e serviços. Estes comentários são
muito valiosos para seus sites pois fornecem feedback e incentivam a participação
e divulgação do conteúdo. Porém excessos podem ocorrer através de comentários
com palavrões indesejados ou spam. Enquanto para alguns sites a própria
moderação da comunidade é suficiente, para outros as mensagens indesejadas
podem comprometer o serviço. Para auxiliar na moderação dos comentários foi
construída uma ferramenta que utiliza técnicas de aprendizado de máquina para
auxiliar o moderador. Para testar os resultados, dois corpora de comentários
produzidos na Globo.com foram utilizados, o primeiro com 657.405 comentários
postados diretamente no site, e outro com 451.209 mensagens capturadas do
Twitter. Nossos experimentos mostraram que o melhor resultado é obtido quando
se separa o aprendizado dos comentários de acordo com o tema sobre o qual está
sendo comentado. / [en] One of the main changes brought by Web 2.0 is the increase of user
participation in content generation mainly in social networks and comments in
news and service sites. These comments are valuable to the sites because they
bring feedback and motivate other people to participate and to spread the content.
On the other hand these comments also bring some kind of abuse as bad words
and spam. While for some sites their own community moderation is enough, for
others this impropriate content may compromise its content. In order to help
theses sites, a tool that uses machine learning techniques was built to mediate
comments. As a test to compare results, two datasets captured from Globo.com
were used: the first one with 657.405 comments posted through its site and the
second with 451.209 messages captured from Twitter. Our experiments show that
best result is achieved when comment learning is done according to the subject
that is being commented.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:19232
Date05 March 2012
CreatorsSILVANO NOGUEIRA BUBACK
ContributorsMARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA
PublisherMAXWELL
Source SetsPUC Rio
LanguagePortuguese
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.002 seconds