Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-10-20T15:20:08Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Juliana_Postal_dissertacao.pdf: 2586134 bytes, checksum: f2faf93126ca7c96d99737e27db811fb (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-10-20T19:25:05Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Juliana_Postal_dissertacao.pdf: 2586134 bytes, checksum: f2faf93126ca7c96d99737e27db811fb (MD5) / Made available in DSpace on 2017-10-20T19:25:05Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Juliana_Postal_dissertacao.pdf: 2586134 bytes, checksum: f2faf93126ca7c96d99737e27db811fb (MD5)
Previous issue date: 2017-05-05 / Social networks of instant messaging, such as Whatsapp, represent a real threat for children
and teenagers, who can easily become targets of sexual predators and pedophiles.
Hence, the automatic identification of pedophile chats represent a key tool to protect the
young users of social networks. However, these networks have two sensitive particularities:
(1) messages are often stored only locally; (2) mobile devices of limited processing power
are the major interfaces. In this context, the state-of-the-art has a prohibitive cost to run
on mobile devices. On the other hand, the nature of the peer-to-peer communication of
such networks make it inviable to process the chat on the cloud, without risking to expose
the victims. In this work, we present a new method, based on the Shannon entropy and
the Jensen-Shannon divergence, to identify pedophile chats, that achieves nearly 90% of
F1 and F0.5, and can be up to 72.8% faster than the state-of-the-art. In this work, we
present a method for extracting text features based on two information theory quantifiers,
using individual histograms of words representing the conversations and three mean
histograms that represent the discourse pattern of possible types of authors present on the
basis of Data: Predator (pedophile), victim and regular (neither victim nor predator). The
first quantifier is Shannon’s entropy which indicates repetition of the subject’s subject in
conversations, the second is the Jensen-Shannon divergence that measures the similarity
between speech in a conversation relative to the discourse pattern of author types.
The proposed method is able to summarize the conversations considered in the study
in three characteristics of entropy and three characteristics of divergence independent of
the amount of conversations considered in the experiments. This compact feature vector
allows a classifier to be able to identify pedophile conversations with a performance close
to 90%, considering the measures F1 and F0.5, and that it becomes 72.8% faster than the
state of the art. / Redes sociais privativas de mensagens instantaneas, como Whatsapp, representam uma
ameaca para criancas e adolecentes que podem se tornar alvos de pedofilos. Portanto, a
identificacao automatica de conversas de pedofilia representa uma importante ferramenta
para prote¸c˜ao de jovens usuarios destas redes. Contudo, estas redes possuem como particularidades:
(1) as mensagens s˜ao tipicamente armazenadas apenas localmente; e (2)
dispositivos moveis de capacidade limitada de processamento sao os principais veıculos
de utilizacao. Neste contexto, as solucoes de estado-da-arte possuem um custo computacional
proibitivo para execucao em dispositivos m´oveis. Em contrapartida, a natureza
da comunicacao ponto-a-ponto destas redes torna, em muitos casos, inviavel o processamento
em nuvem sem correr o risco de expor as vıtimas de pedofilia. Neste trabalho,
apresentamos um metodo para extracao de caracterısticas de texto baseado em dois quantificadores
de teoria da informacao, que utilizam histogramas individuais de palavras que
representam as conversas e tres histogramas medios que representam o padrao de discurso
dos possıveis tipos de autores presentes na base de dados: Predador (pedofilo), vıtima e
regular (nem vıtima e nem predador). O primeiro quantificador ´e a entropia de Shannon
que indica repeticao de assunto dos tipos de autor em conversas, o segundo e a divergencia
de Jensen-Shannon que mede a similaridade entre o discurso em uma conversa em relacao
ao padrao de discurso dos tipos de autor. O metodo proposto e capaz de resumir as conversas
consideradas no estudo em tres caracterısticas de entropia e tres caracterısticas
de divergencia independente da quantidade de conversas consideradas nos experimentos.
Este vetor de caracteristicas compacto permite que um classificador seja capaz de identificar
conversas de pedofilia com um desempenho próximo a 90%, considerando as medidas
F1 e F0,5, e que chega a ser 72,8% mais rápido que o estado-da-arte.
Identifer | oai:union.ndltd.org:IBICT/oai:http://localhost:tede/5980 |
Date | 05 May 2017 |
Creators | Postal, Juliana Gorayeb, 92988053182 |
Contributors | secretaria@icomp.ufam.edu.br, Nakamura, Eduardo Freire, Nakamura, Eduardo Freire, Figueiredo, Carlos Mauricio Seródio, Pio, Jose Luiz de Souza |
Publisher | Universidade Federal do Amazonas, Programa de Pós-graduação em Informática, UFAM, Brasil, Instituto de Computação |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFAM, instname:Universidade Federal do Amazonas, instacron:UFAM |
Rights | http://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess |
Relation | -312656415484870643, 600, 500, 4163267508810754609 |
Page generated in 0.0097 seconds