Return to search

Geração de rótulo de privacidade por palavras-chaves e casamento de padrões

Submitted by Alison Vanceto (alison-vanceto@hotmail.com) on 2017-05-08T12:54:39Z
No. of bitstreams: 1
DissDRGP.pdf: 2915023 bytes, checksum: 6dc48dd58772bd3d2917206ca9a92646 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-05-10T14:04:50Z (GMT) No. of bitstreams: 1
DissDRGP.pdf: 2915023 bytes, checksum: 6dc48dd58772bd3d2917206ca9a92646 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-05-10T14:04:57Z (GMT) No. of bitstreams: 1
DissDRGP.pdf: 2915023 bytes, checksum: 6dc48dd58772bd3d2917206ca9a92646 (MD5) / Made available in DSpace on 2017-05-10T14:09:36Z (GMT). No. of bitstreams: 1
DissDRGP.pdf: 2915023 bytes, checksum: 6dc48dd58772bd3d2917206ca9a92646 (MD5)
Previous issue date: 2016-07-13 / Não recebi financiamento / Users do not usually read privacy policies from online services. Among the main reasons
for that is the fact that such policies are long and commonly hard to understand, which
makes the user lose interest in reading them carefully. In this scenario, users are prone to
agree to the policies terms without knowing what kind of data is being collected and why.
This dissertation discusses how the policies' content may be presented in a more friendly
way, showing information about data collection and usage in a table herein called Privacy
Label. The Privacy Label is a table with lines named according to data collection terms
and columns named according to expressions that reveal how the data is used by the
service. The table content shows if the policy collects a particular data to a particular
usage. To generate the Privacy Label, a study was made in a set of privacy policies to
identify which terms repeat more often along the texts. To do so, we used techniques to
find keywords, and from these keywords we were able to create privacy categories. The
categories define which kind of data is being collected and why, which are represented by
cells in the Privacy Label. Using word comparison techniques, a privacy policy can be
analyzed and important information can be extracted by comparing its terms with the
terms from the privacy categories. For each category we find, we show it in the Privacy
Label. To assess the proposed approach we developed an application prototype, herein
called PPMark, that analyzes a particular privacy policy, extract its keywords and
generates the Privacy Label automatically. The information extracted was analyzed
regarding its quality using three metrics: precision, recall and f-measure. The results
show that the approach is a viable functional alternative to generate the Privacy Label
and present privacy policies in a friendly manner. There are evidences of time saving by
using our approach, which facilitates the process of decision making. / Comumente, os usuários não leem as políticas de privacidade dos serviços online que
utilizam. Entre as principais causas estão os textos longos, muitas vezes de difícil
compreensão, desestimulando o interesse pela leitura atenciosa e integral. Neste
cenário, os usuários, muitas vezes, concordam com os termos sem saber os tipos de
dados que estão sendo coletados e o porquê. Esta dissertação discute como o conteúdo
das políticas de privacidade pode ser apresentado de forma mais sintética para o
usuário, com as informações sobre a coleta e a utilização dos dados sendo exibidas em
uma tabela, denominada Rótulo de Privacidade. O Rótulo de Privacidade é uma tabela
com linhas nomeadas por termos de coleta de dados e colunas nomeadas por
expressões que denotam finalidade das coletas. O conteúdo da tabela informa se a
política contempla a coleta de dados para a finalidade especificada. Para ser possível a
geração do Rótulo de Privacidade, foi feito um estudo em um conjunto de políticas de
privacidade para verificar quais termos mais se repetem nos textos. Para isto foram
utilizadas técnicas para encontrar palavras-chave e com estas foram criadas categorias
de privacidade. As categorias definem tipos de dados coletados e propósitos da coleta,
que no Rótulo de Privacidade são representados pelas células da tabela. Utilizando
técnicas de comparação de palavras, uma política de privacidade a ser lida pelo usuário
pode ser analisada pela abordagem, extraindo informações importantes por meio das
comparações de seus termos com os termos das categorias de privacidade elaboradas.
Para cada categoria encontrada na política de privacidade, a informação é ilustrada no
Rótulo de Privacidade. Para a avaliação da abordagem proposta, foi desenvolvido um
protótipo de uma aplicação, denominada PPMark, que analisa uma particular política de
privacidade, extrai as palavras-chave e gera o Rótulo de Privacidade de forma
automatizada. As informações extraídas foram analisadas quanto à qualidade utilizandose
três métricas que são empregadas para a avaliação de classificadores, sendo elas
precisão, recall e f-measure. Os resultados mostraram que a abordagem proposta é uma
alternativa funcional para o preenchimento do Rótulo de Privacidade e a apresentação
das políticas de privacidade. Há evidências de economia de tempo com a leitura e
entendimento das políticas, possibilitando suporte para a tomada de decisões.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/8730
Date13 July 2016
CreatorsPontes, Diego Roberto Gonçalves de
ContributorsZorzo, Sérgio Donizetti
PublisherUniversidade Federal de São Carlos, Câmpus São Carlos, Programa de Pós-graduação em Ciência da Computação, UFSCar
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0034 seconds