Return to search

Categorical Data Protection on Statistical Datasets and Social Networks

L’augment continu de la publicació de dades amb contingut sensible ha incrementat
el risc de violar la privacitat de les persones i/o institucions. Actualment
aquest augment és cada cop mes ràpid degut a la gran expansió d’Internet.
Aquest aspecte fa molt important la comprovació del rendiment dels mètodes de
protecció utilitzats. Per tal de fer aquestes comprovacions existeixen dos tipus
de mesures a tenir en compte: la pèrdua d’informació i el risc de revelació.
Una altra àrea on la privacitat ha incrementat el seu rol n’és el de les xarxes
socials. Les xarxes socials han esdevingut un ingredient essencial en la comunicació entre persones en l’actual món modern. Permeten als usuaris expressar i
compartir els seus interessos i comentar els esdeveniments diaris amb tota la gent
amb la qual estan connectats. Així doncs, el ràpid augment de la popularitat de
les xarxes socials ha resultat en l’adopció d’aquestes com a àrea d’interès per a
comunitats específiques. No obstant, el volum de dades compartides pot ser molt
perillós en termes de privacitat. A més de la informació explícita compartida
mitjanant els ”posts” de cada usuari, existeix informació semàntica implícita
amagada en el conjunt de d’informació compartida per cada usuari. Per aquestes
i altres raons, la protecció de les dades pertanyents a cada usuari ha de ser
tractada.
Així doncs, les principals contribucions d’aquesta tesi són:
• El desenvolupament de mètodes de protecció basats en algorismes evolutius
els quals busquen de manera automatitzada millors proteccions en termes
de pèrdua d’informació i risc de revelació.
• El desenvolupament d’un mètode evolutiu per tal d’optimitzar la matriu
de probabilitats de transició amb la qual es basa el mètode Post-
Randomization Method per tal de generar proteccions millors.
• La definició d’un mètode de protecció per a dades categ`oriques basat en
l’execució d’un algorisme de clustering abans de protegir per tal d’obtenir
dades protegides amb millor utilitat.
• La definició de com es pot extreure tant informació implícita com explicita
d’una xarxa social real com Twitter, el desenvolupament d’un mètode de
protecció per xarxes socials i la definició de noves mesures per avaluar la
qualitat de les proteccions en aquests escenaris. / The continuous growth of public sensitive data has increased the risk of breaking
the privacy of people or institutions in those datasets. This growing is, nowadays,
even faster because of the expansion of the Internet. This fact makes very
important the assessment of the performance of all the methods used to protect
those datasets. In order to check the performance there exist two kind of
measures: the information loss and the disclosure risk.
Another area where privacy has an increasing role is the one of social networks.
They have become an essential ingredient of interpersonal communication
in the modern world. They enable users to express and share common interests,
comment upon everyday events with all the people with whom they are connected.
Indeed, the growth of social media has been rapid and has resulted in
the adoption of social networks to meet specific communities of interest.However,
this shared information space can prove to be dangerous in respect of user privacy
issues. In addition to explicit ”posts” there is much implicit semantic
information that is not explicitly given in the posts that the user shares. For
these and other reasons, the protection of information pertaining to each user
needs to be supported.
This thesis shows some new approaches to face these problems. The main
contributions are:
• The development of an approach for protecting microdata datasets based
on evolutionary algorithms which seeks automatically for better protections
in terms of information loss and disclosure risk.
• The development of an evolutionary approach to optimize the transition
matrices used in the Post-Randomization masking method which performs
better protections.
• The definition of an approach to deal with categorical microdata protection
based on a pre-clustering approach achieving protected data with better
utility.
• The definition of a way to extract both implicit and explicit information
from a real social network like Twitter as well as the development of a
protection method to deal with this information and some new measures
to evaluate the protection quality.

Identiferoai:union.ndltd.org:TDX_UAB/oai:www.tdx.cat:10803/129327
Date15 November 2013
CreatorsMarés Soler, Jordi
ContributorsTorra i Reventós, Vicenç, Herrera Joancomartí, Jordi, Universitat Autònoma de Barcelona. Institut d'Investigació en Intel·ligència Artificial
PublisherUniversitat Autònoma de Barcelona
Source SetsUniversitat Autònoma de Barcelona
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Format155 p., application/pdf
SourceTDX (Tesis Doctorals en Xarxa)
RightsADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs., info:eu-repo/semantics/openAccess

Page generated in 0.0015 seconds