Spelling suggestions: "subject:"deprotection dde lla confidentiality"" "subject:"deprotection dde lla confidential""
1 |
Local differentially private mechanisms for text privacy protectionMo, Fengran 08 1900 (has links)
Dans les applications de traitement du langage naturel (NLP), la formation d’un modèle
efficace nécessite souvent une quantité massive de données. Cependant, les données textuelles
dans le monde réel sont dispersées dans différentes institutions ou appareils d’utilisateurs.
Leur partage direct avec le fournisseur de services NLP entraîne d’énormes risques pour
la confidentialité, car les données textuelles contiennent souvent des informations sensibles,
entraînant une fuite potentielle de la confidentialité. Un moyen typique de protéger la confidentialité
consiste à privatiser directement le texte brut et à tirer parti de la confidentialité
différentielle (DP) pour protéger le texte à un niveau de protection de la confidentialité quantifiable.
Par ailleurs, la protection des résultats de calcul intermédiaires via un mécanisme
de privatisation de texte aléatoire est une autre solution disponible.
Cependant, les mécanismes existants de privatisation des textes ne permettent pas d’obtenir
un bon compromis entre confidentialité et utilité en raison de la difficulté intrinsèque
de la protection de la confidentialité des textes. Leurs limitations incluent principalement
les aspects suivants: (1) ces mécanismes qui privatisent le texte en appliquant la notion de
dχ-privacy ne sont pas applicables à toutes les métriques de similarité en raison des exigences
strictes; (2) ils privatisent chaque jeton (mot) dans le texte de manière égale en fournissant
le même ensemble de sorties excessivement grand, ce qui entraîne une surprotection; (3) les
méthodes actuelles ne peuvent garantir la confidentialité que pour une seule étape d’entraînement/
d’inférence en raison du manque de composition DP et de techniques d’amplification
DP.
Le manque du compromis utilité-confidentialité empêche l’adoption des mécanismes actuels
de privatisation du texte dans les applications du monde réel. Dans ce mémoire, nous
proposons deux méthodes à partir de perspectives différentes pour les étapes d’apprentissage
et d’inférence tout en ne requérant aucune confiance de sécurité au serveur. La première approche
est un mécanisme de privatisation de texte privé différentiel personnalisé (CusText)
qui attribue à chaque jeton d’entrée un ensemble de sortie personnalisé pour fournir une protection
de confidentialité adaptative plus avancée au niveau du jeton. Il surmonte également
la limitation des métriques de similarité causée par la notion de dχ-privacy, en adaptant
le mécanisme pour satisfaire ϵ-DP. En outre, nous proposons deux nouvelles stratégies de
5
privatisation de texte pour renforcer l’utilité du texte privatisé sans compromettre la confidentialité.
La deuxième approche est un modèle Gaussien privé différentiel local (GauDP)
qui réduit considérablement le volume de bruit calibrée sur la base d’un cadre avancé de
comptabilité de confidentialité et améliore ainsi la précision du modèle en incorporant plusieurs
composants. Le modèle se compose d’une couche LDP, d’algorithmes d’amplification
DP de sous-échantillonnage et de sur-échantillonnage pour l’apprentissage et l’inférence, et
d’algorithmes de composition DP pour l’étalonnage du bruit. Cette nouvelle solution garantit
pour la première fois la confidentialité de l’ensemble des données d’entraînement/d’inférence.
Pour évaluer nos mécanismes de privatisation de texte proposés, nous menons des expériences
étendues sur plusieurs ensembles de données de différents types. Les résultats
expérimentaux démontrent que nos mécanismes proposés peuvent atteindre un meilleur compromis
confidentialité-utilité et une meilleure valeur d’application pratique que les méthodes
existantes. En outre, nous menons également une série d’études d’analyse pour explorer
les facteurs cruciaux de chaque composant qui pourront fournir plus d’informations sur la
protection des textes et généraliser d’autres explorations pour la NLP préservant la confidentialité. / In Natural Language Processing (NLP) applications, training an effective model often
requires a massive amount of data. However, text data in the real world are scattered in
different institutions or user devices. Directly sharing them with the NLP service provider
brings huge privacy risks, as text data often contains sensitive information, leading to potential
privacy leakage. A typical way to protect privacy is to directly privatize raw text
and leverage Differential Privacy (DP) to protect the text at a quantifiable privacy protection
level. Besides, protecting the intermediate computation results via a randomized text
privatization mechanism is another available solution.
However, existing text privatization mechanisms fail to achieve a good privacy-utility
trade-off due to the intrinsic difficulty of text privacy protection. The limitations of them
mainly include the following aspects: (1) those mechanisms that privatize text by applying
dχ-privacy notion are not applicable for all similarity metrics because of the strict requirements;
(2) they privatize each token in the text equally by providing the same and excessively
large output set which results in over-protection; (3) current methods can only guarantee
privacy for either the training/inference step, but not both, because of the lack of DP composition
and DP amplification techniques.
Bad utility-privacy trade-off performance impedes the adoption of current text privatization
mechanisms in real-world applications. In this thesis, we propose two methods from
different perspectives for both training and inference stages while requiring no server security
trust. The first approach is a Customized differentially private Text privatization mechanism
(CusText) that assigns each input token a customized output set to provide more
advanced adaptive privacy protection at the token-level. It also overcomes the limitation
for the similarity metrics caused by dχ-privacy notion, by turning the mechanism to satisfy
ϵ-DP. Furthermore, we provide two new text privatization strategies to boost the utility of
privatized text without compromising privacy. The second approach is a Gaussian-based
local Differentially Private (GauDP) model that significantly reduces calibrated noise power
adding to the intermediate text representations based on an advanced privacy accounting
framework and thus improves model accuracy by incorporating several components. The
model consists of an LDP-layer, sub-sampling and up-sampling DP amplification algorithms
7
for training and inference, and DP composition algorithms for noise calibration. This novel
solution guarantees privacy for both training and inference data.
To evaluate our proposed text privatization mechanisms, we conduct extensive experiments
on several datasets of different types. The experimental results demonstrate that our
proposed mechanisms can achieve a better privacy-utility trade-off and better practical application
value than the existing methods. In addition, we also carry out a series of analyses
to explore the crucial factors for each component which will be able to provide more insights
in text protection and generalize further explorations for privacy-preserving NLP.
|
2 |
Privacy-preserving spectrum sharing / Un partage de spectre préservant la confidentialitéBen-Mosbah, Azza 24 May 2017 (has links)
Les bandes des fréquences, telles qu'elles sont aménagées aujourd'hui, sont statiquement allouées. Afin d'améliorer la productivité et l'efficacité de l'utilisation du spectre, une nouvelle approche a été proposée : le "partage dynamique du spectre". Les régulateurs, les industriels et les scientifiques ont examiné le partage des bandes fédérales entre les détenteurs de licences (utilisateurs primaires) et les nouveaux entrants (utilisateurs secondaires). La nature d'un tel partage peut faciliter les attaques d'inférence et mettre en péril les paramètres opérationnels des utilisateurs primaires. Par conséquent, le but de cette thèse est d'améliorer la confidentialité des utilisateurs primaires tout en permettant un accès secondaire au spectre. Premièrement, nous présentons une brève description des règles de partage et des exigences en termes de confidentialité dans les bandes fédérales. Nous étudions également les techniques de conservation de confidentialité (obscurcissement) proposées dans les domaines d'exploration et d'édition de données pour contrecarrer les attaques d'inférence. Ensuite, nous proposons et mettons en œuvre notre approche pour protéger la fréquence et la localisation opérationnelles contre les attaques d'inférence. La première partie étudie la protection de la fréquence opérationnelle en utilisant un obscurcissement inhérent et explicite pour préserver la confidentialité. La deuxième partie traite la protection de la localisation opérationnelle en utilisant la confiance comme principale contre-mesure pour identifier et atténuer un risque d'inférence. Enfin, nous présentons un cadre axé sur les risques qui résume notre travail et s'adapte à d'autres approches de protection de la confidentialité. Ce travail est soutenu par des modèles, des simulations et des résultats qui focalisent sur l'importance de quantifier les techniques de préservation de la confidentialité et d'analyser le compromis entre la protection de la confidentialité et l'efficacité du partage du spectre / Radio frequencies, as currently allocated, are statically managed. Spectrum sharing between commercial users and incumbent users in the Federal bands has been considered by regulators, industry, and academia as a great way to enhance productivity and effectiveness in spectrum use. However, allowing secondary users to share frequency bands with sensitive government incumbent users creates new privacy threats in the form of inference attacks. Therefore, the aim of this thesis is to enhance the privacy of the incumbent while allowing secondary access to the spectrum. First, we present a brief description of different sharing regulations and privacy requirements in Federal bands. We also survey the privacy-preserving techniques (i.e., obfuscation) proposed in data mining and publishing to thwart inference attacks. Next, we propose and implement our approach to protect the operational frequency and location of the incumbent operations from inferences. We follow with research on frequency protection using inherent and explicit obfuscation to preserve the incumbent's privacy. Then, we address location protection using trust as the main countermeasure to identify and mitigate an inference risk. Finally, we present a risk-based framework that integrates our work and accommodates other privacy-preserving approaches. This work is supported with models, simulations and results that showcase our work and quantify the importance of evaluating privacy-preserving techniques and analyzing the trade-off between privacy protection and spectrum efficiency
|
Page generated in 0.1311 seconds