Spelling suggestions: "subject:"confidentiality différentielle"" "subject:"confidential différentielle""
1 |
Local differentially private mechanisms for text privacy protectionMo, Fengran 08 1900 (has links)
Dans les applications de traitement du langage naturel (NLP), la formation d’un modèle
efficace nécessite souvent une quantité massive de données. Cependant, les données textuelles
dans le monde réel sont dispersées dans différentes institutions ou appareils d’utilisateurs.
Leur partage direct avec le fournisseur de services NLP entraîne d’énormes risques pour
la confidentialité, car les données textuelles contiennent souvent des informations sensibles,
entraînant une fuite potentielle de la confidentialité. Un moyen typique de protéger la confidentialité
consiste à privatiser directement le texte brut et à tirer parti de la confidentialité
différentielle (DP) pour protéger le texte à un niveau de protection de la confidentialité quantifiable.
Par ailleurs, la protection des résultats de calcul intermédiaires via un mécanisme
de privatisation de texte aléatoire est une autre solution disponible.
Cependant, les mécanismes existants de privatisation des textes ne permettent pas d’obtenir
un bon compromis entre confidentialité et utilité en raison de la difficulté intrinsèque
de la protection de la confidentialité des textes. Leurs limitations incluent principalement
les aspects suivants: (1) ces mécanismes qui privatisent le texte en appliquant la notion de
dχ-privacy ne sont pas applicables à toutes les métriques de similarité en raison des exigences
strictes; (2) ils privatisent chaque jeton (mot) dans le texte de manière égale en fournissant
le même ensemble de sorties excessivement grand, ce qui entraîne une surprotection; (3) les
méthodes actuelles ne peuvent garantir la confidentialité que pour une seule étape d’entraînement/
d’inférence en raison du manque de composition DP et de techniques d’amplification
DP.
Le manque du compromis utilité-confidentialité empêche l’adoption des mécanismes actuels
de privatisation du texte dans les applications du monde réel. Dans ce mémoire, nous
proposons deux méthodes à partir de perspectives différentes pour les étapes d’apprentissage
et d’inférence tout en ne requérant aucune confiance de sécurité au serveur. La première approche
est un mécanisme de privatisation de texte privé différentiel personnalisé (CusText)
qui attribue à chaque jeton d’entrée un ensemble de sortie personnalisé pour fournir une protection
de confidentialité adaptative plus avancée au niveau du jeton. Il surmonte également
la limitation des métriques de similarité causée par la notion de dχ-privacy, en adaptant
le mécanisme pour satisfaire ϵ-DP. En outre, nous proposons deux nouvelles stratégies de
5
privatisation de texte pour renforcer l’utilité du texte privatisé sans compromettre la confidentialité.
La deuxième approche est un modèle Gaussien privé différentiel local (GauDP)
qui réduit considérablement le volume de bruit calibrée sur la base d’un cadre avancé de
comptabilité de confidentialité et améliore ainsi la précision du modèle en incorporant plusieurs
composants. Le modèle se compose d’une couche LDP, d’algorithmes d’amplification
DP de sous-échantillonnage et de sur-échantillonnage pour l’apprentissage et l’inférence, et
d’algorithmes de composition DP pour l’étalonnage du bruit. Cette nouvelle solution garantit
pour la première fois la confidentialité de l’ensemble des données d’entraînement/d’inférence.
Pour évaluer nos mécanismes de privatisation de texte proposés, nous menons des expériences
étendues sur plusieurs ensembles de données de différents types. Les résultats
expérimentaux démontrent que nos mécanismes proposés peuvent atteindre un meilleur compromis
confidentialité-utilité et une meilleure valeur d’application pratique que les méthodes
existantes. En outre, nous menons également une série d’études d’analyse pour explorer
les facteurs cruciaux de chaque composant qui pourront fournir plus d’informations sur la
protection des textes et généraliser d’autres explorations pour la NLP préservant la confidentialité. / In Natural Language Processing (NLP) applications, training an effective model often
requires a massive amount of data. However, text data in the real world are scattered in
different institutions or user devices. Directly sharing them with the NLP service provider
brings huge privacy risks, as text data often contains sensitive information, leading to potential
privacy leakage. A typical way to protect privacy is to directly privatize raw text
and leverage Differential Privacy (DP) to protect the text at a quantifiable privacy protection
level. Besides, protecting the intermediate computation results via a randomized text
privatization mechanism is another available solution.
However, existing text privatization mechanisms fail to achieve a good privacy-utility
trade-off due to the intrinsic difficulty of text privacy protection. The limitations of them
mainly include the following aspects: (1) those mechanisms that privatize text by applying
dχ-privacy notion are not applicable for all similarity metrics because of the strict requirements;
(2) they privatize each token in the text equally by providing the same and excessively
large output set which results in over-protection; (3) current methods can only guarantee
privacy for either the training/inference step, but not both, because of the lack of DP composition
and DP amplification techniques.
Bad utility-privacy trade-off performance impedes the adoption of current text privatization
mechanisms in real-world applications. In this thesis, we propose two methods from
different perspectives for both training and inference stages while requiring no server security
trust. The first approach is a Customized differentially private Text privatization mechanism
(CusText) that assigns each input token a customized output set to provide more
advanced adaptive privacy protection at the token-level. It also overcomes the limitation
for the similarity metrics caused by dχ-privacy notion, by turning the mechanism to satisfy
ϵ-DP. Furthermore, we provide two new text privatization strategies to boost the utility of
privatized text without compromising privacy. The second approach is a Gaussian-based
local Differentially Private (GauDP) model that significantly reduces calibrated noise power
adding to the intermediate text representations based on an advanced privacy accounting
framework and thus improves model accuracy by incorporating several components. The
model consists of an LDP-layer, sub-sampling and up-sampling DP amplification algorithms
7
for training and inference, and DP composition algorithms for noise calibration. This novel
solution guarantees privacy for both training and inference data.
To evaluate our proposed text privatization mechanisms, we conduct extensive experiments
on several datasets of different types. The experimental results demonstrate that our
proposed mechanisms can achieve a better privacy-utility trade-off and better practical application
value than the existing methods. In addition, we also carry out a series of analyses
to explore the crucial factors for each component which will be able to provide more insights
in text protection and generalize further explorations for privacy-preserving NLP.
|
2 |
Towards privacy-preserving and fairness-enhanced item ranking in recommender systemsSun, Jia Ao 07 1900 (has links)
Nous présentons une nouvelle approche de préservation de la vie privée pour améliorer l’équité des éléments dans les systèmes de classement. Nous utilisons des techniques de post-traitement dans un environnement de recommandation multipartite afin d’équilibrer l’équité et la protection de la vie privée pour les producteurs et les consommateurs. Notre méthode utilise des serveurs de calcul multipartite sécurisés (MPC) et une confidentialité différentielle (DP) pour maintenir la confidentialité des utilisateurs tout en atténuant l’injustice des éléments sans compromettre l’utilité. Les utilisateurs soumettent leurs données sous forme de partages secrets aux serveurs MPC, et tous les calculs sur ces données restent cryptés. Nous évaluons notre approche à l’aide d’ensembles de données du monde réel, tels qu’Amazon Digital Music, Book Crossing et MovieLens-1M, et analysons les compromis entre confidentialité, équité et utilité. Notre travail encourage une exploration plus approfondie de l’intersection de la confidentialité et de l’équité dans les systèmes de recommandation, jetant les bases de l’intégration d’autres techniques d’amélioration de la confidentialité afin d’optimiser l’exécution et l’évolutivité pour les applications du monde réel. Nous envisageons notre approche comme un tremplin vers des solutions de bout en bout préservant la confidentialité et promouvant l’équité dans des environnements de recommandation multipartites. / We present a novel privacy-preserving approach to enhance item fairness in ranking systems. We employ post-processing techniques in a multi-stakeholder recommendation environment in order to balance fairness and privacy protection for both producers and consumers. Our method utilizes secure multi-party computation (MPC) servers and differential privacy (DP) to maintain user privacy while mitigating item unfairness without compromising utility. Users submit their data as secret shares to MPC servers, and all calculations on this data remain encrypted. We evaluate our approach using real-world datasets, such as Amazon Digital Music, Book Crossing, and MovieLens-1M, and analyze the trade-offs between privacy, fairness, and utility. Our work encourages further exploration of the intersection of privacy and fairness in recommender systems, laying the groundwork for integrating other privacy-enhancing techniques to optimize runtime and scalability for real-world applications. We envision our approach as a stepping stone towards end-to-end privacy-preserving and fairness-promoting solutions in multi-stakeholder recommendation environments.
|
3 |
Privacy and utility assessment within statistical data bases / Mesure de la vie privée et de l’utilité des données dans les bases de données statistiquesSondeck, Louis-Philippe 15 December 2017 (has links)
Les données personnelles sont d’une importance avérée pour presque tous les secteurs d’activité économiques grâce à toute la connaissance qu’on peut en extraire. Pour preuve, les plus grandes entreprises du monde que sont: Google, Amazon, Facebook et Apple s’en servent principalement pour fournir de leurs services. Cependant, bien que les données personnelles soient d’une grande utilité pour l’amélioration et le développement de nouveaux services, elles peuvent aussi, de manière intentionnelle ou non, nuire à la vie privée des personnes concernées. En effet, plusieurs études font état d’attaques réalisées à partir de données d’entreprises, et ceci, bien qu’ayant été anonymisées. Il devient donc nécessaire de définir des techniques fiables, pour la protection de la vie privée des personnes tout en garantissant l’utilité de ces données pour les services. Dans cette optique, l’Europe a adopté un nouveau règlement (le Règlement Général sur la Protection des Données) (EU, 2016) qui a pour but de protéger les données personnelles des citoyens européens. Cependant, ce règlement ne concerne qu’une partie du problème puisqu’il s’intéresse uniquement à la protection de la vie privée, alors que l’objectif serait de trouver le meilleur compromis entre vie privée et utilité des données. En effet, vie privée et utilité des données sont très souvent inversement proportionnelles, c’est ainsi que plus les données garantissent la vie privée, moins il y reste d’information utile. Pour répondre à ce problème de compromis entre vie privée et utilité des données, la technique la plus utilisée est l’anonymisation des données. Dans la littérature scientifique, l’anonymisation fait référence soit aux mécanismes d’anonymisation, soit aux métriques d’anonymisation. Si les mécanismes d’anonymisation sont utiles pour anonymiser les données, les métriques d’anonymisation sont elles, nécessaires pour valider ou non si le compromis entre vie privée et utilité des données a été atteint. Cependant, les métriques existantes ont plusieurs défauts parmi lesquels, le manque de précision des mesures et la difficulté d’implémentation. De plus, les métriques existantes permettent de mesurer soit la vie privée, soit l’utilité des données, mais pas les deux simultanément; ce qui rend plus complexe l’évaluation du compromis entre vie privée et utilité des données. Dans cette thèse, nous proposons une approche nouvelle, permettant de mesurer à la fois la vie privée et l’utilité des données, dénommée Discrimination Rate (DR). Le DR est une métrique basée sur la théorie de l’information, qui est pratique et permet des mesures d’une grande finesse. Le DR mesure la capacité des attributs à raffiner un ensemble d’individus, avec des valeurs comprises entre 0 et 1; le meilleur raffinement conduisant à un DR de 1. Par exemple, un identifiant a un DR égale à 1 étant donné qu’il permet de raffiner complètement un ensemble d’individus. Grâce au DR nous évaluons de manière précise et comparons les mécanismes d’anonymisation en termes d’utilité et de vie privée (aussi bien différentes instanciations d’un même mécanisme, que différents mécanismes). De plus, grâce au DR, nous proposons des définitions formelles des identifiants encore appelés informations d’identification personnelle. Ce dernier point est reconnu comme l’un des problèmes cruciaux des textes juridiques qui traitent de la protection de la vie privée. Le DR apporte donc une réponse aussi bien aux entreprises qu’aux régulateurs, par rapport aux enjeux que soulève la protection des données personnelles / Personal data promise relevant improvements in almost every economy sectors thanks to all the knowledge that can be extracted from it. As a proof of it, some of the biggest companies in the world, Google, Amazon, Facebook and Apple (GAFA) rely on this resource for providing their services. However, although personal data can be very useful for improvement and development of services, they can also, intentionally or not, harm data respondent’s privacy. Indeed, many studies have shown how data that were intended to protect respondents’ personal data were finally used to leak private information. Therefore, it becomes necessary to provide methods for protecting respondent’s privacy while ensuring utility of data for services. For this purpose, Europe has established a new regulation (The General Data Protection Regulation) (EU, 2016) that aims to protect European citizens’ personal data. However, the regulation only targets one side of the main goal as it focuses on privacy of citizens while the goal is about the best trade-off between privacy and utility. Indeed, privacy and utility are usually inversely proportional and the greater the privacy, the lower the data utility. One of the main approaches for addressing the trade-off between privacy and utility is data anonymization. In the literature, anonymization refers either to anonymization mechanisms or anonymization metrics. While the mechanisms are useful for anonymizing data, metrics are necessary to validate whether or not the best trade-off has been reached. However, existing metrics have several flaws including the lack of accuracy and the complexity of implementation. Moreover existing metrics are intended to assess either privacy or utility, this adds difficulties when assessing the trade-off between privacy and utility. In this thesis, we propose a novel approach for assessing both utility and privacy called Discrimination Rate (DR). The DR is an information theoretical approach which provides practical and fine grained measurements. The DR measures the capability of attributes to refine a set of respondents with measurements scaled between 0 and 1, the best refinement leading to single respondents. For example an identifier has a DR equals to 1 as it completely refines a set of respondents. We are therefore able to provide fine grained assessments and comparison of anonymization mechanisms (whether different instantiations of the same mechanism or different anonymization mechanisms) in terms of utility and privacy. Moreover, thanks to the DR, we provide formal definitions of identifiers (Personally Identifying Information) which has been recognized as one of the main concern of privacy regulations. The DR can therefore be used both by companies and regulators for tackling the personal data protection issues
|
Page generated in 0.1349 seconds