Titre de l'écran-titre (visionné le 28 novembre 2023) / Ce mémoire traite de la problématique liée à la confidentialité des données, particulièrement des risques de divulgations de données utilisées pour entraîner un modèle d'apprentissage statistique. En effet, face aux contraintes liées à la protection des données personnelles, plusieurs techniques sont proposées et utilisées par les chercheurs et organisations afin de parvenir à avoir des résultats de modèles sans violer la vie privée des individus sur lesquelles ces modèles sont entraînés. Nous prenons l'exemple de l'outil DataSHIELD qui offre la possibilité de sortir des résultats, jugés sécuritaires après être passés par un ensemble de contrôles, sans donner accès aux micro-données. Cependant, ces outils de contrôle du risque de divulgation de la vie privée restent encore vulnérables face aux attaques d'individus malintentionnés. Nous proposons dans ce mémoire des algorithmes d'attaque d'attributs qui, à partir des résultats d'un modèle, permettent de découvrir des informations précises et souvent sensibles sur les individus qui ont été utilisés pour entraîner le modèle. Certains de ces algorithmes d'attaque d'attributs sont basés sur des modèles d'attaques d'appartenance par inférence avec la méthode des modèles fantômes proposées par Shokri et al. (2017). Ce type d'algorithme a déjà été proposé dans la littérature par Zhao et al. (2021). Mais les auteurs ne sont pas arrivés à en démontrer l'efficacité car ils ont obtenu une faible différence en comparant le taux de succès de l'attaque observé sur les données membres et celui observé sur les données non membres. D'autres de nos algorithmes sont basés sur les modèles d'attaque d'appartenance précités et sur des méthodes d'imputations multivariées par équations chaînées (méthode MICE). Nous considérons cette méthode comme une façon dont un adversaire peut procéder pour faire une attaque d'attributs en passant par l'imputation MICE et une attaque d'appartenance avec modèles fantômes ; et nous l'appelons « MICE avec modèles fantômes ». Cette méthode est une contribution nouvelle que nous proposons et qui se trouve d'ailleurs être plus efficace que la première en évaluant le taux de succès. En fait, nous avons testé ces algorithmes sur deux jeux de données (« adult » et « Texas-100X ») et les résultats obtenus ont démontré, d'une part, leur efficacité à divulguer des informations sur les individus ciblés et, d'autre part, que la méthode utilisant l'imputation est plus efficace à découvrir la bonne information car celle-ci a eu des taux de succès plus élevés. / This document addresses the issue of data confidentiality, particularly the risks of disclosure of data used to train a statistical learning model. In fact, faced with the constraints of data protection, several techniques have been proposed and used by researchers and organizations to obtain model results without violating the privacy of the individuals on whom these models are trained. We take the example of the DataSHIELD tool, which offers the possibility of outputting results judged to be safe after passing through a set of controls, without giving access to the micro-data. However, these tools for controlling the risk of privacy disclosure are still vulnerable to attacks by malicious individuals. In this thesis, we propose attribute attack algorithms which, based on the results of a model, can uncover precise and often sensitive information about the individuals who were used to train the model. Some of these attribute attack algorithms are based on inference-based membership attack models with the shadow model method proposed by Shokri et al. (2017). This type of algorithm has already been proposed in the literature by Zhao et al (2021). However, the authors were unable to demonstrate its effectiveness because they obtained a small difference between the attack success rate observed on member data and that observed on non-member data. Other of our algorithms are based on the above membership attack models and on multivariate imputation methods using chained equations (MICE method). We regard this method as a way for an adversary to carry out an attribute attack via MICE imputation and a membership attack with shadow models; and we call it "MICE with shadow models". This method is a new contribution that we propose, and one that is more effective than the first in terms of success rate. In fact, we tested these algorithms on two datasets ("adult" and "Texas-100X") and the results obtained demonstrated, firstly, their effectiveness in disclosing information about the targeted individuals and, secondly, that the method using imputation was more effective in discovering the right information, as it had higher success rates.
Identifer | oai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/130264 |
Date | 01 December 2023 |
Creators | Mbodj, Mamadou |
Contributors | Charest, Anne-Sophie, Després, Philippe |
Source Sets | Université Laval |
Language | French |
Detected Language | French |
Type | COAR1_1::Texte::Thèse::Mémoire de maîtrise |
Format | 1 ressource en ligne (xii, 79 pages), application/pdf |
Rights | http://purl.org/coar/access_right/c_abf2 |
Page generated in 0.002 seconds