Return to search

Génération de données : de l’anonymisation à la construction de populations synthétiques

Les coûts élevés de collecte de données ne rendent souvent possible que l’échantillonnage d’un sous-ensemble de la population d’intérêt. Il arrive également que les données collectées renferment des renseignements personnels et sensibles au sujet des individus qui y figurent de sorte qu’elles sont protégées par des lois ou des pratiques strictes de sécurité et gouvernance de données. Dans les deux cas, l’accès aux données est restreint. Nos travaux considèrent deux angles de recheche sous lesquels on peut se servir de la génération de données fictives pour concevoir des modèles d’analyse où les données véritables sont inaccessibles.
Sous le premier angle, la génératon de données fictives se substitue aux données du recensement. Elle prend la forme d’une synthèse de population constituée d’individus décrits par leurs attributs aux niveaux individuel et du ménage. Nous proposons les copules comme nouvelle approche pour modéliser une population d’intérêt dont seules les distributions marginales sont connues lorsque nous possédons un échantillon d’une autre population qui partage des caractéristiques de dépendances interdimensionnelles similaires. Nous comparons les copules à l’ajustement proportionnel itératif, technologie répandue dans le domaine de la synthèse de population, mais aussi aux approches d’apprentissage automatique modernes comme les réseaux bayésiens, les auto-encodeurs variationnels et les réseaux antagonistes génératifs lorsque la tâche consiste à générer des populations du Maryland dont les données sont issues du recensement américain. Nos expériences montrent que les copules surpassent l’ajustement proportionnel itératif à modéliser les relations interdimensionnelles et que les distributions marginales des données qu’elles génèrent correspondent mieux à celles de la population d’intèrêt que celles des données générées par les méthodes d’apprentissage automatique.
Le second angle considère la génération de données qui préservent la confidentialité. Comme la désensibilisation des données est en relation inverse avec son utilité, nous étudions en quelles mesures le k-anonymat et la modélisation générative fournissent des données utiles relativement aux données sensibles qu’elles remplacent. Nous constatons qu’il est effectivement possible d’employer ces définitions de confidentialité pour publier des données utiles, mais la question de comparer leurs garanties de confidentialité demeure ouverte. / The high costs of data collection can restrict sampling so that only a subset of the data is available. The data collected may also contain personal and sensitive information such that it is protected by laws or strict data security and governance practices. In both cases, access to the data is restricted. Our work considers two research angles under which one can use the generation of synthetic data to design analysis models where the real data is inaccessible.

In the first project, a synthetically generated population made up of individuals described by their attributes at the individual and household levels replaces census data. We propose copulas as a new approach to model a population of interest whose only marginal distributions are known when we have a sample from another population that shares similar interdimensional dependencies. We compare copulas to iterative proportional fitting, a technology developed in the field of population synthesis, but also to modern machine learning approaches such as Bayesian networks, variational autoencoders, and generative adversarial networks when the task is to generate populations of Maryland. Our experiments demonstrated that the copulas outperform iterative proportional fitting in modeling interdimensional relationships and that the marginal distributions of the data they generated match those of the population of interest better than those of the data generated by the machine learning methods.

The second project consists of generating data that preserves privacy. As data privacy is inversely related to its usefulness, we study to what extent k-anonymity and generative modeling provide useful data relative to the sensitive data they replace. We find that it is indeed possible to use these privacy definitions to publish useful data, but the question of comparing their privacy guarantees remains open.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/27945
Date11 1900
CreatorsJutras-Dubé, Pascal
ContributorsBastin, Fabian, Morales, Manuel
Source SetsUniversité de Montréal
Languagefra
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0026 seconds