• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 64
  • 36
  • 9
  • Tagged with
  • 114
  • 43
  • 40
  • 35
  • 33
  • 24
  • 22
  • 22
  • 22
  • 22
  • 19
  • 17
  • 17
  • 15
  • 15
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

L'arbitrage des questions environnementales sous le chapitre 11 de l'ALÉNA : de la confidentialité à la transparence

Auger Bouchard, Marie-Claude 05 1900 (has links) (PDF)
La confidentialité est un avantage indéniable de l'arbitrage commercial international. Il s'agit effectivement d'une des principales raisons pour laquelle les gens d'affaires à travers le monde en ont fait un forum privilégié pour la résolution de leurs différends commerciaux. En fait, la confidentialité, et corollairement le caractère privé des procédures, peuvent se justifier par la volonté de deux parties privées en conflit d'éviter une publicité potentiellement défavorable ou dommageable normalement engendrée dans un procès judiciaire. Ils représentent toutefois un problème sérieux lorsqu'un État est une des parties au litige dans le cadre des arbitrages effectués sous le chapitre 11 de l'Accord de libre-échange nord-américain (ALÉNA). Effectivement, puisque l'intérêt public est souvent en cause, les gouvernements peuvent difficilement justifier auprès de leurs citoyens le secret entourant les procédures et les sentences. Depuis les dernières années, plusieurs corporations transnationales ont utilisé les dispositions prévues par le chapitre 11 pour défier des lois, des politiques ou des règlements environnementaux adoptés légitimement par les pays membres de l'ALÉNA. Cet effet négatif de l'Accord alimente la méfiance de la population nord-américaine par rapport aux avantages présumés de la libéralisation des courants d'investissement. Qui plus est, la confidentialité des procédures entourant le règlement des litiges commerciaux sous le chapitre 11 soulève un important débat se rapportant à la légitimité du processus, particulièrement lorsque les questions enjeu touchent à la protection de l'environnement. Dans le cadre de ce mémoire, nous définissons la confidentialité et explorons son importance et sa pertinence dans l'arbitrage des différends commerciaux internationaux. De plus, nous proposons d'accentuer la transparence du processus de résolution de conflits contenu dans le chapitre 11 de l'ALÉNA afin de se conformer aux nouvelles exigences du droit international du développement durable. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : ALÉNA, développement durable, arbitrage international, confidentialité, transparence, participation publique.
22

Confidentiality Enforcement Using Dynamic Information Flow Analyses

Le Guernic, Gurvan 25 October 2007 (has links) (PDF)
Avec l'augmentation des communications entre systèmes d'information, l'intérêt pour les mécanismes de sécurité s'est accru. La notion de non-interférence, introduite par Goguen and Meseguer (1982), est fréquemment utilisée pour formaliser des politiques de sécurité impliquant la confidentialité des secrets manipulés par un programme. Un programme est dit non-interférant si son comportement observable par tous n'est pas influencé par la valeur des secrets qu'il manipule. Si ce n'est pas le cas, alors un attaquant ayant connaissance du code source du programme peut déduire des information concernant les secrets manipulés à partir de l'observation du comportement du programme.<br /><br /> À la différence de la majorité des travaux précédents sur la non-interférence (principalement des analyses statiques), ce rapport de thèse s'intéresse au contrôle dynamique de la non-interférence. Le contrôle dynamique des flux d'information est une tâche complexe car l'information transportée par un message n'est pas une propriété intrinsèque de ce message. Elle dépend aussi, lorsque le destinataire connaît l'ensemble des message qui peuvent être envoyés, de la composition de cet ensemble. Le travail présenté dans ce rapport se base sur la composition d'analyses dynamiques et statiques des flux d'information. Des moniteurs de non-interférence sont développés pour différents langages dont un langage concurrent intégrant une commande de synchronisation. L'exactitude de ces moniteurs est prouvée et leur précision est comparée à des travaux précédents.
23

La confidentialité des résultats des tests génétiques : les droits des membres de la famille et les obligations des professionnels de la santé : une étude comparée Québec / France

Fecteau, Claudine 09 1900 (has links)
L'information génétique, de manière intrinsèque, concerne non seulement un individu, mais également les personnes qui lui sont liées par le sang. Dans l'hypothèse où une personne refusait de communiquer des informations cruciales pour la santé des membres de sa famille, les professionnels de la santé qui détiennent ces renseignements pourraient se retrouver confrontés à un dilemme, soit le choix entre le respect de la confidentialité ou la communication des infonnations pertinentes dans l'intérêt de la famille. Ce mémoire propose une analyse des règles régissant la confidentialité des résultats des tests génétiques en regard des droits des membres de la famille et des obligations des professionnels de la santé. Une analyse comparative entre le droit québécois et français est effectuée. La législation portant sur la confidentialité est essentiellement fondée sur la protection des droits individuels. Des exceptions législatives sont toutefois prévues dans l'intérêt de certains membres de la famille, mais elles s'adressent uniquement à la famille biologique. La notion de famille est ainsi restreinte spécifiquement dans le cadre de la génétique. Le bris de la confidentialité ne semble pas la solution optimale pour résoudre le conflit entre les droits de la personne concernée et ceux de sa famille et n'est d'ailleurs pas envisagé par les systèmes juridiques québécois et français. Les professionnels de la santé doivent alors mettre l'accent sur l'information et le dialogue avec le patient, ce qui est davantage garant de la protection des droits de toutes les personnes en cause. / Genetic information, by its very nature, concerns not only the individual, but also the persons related to him by blood. Where an individual refuses to share genetic information crucial to the health of his family members, health professionals who hold such information are faced with a dilemma: they must choose between respecting confidentiality and communicating in the interest of family members. This thesis analyses the rules governing the confidentiality of genetic test results with regards to the rights of family members and the obligations of health professionals. A comparative analysis between the laws of Québec and France is undertaken. Legislation dealing with confidentiality is essentiatly based on the protection of the rights of individuals. Legislative exceptions are nevertheless provided in the interest of certain family members, but they are directed only to the biological family. The concept of "family" is thus restricted in the context of the confidentiality of genetic information. Disregarding confidentiality is not the best solution to the conflict between the rights of the person concerned and of those of his family, and such a solution is not contemplated either in Québec or in France. Health professionals must therefore place emphasis on informing the patient, a solution which offers great protection of the rights of all concemed. / "Mémoire présenté à la Faculté des études supérieures en vue de l'obtention du grade de maître en droit LL.M.". Ce mémoire a été accepté à l'unanimité et classé parmi les 15% des mémoires de la discipline. Commentaires du jury : "Mémoire de très bonne tenue. Exposé clair et synthétique. Approche relativement classique. Texte fort bien écrit."
24

Les registres médicaux et la confidentialité

Giroud, Clémentine 08 1900 (has links)
Les registres médicaux sont des banques de données, ayant des caractéristiques spécifiques, rassemblant tous les cas d'une maladie sur un territoire précis. Ces informations permettent la mise en place de politiques de santé publique ainsi que l'étude de maladies afin de faire progresser la recherche médicale. La question se pose donc de savoir comment la réglementation concernant le respect de la vie privée s'applique aux particularités des registres. La législation actuellement en vigueur au Québec prévoit l'obligation d'obtenir le consentement du patient avant d'inclure les données le concernant dans le registre. Ces renseignements personnels de santé recueillis dans le registre doivent être protégés afin de respecter la vie privée des participants. Pour cela, des mesures concernant la confidentialité et la sécurité des données doivent être mises en place en vue de leur conservation et durant celle-ci. Après l'utilisation principale de ces données, il est possible de se servir à nouveau de ces renseignements personnels à d'autres fins, qu'il faille ou non les transférer vers une autre banque de données, nationale ou étrangère. Néanmoins cette utilisation secondaire ne peut se faire qu'à certaines conditions, sans porter atteinte au droit des participants concernant le respect de la vie privée. / Medical registries are databases which record aIl cases of a specifie disease found in a given area. Registries provide vital information for public health research and for the implementation of appropriate public policies. The question is : How does the regulation of privacy apply to registries? Legislation currently in force in the province of Quebec requires the consent of a patient in order to inc1ude personal information in the registry. Personal health data in a registry have to be protected to preserve the privacy of research subjects. To ensure data security and confidentiality sorne measures must be taken during their conservation. Secondary use of data is possible under certain conditions aimed at protecting the right to privacy. It is possible to use such personal information again for other purposes even if the data need to be transferred to another national or foreign database. / "Mémoire présenté à la Faculté des études supérieures en vue de l'obtention du grade de Maîtrise en LL.M. Droit - Recherche option Droit, Biotechnologies et Sociétés"
25

Module de confiance pour externalisation de données dans le Cloud / Trusted module for data outsourcing in Cloud

Demir, Levent 07 December 2017 (has links)
L’externalisation des données dans le Cloud a engendré de nouvelles problématiques de sécurité. L’enjeu est de protéger les données des utilisateurs et leur vie privée. En ce sens, deux principes ont été suivis durant cette thèse : le premier est d’avoir une confiance limitée envers l’hébergeur de données (entre autres), le deuxième est d’établir une architecture basée sur un modulede confiance placé en rupture entre le poste client et le Cloud, d’où l’approche "Trust The Module,Not The Cloud" (TTM).Déléguer donc les opérations de sécurité à un module matériel dédié permet alors plusieurs bénéfices : d’abord s’affranchir d’un poste client davantage vulnérable face à des attaques internes ou externes ; ensuite limiter les composants logiciels au strict minimum afin d’avoir un meilleur contrôle du fonctionnement et enfin dédier les opérations cryptographiques à des co-processeurs spécialisés afin d’obtenir des performances élevées. Ainsi, les travaux menés durant cette présente thèse suivent trois axes. Dans un premieraxe nous avons étudié les défis d’un Cloud personnel destiné à protéger les données d’un particulier, et basé sur une carte nano-ordinateur du marché peu coûteuse. L’architecture que nous avons définie repose sur deux piliers : une gestion transparente du chiffrement grâce à l’usage d’un chiffrement par conteneur appelé Full Disk Encryption (FDE), initialement utilisédans un contexte de protection locale (chiffrement du disque d’un ordinateur ou d’un disque dur externe) ; et une gestion transparente de la distribution grâce à l’usage du protocole iSCSI qui permet de déporter le conteneur sur le Cloud. Nous avons montré que ces deux piliers permettent de construire un service sécurisé et fonctionnellement riche grâce à l’ajout progressif de modules"sur étagère" supplémentaires.Dans un deuxième axe, nous nous sommes intéressés au problème de performance lié à l’usage du FDE. Une étude approfondie du mode de chiffrement XTS-AES recommandé pour le FDE, du module noyau Linux dm-crypt et des co-processeurs cryptographiques (ne supportant pas tous le mode XTS-AES), nous ont conduit à proposer différentes optimisations dont l’approche extReq, qui étend les requêtes cryptographiques envoyées aux co-processeurs. Ces travaux nousont ainsi permis de doubler les débits de chiffrement et déchiffrement.Dans un troisième axe, afin de passer à l’échelle, nous avons utilisé un module de sécurité matériel (Hardware Secure Module ou HSM) certifié et plus puissant, dédié à la protection des données et à la gestion des clés. Tout en capitalisant sur l’architecture initiale, l’ajout du module HSM permet alors de fournir un service de protection adapté aux besoins d’une entreprise par exemple. / Data outsourcing to the Cloud has led to new security threats. The main concerns of this thesis are to protect the user data and privacy. In particular, it follows two principles : to decrease the necessary amount of trust towards the Cloud, and to design an architecture based on a trusted module between the Cloud and the clients. Both principles are derived from a new design approach : "Trust The Module, Not The Cloud ".Gathering all the cryptographic operations in a dedicated module allows several advantages : a liberation from internal and external attacks on client side ; the limitation of software to the essential needs offers a better control of the system ; using co-processors for cryptographic operations leads to higher performance.The thesis work is structured into three main sections. In the first section , we confront challenges of a personal Cloud, designed to protect the users’ data and based on a common and cheap single-board computer. The architecture relies on two main foundations : a transparent encryption scheme based on Full Disk Encryption (FDE), initially used for local encryption (e.g., hard disks), and a transparent distribution method that works through iSCSI network protocol in order to outsource containers in Cloud.In the second section we deal with the performance issue related to FDE. By analysing the XTS-AES mode of encryption, the Linux kernel module dm-crypt and the cryptographic co-processors, we introduce a new approach called extReq which extends the cryptographic requests sent to the co-processors. This optimisation has doubled the encryption and decryption throughput.In the final third section we establish a Cloud for enterprises based on a more powerful and certified Hardware Security Module (HSM) which is dedicated to data encryption and keys protection. Based on the TTM architecture, we added "on-the-shelf" features to provide a solution for enterprise.
26

Financement de l'arbitrage par un tiers : une approche française et international / Third-party fuding in arbitration : a French and international approach

Mechantaf, Khalil 14 January 2019 (has links)
Le financement des procès présente de nombreux avantages pour le développement de l'arbitrage international, auparavant inaccessible aux parties impécunieuses. Les systèmes anglo-saxons, traditionnellement contre le financement des procès, commencent à introduire des règlementations facilitant l'accès au financement et promouvant son développement. La sophistication des formes de financement et le statut du tiers financeur apportent cependant une certaine complexité à l'exercice par l'arbitre de son pouvoir et au déroulement de la procédure arbitrale. Cette dernière reste gérer par le consensus des parties et la confidentialité de la procédure. La divulgation de l'accord de financement et la détermination du statut du financeur sont parmi les questions que posent l'existence d'un tiers dans la procédure arbitrale. / Third-party funding presents various advantages for the development of international arbitration, previously inaccessible for insolvent parties. Common law systems, traditionally against the funding of litigation, are recently adopting regulations allowing access to funding and promoting its development. The sophistication of the forms of funding and the status of third-party funder give rise to certain challenges with regard to the exercise by the arbitrator of his/her powers and the administration of the arbitration process. This process remains widely governed by the will of the parties and the confidentiality of the procedure. The disclosure of the funding agreement and determining the status of the funder are amongst the various questions triggered by the presence of a third-party in the arbitration process.
27

Secure Distributed MapReduce Protocols : How to have privacy-preserving cloud applications? / Protocoles distribués et sécurisés pour le paradigme MapReduce : Comment avoir des applications dans les nuages respectueuses de la vie privée ?

Giraud, Matthieu 24 September 2019 (has links)
À l’heure des réseaux sociaux et des objets connectés, de nombreuses et diverses données sont produites à chaque instant. L’analyse de ces données a donné lieu à une nouvelle science nommée "Big Data". Pour traiter du mieux possible ce flux incessant de données, de nouvelles méthodes de calcul ont vu le jour. Les travaux de cette thèse portent sur la cryptographie appliquée au traitement de grands volumes de données, avec comme finalité la protection des données des utilisateurs. En particulier, nous nous intéressons à la sécurisation d’algorithmes utilisant le paradigme de calcul distribué MapReduce pour réaliser un certain nombre de primitives (ou algorithmes) indispensables aux opérations de traitement de données, allant du calcul de métriques de graphes (e.g. PageRank) aux requêtes SQL (i.e. intersection d’ensembles, agrégation, jointure naturelle). Nous traitons dans la première partie de cette thèse de la multiplication de matrices. Nous décrivons d’abord une multiplication matricielle standard et sécurisée pour l’architecture MapReduce qui est basée sur l’utilisation du chiffrement additif de Paillier pour garantir la confidentialité des données. Les algorithmes proposés correspondent à une hypothèse spécifique de sécurité : collusion ou non des nœuds du cluster MapReduce, le modèle général de sécurité étant honnête mais curieux. L’objectif est de protéger la confidentialité de l’une et l’autre matrice, ainsi que le résultat final, et ce pour tous les participants (propriétaires des matrices, nœuds de calcul, utilisateur souhaitant calculer le résultat). D’autre part, nous exploitons également l’algorithme de multiplication de matrices de Strassen-Winograd, dont la complexité asymptotique est O(n^log2(7)) soit environ O(n^2.81) ce qui est une amélioration par rapport à la multiplication matricielle standard. Une nouvelle version de cet algorithme adaptée au paradigme MapReduce est proposée. L’hypothèse de sécurité adoptée ici est limitée à la non-collusion entre le cloud et l’utilisateur final. La version sécurisée utilise comme pour la multiplication standard l’algorithme de chiffrement Paillier. La seconde partie de cette thèse porte sur la protection des données lorsque des opérations d’algèbre relationnelle sont déléguées à un serveur public de cloud qui implémente à nouveau le paradigme MapReduce. En particulier, nous présentons une solution d’intersection sécurisée qui permet à un utilisateur du cloud d’obtenir l’intersection de n > 1 relations appartenant à n propriétaires de données. Dans cette solution, tous les propriétaires de données partagent une clé et un propriétaire de données sélectionné partage une clé avec chacune des clés restantes. Par conséquent, alors que ce propriétaire de données spécifique stocke n clés, les autres propriétaires n’en stockent que deux. Le chiffrement du tuple de relation réelle consiste à combiner l’utilisation d’un chiffrement asymétrique avec une fonction pseudo-aléatoire. Une fois que les données sont stockées dans le cloud, chaque réducteur (Reducer) se voit attribuer une relation particulière. S’il existe n éléments différents, des opérations XOR sont effectuées. La solution proposée reste donc très efficace. Par la suite, nous décrivons les variantes des opérations de regroupement et d’agrégation préservant la confidentialité en termes de performance et de sécurité. Les solutions proposées associent l’utilisation de fonctions pseudo-aléatoires à celle du chiffrement homomorphe pour les opérations COUNT, SUM et AVG et à un chiffrement préservant l’ordre pour les opérations MIN et MAX. Enfin, nous proposons les versions sécurisées de deux protocoles de jointure (cascade et hypercube) adaptées au paradigme MapReduce. Les solutions consistent à utiliser des fonctions pseudo-aléatoires pour effectuer des contrôles d’égalité et ainsi permettre les opérations de jointure lorsque des composants communs sont détectés.(...) / In the age of social networks and connected objects, many and diverse data are produced at every moment. The analysis of these data has led to a new science called "Big Data". To best handle this constant flow of data, new calculation methods have emerged.This thesis focuses on cryptography applied to processing of large volumes of data, with the aim of protection of user data. In particular, we focus on securing algorithms using the distributed computing MapReduce paradigm to perform a number of primitives (or algorithms) essential for data processing, ranging from the calculation of graph metrics (e.g. PageRank) to SQL queries (i.e. set intersection, aggregation, natural join).In the first part of this thesis, we discuss the multiplication of matrices. We first describe a standard and secure matrix multiplication for the MapReduce architecture that is based on the Paillier’s additive encryption scheme to guarantee the confidentiality of the data. The proposed algorithms correspond to a specific security hypothesis: collusion or not of MapReduce cluster nodes, the general security model being honest-but-curious. The aim is to protect the confidentiality of both matrices, as well as the final result, and this for all participants (matrix owners, calculation nodes, user wishing to compute the result). On the other hand, we also use the matrix multiplication algorithm of Strassen-Winograd, whose asymptotic complexity is O(n^log2(7)) or about O(n^2.81) which is an improvement compared to the standard matrix multiplication. A new version of this algorithm adapted to the MapReduce paradigm is proposed. The safety assumption adopted here is limited to the non-collusion between the cloud and the end user. The version uses the Paillier’s encryption scheme.The second part of this thesis focuses on data protection when relational algebra operations are delegated to a public cloud server using the MapReduce paradigm. In particular, we present a secureintersection solution that allows a cloud user to obtain the intersection of n > 1 relations belonging to n data owners. In this solution, all data owners share a key and a selected data owner sharesa key with each of the remaining keys. Therefore, while this specific data owner stores n keys, the other owners only store two keys. The encryption of the real relation tuple consists in combining the use of asymmetric encryption with a pseudo-random function. Once the data is stored in the cloud, each reducer is assigned a specific relation. If there are n different elements, XOR operations are performed. The proposed solution is very effective. Next, we describe the variants of grouping and aggregation operations that preserve confidentiality in terms of performance and security. The proposed solutions combine the use of pseudo-random functions with the use of homomorphic encryption for COUNT, SUM and AVG operations and order preserving encryption for MIN and MAX operations. Finally, we offer secure versions of two protocols (cascade and hypercube) adapted to the MapReduce paradigm. The solutions consist in using pseudo-random functions to perform equality checks and thus allow joining operations when common components are detected. All the solutions described above are evaluated and their security proven.
28

Functional encryption applied to privacy-preserving classification : practical use, performances and security / Chiffrement fonctionnel appliqué à la classification respectant la confidentialité des données : utilisation pratique, performances et sécurité

Ligier, Damien 15 October 2018 (has links)
L'apprentissage automatique (en anglais machine learning) ou apprentissage statistique, a prouvé être un ensemble de techniques très puissantes. La classification automatique en particulier, permettant d'identifier efficacement des informations contenues dans des gros ensembles de données. Cependant, cela lève le souci de la confidentialité des données. C'est pour cela que le besoin de créer des algorithmes d'apprentissage automatique capable de garantir la confidentialité a été mis en avant. Cette thèse propose une façon de combiner certains systèmes cryptographiques avec des algorithmes de classification afin d'obtenir un classifieur que veille à la confidentialité. Les systèmes cryptographiques en question sont la famille des chiffrements fonctionnels. Il s'agit d'une généralisation de la cryptographie à clef publique traditionnelle dans laquelle les clefs de déchiffrement sont associées à des fonctions. Nous avons mené des expérimentations sur cette construction avec un scénario réaliste se servant de la base de données du MNIST composée d'images de digits écrits à la main. Notre système est capable dans ce cas d'utilisation de savoir quel digit est écrit sur une image en ayant seulement un chiffre de l'image. Nous avons aussi étudié la sécurité de cette construction dans un contexte réaliste. Ceci a révélé des risques quant à l'utilisation des chiffrements fonctionnels en général et pas seulement dans notre cas d'utilisation. Nous avons ensuite proposé une méthode pour négocier (dans notre construction) entre les performances de classification et les risques encourus. / Machine Learning (ML) algorithms have proven themselves very powerful. Especially classification, enabling to efficiently identify information in large datasets. However, it raises concerns about the privacy of this data. Therefore, it brought to the forefront the challenge of designing machine learning algorithms able to preserve confidentiality.This thesis proposes a way to combine some cryptographic systems with classification algorithms to achieve privacy preserving classifier. The cryptographic system family in question is the functional encryption one. It is a generalization of the traditional public key encryption in which decryption keys are associated with a function. We did some experimentations on that combination on realistic scenario using the MNIST dataset of handwritten digit images. Our system is able in this use case to know which digit is written in an encrypted digit image. We also study its security in this real life scenario. It raises concerns about uses of functional encryption schemes in general and not just in our use case. We then introduce a way to balance in our construction efficiency of the classification and the risks.
29

Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques / Automatic Learning of Anonymization for Graphs and Dynamic Graphs

Maag, Maria Coralia Laura 08 April 2015 (has links)
La confidentialité des données est un problème majeur qui doit être considéré avant de rendre publiques les données ou avant de les transmettre à des partenaires tiers avec comme but d'analyser ou de calculer des statistiques sur ces données. Leur confidentialité est principalement préservée en utilisant des techniques d'anonymisation. Dans ce contexte, un nombre important de techniques d'anonymisation a été proposé dans la littérature. Cependant, des méthodes génériques capables de s'adapter à des situations variées sont souhaitables. Nous adressons le problème de la confidentialité des données représentées sous forme de graphe, données qui nécessitent, pour différentes raisons, d'être rendues publiques. Nous considérons que l'anonymiseur n'a pas accès aux méthodes utilisées pour analyser les données. Une méthodologie générique est proposée basée sur des techniques d'apprentissage artificiel afin d'obtenir directement une fonction d'anonymisation et d'optimiser la balance entre le risque pour la confidentialité et la perte dans l'utilité des données. La méthodologie permet d'obtenir une bonne procédure d'anonymisation pour une large catégorie d'attaques et des caractéristiques à préserver dans un ensemble de données. La méthodologie est instanciée pour des graphes simples et des graphes dynamiques avec une composante temporelle. La méthodologie a été expérimentée avec succès sur des ensembles de données provenant de Twitter, Enron ou Amazon. Les résultats sont comparés avec des méthodes de référence et il est montré que la méthodologie proposée est générique et peut s'adapter automatiquement à différents contextes d'anonymisation. / Data privacy is a major problem that has to be considered before releasing datasets to the public or even to a partner company that would compute statistics or make a deep analysis of these data. Privacy is insured by performing data anonymization as required by legislation. In this context, many different anonymization techniques have been proposed in the literature. These techniques are difficult to use in a general context where attacks can be of different types, and where measures are not known to the anonymizer. Generic methods able to adapt to different situations become desirable. We are addressing the problem of privacy related to graph data which needs, for different reasons, to be publicly made available. This corresponds to the anonymized graph data publishing problem. We are placing from the perspective of an anonymizer not having access to the methods used to analyze the data. A generic methodology is proposed based on machine learning to obtain directly an anonymization function from a set of training data so as to optimize a tradeoff between privacy risk and utility loss. The method thus allows one to get a good anonymization procedure for any kind of attacks, and any characteristic in a given set. The methodology is instantiated for simple graphs and complex timestamped graphs. A tool has been developed implementing the method and has been experimented with success on real anonymized datasets coming from Twitter, Enron or Amazon. Results are compared with baseline and it is showed that the proposed method is generic and can automatically adapt itself to different anonymization contexts.
30

Génération de données : de l’anonymisation à la construction de populations synthétiques

Jutras-Dubé, Pascal 11 1900 (has links)
Les coûts élevés de collecte de données ne rendent souvent possible que l’échantillonnage d’un sous-ensemble de la population d’intérêt. Il arrive également que les données collectées renferment des renseignements personnels et sensibles au sujet des individus qui y figurent de sorte qu’elles sont protégées par des lois ou des pratiques strictes de sécurité et gouvernance de données. Dans les deux cas, l’accès aux données est restreint. Nos travaux considèrent deux angles de recheche sous lesquels on peut se servir de la génération de données fictives pour concevoir des modèles d’analyse où les données véritables sont inaccessibles. Sous le premier angle, la génératon de données fictives se substitue aux données du recensement. Elle prend la forme d’une synthèse de population constituée d’individus décrits par leurs attributs aux niveaux individuel et du ménage. Nous proposons les copules comme nouvelle approche pour modéliser une population d’intérêt dont seules les distributions marginales sont connues lorsque nous possédons un échantillon d’une autre population qui partage des caractéristiques de dépendances interdimensionnelles similaires. Nous comparons les copules à l’ajustement proportionnel itératif, technologie répandue dans le domaine de la synthèse de population, mais aussi aux approches d’apprentissage automatique modernes comme les réseaux bayésiens, les auto-encodeurs variationnels et les réseaux antagonistes génératifs lorsque la tâche consiste à générer des populations du Maryland dont les données sont issues du recensement américain. Nos expériences montrent que les copules surpassent l’ajustement proportionnel itératif à modéliser les relations interdimensionnelles et que les distributions marginales des données qu’elles génèrent correspondent mieux à celles de la population d’intèrêt que celles des données générées par les méthodes d’apprentissage automatique. Le second angle considère la génération de données qui préservent la confidentialité. Comme la désensibilisation des données est en relation inverse avec son utilité, nous étudions en quelles mesures le k-anonymat et la modélisation générative fournissent des données utiles relativement aux données sensibles qu’elles remplacent. Nous constatons qu’il est effectivement possible d’employer ces définitions de confidentialité pour publier des données utiles, mais la question de comparer leurs garanties de confidentialité demeure ouverte. / The high costs of data collection can restrict sampling so that only a subset of the data is available. The data collected may also contain personal and sensitive information such that it is protected by laws or strict data security and governance practices. In both cases, access to the data is restricted. Our work considers two research angles under which one can use the generation of synthetic data to design analysis models where the real data is inaccessible. In the first project, a synthetically generated population made up of individuals described by their attributes at the individual and household levels replaces census data. We propose copulas as a new approach to model a population of interest whose only marginal distributions are known when we have a sample from another population that shares similar interdimensional dependencies. We compare copulas to iterative proportional fitting, a technology developed in the field of population synthesis, but also to modern machine learning approaches such as Bayesian networks, variational autoencoders, and generative adversarial networks when the task is to generate populations of Maryland. Our experiments demonstrated that the copulas outperform iterative proportional fitting in modeling interdimensional relationships and that the marginal distributions of the data they generated match those of the population of interest better than those of the data generated by the machine learning methods. The second project consists of generating data that preserves privacy. As data privacy is inversely related to its usefulness, we study to what extent k-anonymity and generative modeling provide useful data relative to the sensitive data they replace. We find that it is indeed possible to use these privacy definitions to publish useful data, but the question of comparing their privacy guarantees remains open.

Page generated in 0.069 seconds