• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Création d'un jeu de données synthétiques pour des données de santé

Ouffy, Oumaima 21 November 2023 (has links)
Les données récoltées sur des individus sont souvent difficiles à partager avec les chercheurs et à publier à cause des informations confidentielles qu'elles contiennent. Une solution qu'on peut faire pour faciliter l'accès à ces données est de créer un jeu de données synthétiques à partager avec les chercheurs. Ce jeu de données aurait les mêmes caractéristiques du jeu de données originales mais ne permettrait pas de révéler les informations confidentielles sur les participants. Nous étudions dans ce mémoire les enjeux techniques liés à la création des jeux de données synthétiques dans le domaine de la santé. Il faut notamment s'assurer que les modèles statistiques utilisés pour générer des données synthétiques soient assez flexibles pour bien modéliser les corrélations entre les variables collectées, tout en s'assurant de ne pas sur-ajuster ces modèles, ce qui pourrait nuire à la protection de la confidentialité. Le travail s'articulera autour de la création d'un jeu synthétique pour un sous-ensemble des données collectées par le Consortium d'identification précoce de la maladie d'Alzheimer - Québec (CIMA-Q), pour qui le partage des données à la communauté de recherche sur la maladie d'Alzheimer canadienne et internationale est un objectif important. / Data collected on individuals is often difficult to share with researchers and publish because of the confidential information it contains. A possible solution to facilitate the access to this data is to create a synthetic data set to share with researchers. This dataset would have the same characteristics of the original dataset but would not reveal the confidential information about the participants. We study here the technical issues related to the creation of such synthetic datasets in the health field. In particular, it must be ensured that the statistical models used are flexible enough to properly model the correlations between the variables collected, while making sure not to over-adjust them, which could harm the protection of confidentiality. The work will focus on the creation of a synthetic data for a subset of the data collected by the Consortium of Early Identification of Alzheimer's disease - Quebec (CIMA-Q), for whom the sharing of data with the community of Canadian and international Alzheimer's disease research is an important goal.

Page generated in 0.1291 seconds