Return to search

Création d'un jeu de données synthétiques pour des données de santé

Les données récoltées sur des individus sont souvent difficiles à partager avec les chercheurs et à publier à cause des informations confidentielles qu'elles contiennent. Une solution qu'on peut faire pour faciliter l'accès à ces données est de créer un jeu de données synthétiques à partager avec les chercheurs. Ce jeu de données aurait les mêmes caractéristiques du jeu de données originales mais ne permettrait pas de révéler les informations confidentielles sur les participants. Nous étudions dans ce mémoire les enjeux techniques liés à la création des jeux de données synthétiques dans le domaine de la santé. Il faut notamment s'assurer que les modèles statistiques utilisés pour générer des données synthétiques soient assez flexibles pour bien modéliser les corrélations entre les variables collectées, tout en s'assurant de ne pas sur-ajuster ces modèles, ce qui pourrait nuire à la protection de la confidentialité. Le travail s'articulera autour de la création d'un jeu synthétique pour un sous-ensemble des données collectées par le Consortium d'identification précoce de la maladie d'Alzheimer - Québec (CIMA-Q), pour qui le partage des données à la communauté de recherche sur la maladie d'Alzheimer canadienne et internationale est un objectif important. / Data collected on individuals is often difficult to share with researchers and publish because of the confidential information it contains. A possible solution to facilitate the access to this data is to create a synthetic data set to share with researchers. This dataset would have the same characteristics of the original dataset but would not reveal the confidential information about the participants. We study here the technical issues related to the creation of such synthetic datasets in the health field. In particular, it must be ensured that the statistical models used are flexible enough to properly model the correlations between the variables collected, while making sure not to over-adjust them, which could harm the protection of confidentiality. The work will focus on the creation of a synthetic data for a subset of the data collected by the Consortium of Early Identification of Alzheimer's disease - Quebec (CIMA-Q), for whom the sharing of data with the community of Canadian and international Alzheimer's disease research is an important goal.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/108108
Date18 January 2023
CreatorsOuffy, Oumaima
ContributorsCharest, Anne-Sophie, Laviolette, François
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Mémoire de maîtrise
Format1 ressource en ligne (viii, 65 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.002 seconds