Les travaux présentés dans ce mémoire visent à identifier et appliquer de bonnes pratiques quant à la gestion de données en santé, et plus précisément en radio-oncologie. Ce domaine comporte de nombreux défis en lien avec les données dont l'augmentation rapide du volume, de la variété et de la complexité des données. C'est pourquoi les développements en lien avec la gestion de données en santé doivent s'appuyer sur de bonnes pratiques d'ingénierie de données. Trois projets distincts en lien avec les données ont été abordés dans le cadre de ce mémoire. Le premier concerne l'automatisation de la collecte de données en radio-oncologie. Un pipeline a été développé afin d'obtenir quotidiennement les indices dosimétriques des traitements de curiethérapie de prostate faits dans la journée. Ces indices sont ensuite stockés dans une base de données dédiée à la recherche sur le cancer de la prostate. Ces indices peuvent être obtenus par deux algorithmes de calcul de DVH. Une comparaison a été faîte avec un jeu de données de 20 cas de curiethérapie HDR de prostate. Celle-ci a permis d'identifier des différences entre chacun des algorithmes. Le deuxième projet montre comment il est possible de concevoir des jeux de données massifs réutilisables dédiés aux analyses radiomiques. Des flots de travail permettant de conserver des données coûteuses générées dans le cadre d'analyses radiomiques ont été conceptualisés et implémentés. Ces flots, inspirés des principes FAIR, permettent d'assurer une meilleure traçabilité et de tendre vers des jeux de données réutilisables. Un flot qui permet à un spécialiste (ex. radio-oncologue) de tracer des segmentations a été implémenté et testé avec des logiciels libres, notamment le serveur DICOM Orthanc et 3D Slicer. Le dernier projet démontre l'apport de l'ingénierie de données en médecine personnalisée. Plus précisément, l'estimation des risques de cancer du sein pour des participantes à une étude d'envergure ont été obtenus par l'entremise de processus automatisés. Dans le cadre d'une étude sur le cancer du sein impliquant près de 2000 participantes, deux pipelines ont été développés. Le premier permet d'obtenir le risque de cancer du sein individuel des participantes en fonction de différents facteurs (habitudes de vie, historique familiale, marqueurs génétiques). Le deuxième pipeline génère des lettres personnalisées destinées aux participantes ainsi qu'à leur médecin traitant. Ces projets démontrent la pertinence de bonnes pratiques quant à la gestion de données en santé. L'ingénierie de données présentée dans ce mémoire aura permis d'automatiser plusieurs opérations en lien avec les données en plus de concevoir des jeux de données réutilisables. Cette bonne gestion de données pave la voie vers de nouvelles pratiques et rend les activités scientifiques en santé plus efficaces. / This work aims to identify and apply good practices in the management of health data, and more specifically in radiation oncology. This field has many data-related challenges including the rapidly increasing volume, variety and complexity of data. This is why developments related to health data management must be based on good data engineering practices. Three distinct data-related projects have been addressed in this thesis. The first concerns the automation of data collection in radiation oncology. A pipeline has been developed to obtain daily dosimetric indices of prostate brachytherapy treatments performed during the day. These indices are then stored in a database dedicated to prostate cancer research. These indices can be obtained by two DVH calculation algorithms. A comparison was made with a dataset of 20 HDR prostate brachytherapy cases. This made it possible to identify the differences of each of the algorithms. The second project shows how it is possible to design massive reusable datasets dedicated to radiomics analyses. Workflows to retain expensive data generated in radiomics analyzes have been conceptualized and implemented. These workflows, inspired by the FAIR principles, ensure better traceability and tend towards reusable data sets. A workflow that allows a specialist (e.g. radio-oncologist) to draw segmentations has been implemented and tested with free software, in particular with the DICOM server Orthanc and 3D Slicer. The last project demonstrates the contribution of data engineering in personalized medicine. Specifically, the breast cancer risk assessment of a large group of participants were obtained through automated processes. As part of a breast cancer study involving nearly 2000 participants, two data pipelines were developed. The first provides participants' individual breast cancer risk assessment based on various factors (lifestyles, family history, genetic markers). The second pipeline generates personalized newsletters for participants and their treating physician. These projects demonstrate the relevance of good practices in health data management. The data engineering presented in this thesis will have made it possible to automate several data related operations in addition to designing reusable data sets. This good data management paves the way for new practices and makes health science activities more efficient.
Identifer | oai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/107365 |
Date | 12 November 2023 |
Creators | Couture, Gabriel |
Contributors | Després, Philippe |
Source Sets | Université Laval |
Language | French |
Detected Language | French |
Type | COAR1_1::Texte::Thèse::Mémoire de maîtrise |
Format | 1 ressource en ligne (xii, 89 pages), application/pdf |
Rights | http://purl.org/coar/access_right/c_abf2 |
Page generated in 0.0019 seconds