Spelling suggestions: "subject:"connées lumineuses -- cogestion."" "subject:"connées lumineuses -- cohestion.""
1 |
Bonnes pratiques en ingénierie de données en radio-oncologieCouture, Gabriel 12 November 2023 (has links)
Les travaux présentés dans ce mémoire visent à identifier et appliquer de bonnes pratiques quant à la gestion de données en santé, et plus précisément en radio-oncologie. Ce domaine comporte de nombreux défis en lien avec les données dont l'augmentation rapide du volume, de la variété et de la complexité des données. C'est pourquoi les développements en lien avec la gestion de données en santé doivent s'appuyer sur de bonnes pratiques d'ingénierie de données. Trois projets distincts en lien avec les données ont été abordés dans le cadre de ce mémoire. Le premier concerne l'automatisation de la collecte de données en radio-oncologie. Un pipeline a été développé afin d'obtenir quotidiennement les indices dosimétriques des traitements de curiethérapie de prostate faits dans la journée. Ces indices sont ensuite stockés dans une base de données dédiée à la recherche sur le cancer de la prostate. Ces indices peuvent être obtenus par deux algorithmes de calcul de DVH. Une comparaison a été faîte avec un jeu de données de 20 cas de curiethérapie HDR de prostate. Celle-ci a permis d'identifier des différences entre chacun des algorithmes. Le deuxième projet montre comment il est possible de concevoir des jeux de données massifs réutilisables dédiés aux analyses radiomiques. Des flots de travail permettant de conserver des données coûteuses générées dans le cadre d'analyses radiomiques ont été conceptualisés et implémentés. Ces flots, inspirés des principes FAIR, permettent d'assurer une meilleure traçabilité et de tendre vers des jeux de données réutilisables. Un flot qui permet à un spécialiste (ex. radio-oncologue) de tracer des segmentations a été implémenté et testé avec des logiciels libres, notamment le serveur DICOM Orthanc et 3D Slicer. Le dernier projet démontre l'apport de l'ingénierie de données en médecine personnalisée. Plus précisément, l'estimation des risques de cancer du sein pour des participantes à une étude d'envergure ont été obtenus par l'entremise de processus automatisés. Dans le cadre d'une étude sur le cancer du sein impliquant près de 2000 participantes, deux pipelines ont été développés. Le premier permet d'obtenir le risque de cancer du sein individuel des participantes en fonction de différents facteurs (habitudes de vie, historique familiale, marqueurs génétiques). Le deuxième pipeline génère des lettres personnalisées destinées aux participantes ainsi qu'à leur médecin traitant. Ces projets démontrent la pertinence de bonnes pratiques quant à la gestion de données en santé. L'ingénierie de données présentée dans ce mémoire aura permis d'automatiser plusieurs opérations en lien avec les données en plus de concevoir des jeux de données réutilisables. Cette bonne gestion de données pave la voie vers de nouvelles pratiques et rend les activités scientifiques en santé plus efficaces. / This work aims to identify and apply good practices in the management of health data, and more specifically in radiation oncology. This field has many data-related challenges including the rapidly increasing volume, variety and complexity of data. This is why developments related to health data management must be based on good data engineering practices. Three distinct data-related projects have been addressed in this thesis. The first concerns the automation of data collection in radiation oncology. A pipeline has been developed to obtain daily dosimetric indices of prostate brachytherapy treatments performed during the day. These indices are then stored in a database dedicated to prostate cancer research. These indices can be obtained by two DVH calculation algorithms. A comparison was made with a dataset of 20 HDR prostate brachytherapy cases. This made it possible to identify the differences of each of the algorithms. The second project shows how it is possible to design massive reusable datasets dedicated to radiomics analyses. Workflows to retain expensive data generated in radiomics analyzes have been conceptualized and implemented. These workflows, inspired by the FAIR principles, ensure better traceability and tend towards reusable data sets. A workflow that allows a specialist (e.g. radio-oncologist) to draw segmentations has been implemented and tested with free software, in particular with the DICOM server Orthanc and 3D Slicer. The last project demonstrates the contribution of data engineering in personalized medicine. Specifically, the breast cancer risk assessment of a large group of participants were obtained through automated processes. As part of a breast cancer study involving nearly 2000 participants, two data pipelines were developed. The first provides participants' individual breast cancer risk assessment based on various factors (lifestyles, family history, genetic markers). The second pipeline generates personalized newsletters for participants and their treating physician. These projects demonstrate the relevance of good practices in health data management. The data engineering presented in this thesis will have made it possible to automate several data related operations in addition to designing reusable data sets. This good data management paves the way for new practices and makes health science activities more efficient.
|
2 |
Développement de méthodes d'intégration de données biologiques à l'aide d'ElasticsearchOngaro-Carcy, Régis 22 February 2024 (has links)
En biologie, les données apparaissent à toutes les étapes des projets, de la préparation des études à la publication des résultats. Toutefois, de nombreux aspects limitent leur utilisation. Le volume, la vitesse de production ainsi que la variété des données produites ont fait entrer la biologie dans une ère dominée par le phénomène des données massives. Depuis 1980 et afin d'organiser les données générées, la communauté scientifique a produit de nombreux dépôts de données. Ces dépôts peuvent contenir des données de divers éléments biologiques par exemple les gènes, les transcrits, les protéines et les métabolites, mais aussi d'autres concepts comme les toxines, le vocabulaire biologique et les publications scientifiques. Stocker l'ensemble de ces données nécessite des infrastructures matérielles et logicielles robustes et pérennes. À ce jour, de par la diversité biologique et les architectures informatiques présentes, il n'existe encore aucun dépôt centralisé contenant toutes les bases de données publiques en biologie. Les nombreux dépôts existants sont dispersés et généralement autogérés par des équipes de recherche les ayant publiées. Avec l'évolution rapide des technologies de l'information, les interfaces de partage de données ont, elles aussi, évolué, passant de protocoles de transfert de fichiers à des interfaces de requêtes de données. En conséquence, l'accès à l'ensemble des données dispersées sur les nombreux dépôts est disparate. Cette diversité d'accès nécessite l'appui d'outils d'automatisation pour la récupération de données. Lorsque plusieurs sources de données sont requises dans une étude, le cheminement des données suit différentes étapes. La première est l'intégration de données, notamment en combinant de multiples sources de données sous une interface d'accès unifiée. Viennent ensuite des exploitations diverses comme l'exploration au travers de scripts ou de visualisations, les transformations et les analyses. La littérature a montré de nombreuses initiatives de systèmes informatiques de partage et d'uniformisation de données. Toutefois, la complexité induite par ces multiples systèmes continue de contraindre la diffusion des données biologiques. En effet, la production toujours plus forte de données, leur gestion et les multiples aspects techniques font obstacle aux chercheurs qui veulent exploiter ces données et les mettre à disposition. L'hypothèse testée pour cette thèse est que l'exploitation large des données pouvait être actualisée avec des outils et méthodes récents, notamment un outil nommé Elasticsearch. Cet outil devait permettre de combler les besoins déjà identifiés dans la littérature, mais également devait permettre d'ajouter des considérations plus récentes comme le partage facilité des données. La construction d'une architecture basée sur cet outil de gestion de données permet de les partager selon des standards d'interopérabilité. La diffusion des données selon ces standards peut être autant appliquée à des opérations de fouille de données biologiques que pour de la transformation et de l'analyse de données. Les résultats présentés dans le cadre de ma thèse se basent sur des outils pouvant être utilisés par l'ensemble des chercheurs, en biologie mais aussi dans d'autres domaines. Il restera cependant à les appliquer et à les tester dans les divers autres domaines afin d'en identifier précisément les limites. / In biology, data appear at all stages of projects, from study preparation to publication of results. However, many aspects limit their use. The volume, the speed of production and the variety of data produced have brought biology into an era dominated by the phenomenon of "Big Data" (or massive data). Since 1980 and in order to organize the generated data, the scientific community has produced numerous data repositories. These repositories can contain data of various biological elements such as genes, transcripts, proteins and metabolites, but also other concepts such as toxins, biological vocabulary and scientific publications. Storing all of this data requires robust and durable hardware and software infrastructures. To date, due to the diversity of biology and computer architectures present, there is no centralized repository containing all the public databases in biology. Many existing repositories are scattered and generally self-managed by research teams that have published them. With the rapid evolution of information technology, data sharing interfaces have also evolved from file transfer protocols to data query interfaces. As a result, access to data set dispersed across the many repositories is disparate. This diversity of access requires the support of automation tools for data retrieval. When multiple data sources are required in a study, the data flow follows several steps, first of which is data integration, combining multiple data sources under a unified access interface. It is followed by various exploitations such as exploration through scripts or visualizations, transformations and analyses. The literature has shown numerous initiatives of computerized systems for sharing and standardizing data. However, the complexity induced by these multiple systems continues to constrain the dissemination of biological data. Indeed, the ever-increasing production of data, its management and multiple technical aspects hinder researchers who want to exploit these data and make them available. The hypothesis tested for this thesis is that the wide exploitation of data can be updated with recent tools and methods, in particular a tool named Elasticsearch. This tool should fill the needs already identified in the literature, but also should allow adding more recent considerations, such as easy data sharing. The construction of an architecture based on this data management tool allows sharing data according to interoperability standards. Data dissemination according to these standards can be applied to biological data mining operations as well as to data transformation and analysis. The results presented in my thesis are based on tools that can be used by all researchers, in biology but also in other fields. However, applying and testing them in various other fields remains to be studied in order to identify more precisely their limits.
|
3 |
Les défis de la protection législative des éléments en lien avec le développement de l'intelligence artificielle embarquée dans la voiture autonomeVachon, Vanessa 13 December 2023 (has links)
Le développement de l'intelligence artificielle embarquée dans la voiture autonome se positionne dans un contexte d'une économie du big data. Cela est particulier dans la mesure où un disfonctionnement ou un entrainement des algorithmes déficients pourrait avoir un impact tragique sur la sécurité routière. Afin d'entrainer ces algorithmes d'intelligence artificielle, il faut une énorme quantité de données. Ces données sont collectées de manière continue et dans l'espace publique. De ce fait, malgré que la donnée soit au centre de l'économie, qu'elle nécessite un investissement colossal et a un impact direct sur l'efficacité finale de l'intelligence artificielle, elle ne possède aucune protection législative actuellement au Canada. Néanmoins, différentes stratégies incluant des titres de propriété intellectuelle en lien avec le développement de l'intelligence artificielle permettent d'outrepasser ce manque législatif et de former un équilibre dans la course à la voiture autonome. / The development of artificial intelligence on board the autonomous car is positioned in the context of a big data economy. This is special insofar as a malfunction or training of deficient algorithms could have a tragic impact on road safety. In order to train these artificial intelligence algorithms, it takes a huge amount of data. These data are managed continuously and in the public space. As a result, despite the fact that data is at the center of the economy, that it requires a colossal investment and a direct impact on the final efficiency of artificial intelligence, it currently has no legislative protection in Canada. However, various strategies including intellectual property rights linked to the development of artificial intelligence make it possible to overcome this legislative lack and the old balance in the race for an autonomous car.
|
Page generated in 0.1079 seconds