1 |
Entrepôts de données pour l'aide à la décision médicale: conception et expérimentationMaría Trinidad, Serna Encinas 27 June 2005 (has links) (PDF)
Les entrepôts de données intègrent les informations en provenance de différentes sources, souvent réparties et hétérogènes et qui ont pour objectif de fournir une vue globale de l'information aux analystes et aux décideurs. L'ensemble des données avec leurs historiques sert pour l'aide à la décision. La conception et la mise en œuvre d'un entrepôt se fait en trois étapes : extraction-intégration, organisation et interrogation. Dans cette thèse, nous nous intéressons aux deux dernières. Pour nous, l'organisation est une tâche complexe et délicate, pour cela, nous la divisons en deux parties : structuration et gestion des données. Ainsi, pour la structuration, nous proposons la définition d'un modèle multidimensionnel qui se compose de trois classes : Cube, Dimension et Hiérarchie. Nous proposons également un algorithme pour la sélection de l'ensemble optimal des vues à matérialiser. La gestion de données doit prendre en compte l'évolution des entrepôts. Le concept d'évolution de schéma a été introduit pour récupérer les données existantes par le biais de leur adaptation au nouveau schéma. Néanmoins, dans les systèmes qui doivent gérer des données historiques, l'évolution de schéma n'est pas suffisante et la maintenance de plusieurs schémas est requise. Pour cela, nous proposons l'utilisation des versions de schémas bitemporels pour la gestion, le stockage et la visualisation des données courantes et historisées (intensionnelles et extensionnelles). Finalement, pour l'interrogation, nous avons développé une interface graphique qui permet la génération (semi-automatique) des indicateurs. Ces indicateurs (par exemple, 'le nombre de séjours par établissement et par maladie') sont déterminés par le cadre applicatif. Nous avons eu l'opportunité de travailler dans le cadre d'un projet médical, ce qui nous a permis de vérifier et de valider notre proposition sur des données réelles.
|
2 |
Accès sémantique aux données massives et hétérogènes en santé / Semantic access to massive and heterogeneous health dataLelong, Romain 17 June 2019 (has links)
Les données cliniques sont produites par différents professionnels de santé, dans divers lieux et sous diverses formes dans le cadre de la pratique de la médecine. Elles présentent par conséquent une hétérogénéité à la fois au niveau de leur nature et de leur structure mais également une volumétrie particulièrement importante et qualifiable de massive. Le travail réalisé dans le cadre de cette thèse s’attache à proposer une méthode de recherche d’information efficace au sein de ce type de données complexes et massives. L’accès aux données cliniques se heurte en premier lieu à la nécessité de modéliser l’informationclinique. Ceci peut notamment être réalisé au sein du dossier patient informatisé ou, dans une plus large mesure, au sein d’entrepôts de données. Je propose dans ce mémoire unepreuve de concept d’un moteur de recherche permettant d’accéder à l’information contenue au sein de l’entrepôt de données de santé sémantique du Centre Hospitalier Universitaire de Rouen. Grâce à un modèle de données générique, cet entrepôt adopte une vision de l’information assimilable à un graphe de données rendant possible la modélisation de cette information tout en préservant sa complexité conceptuelle. Afin de fournir des fonctionnalités de recherche adaptées à cette représentation générique, un langage de requêtes permettant l’accès à l’information clinique par le biais des diverses entités qui la composent a été développé et implémenté dans le cadre de cette thèse. En second lieu, la massivité des données cliniques constitue un défi technique majeur entravant la mise en oeuvre d’une recherche d’information efficace. L’implémentation initiale de la preuve de concept sur un système de gestion de base de données relationnel a permis d’objectiver les limites de ces derniers en terme de performances. Une migration vers un système NoSQL orienté clé-valeur a été réalisée. Bien qu’offrant de bonnes performances d’accès atomique aux données, cette migration a également nécessité des développements annexes et la définition d’une architecture matérielle et applicative propice à la mise en oeuvre des fonctionnalités de recherche et d’accès aux données. Enfin, l’apport de ce travail dans le contexte plus général de l’entrepôt de données de santé sémantique du CHU de Rouen a été évalué. La preuve de concept proposée dans ce travail a ainsi été exploitée pour accéder aux descriptions sémantiques afin de répondre à des critères d’inclusion et d’exclusion de patients dans des études cliniques. Dans cette évaluation, une réponse totale ou partielle a pu être apportée à 72,97% des critères. De plus, la généricité de l’outil a également permis de l’exploiter dans d’autres contextes tels que la recherche d’information documentaire et bibliographique en santé. / Clinical data are produced as part of the practice of medicine by different health professionals, in several places and in various formats. They therefore present an heterogeneity both in terms of their nature and structure and are furthermore of a particularly large volume, which make them considered as Big Data. The work carried out in this thesis aims at proposing an effective information retrieval method within the context of this type of complex and massive data. First, the access to clinical data constrained by the need to model clinical information. This can be done within Electronic Health Records and, in a larger extent, within data Warehouses. In this thesis, I proposed a proof of concept of a search engine allowing the access to the information contained in the Semantic Health Data Warehouse of the Rouen University Hospital. A generic data model allows this data warehouse to view information as a graph of data, thus enabling to model the information while preserving its conceptual complexity. In order to provide search functionalities adapted to this generic representation of data, a query language allowing access to clinical information through the various entities of which it is composed has been developed and implemented as a part of this thesis’s work. Second, the massiveness of clinical data is also a major technical challenge that hinders the implementation of an efficient information retrieval. The initial implementation of the proof of concept highlighted the limits of a relational database management systems when used in the context of clinical data. A migration to a NoSQL key-value store has been then completed. Although offering good atomic data access performance, this migration nevertheless required additional developments and the design of a suitable hardware and applicative architecture toprovide advanced search functionalities. Finally, the contribution of this work within the general context of the Semantic Health Data Warehouse of the Rouen University Hospital was evaluated. The proof of concept proposed in this work was used to access semantic descriptions of information in order to meet the criteria for including and excluding patients in clinical studies. In this evaluation, a total or partial response is given to 72.97% of the criteria. In addition, the genericity of the tool has also made it possible to use it in other contexts such as documentary and bibliographic information retrieval in health.
|
3 |
Observations bruitées d'une diffusion. Estimation, filtrage, applications.Favetto, Benjamin 30 September 2010 (has links) (PDF)
Les modèles aléatoires basés sur l'observation bruitée de diffusions discrétisées sont couramment utilisés en biologie ou en finance pour rendre compte de la présence d'erreur (ou bruit) entâchant la mesure d'un phénomène dont le comportement est dirigé par une équation différentielle stochastique. Deux questions statistiques sont liées à ces modèles : l'estimation d'un paramètre theta déterminant le comportement de la diffusion cachée, et le calcul du filtre optimal, ou d'une approximation. La première partie de cette thèse porte sur l'étude d'un modèle d'Ornstein-Uhlenbeck bidimensionnel partiellement observé et bruité, en lien avec l'estimation de paramètres de microvascularisation pour un modèle pharmacocinétique stochastique. Plusieurs résultats sur données médicales sont présentés. Dans la seconde partie, des estimateurs pour les paramètres de la diffusion cachée, sont obtenus dans un contexte de données haute fréquence, comme minima de fonctions de contraste ou comme zéros de fonctions d'estimation basées sur des moyennes locales d'observations bruitées. On montre en particulier la consistence et la normalité asymptotique de ces estimateurs. Enfin, la troisième partie étudie la tension de la suite des variances asymptotiques obtenues dans le théorème central limite associé à l'approximation particulaire du filtre et de la prédiction dans un modèle de Markov caché.
|
4 |
Un système de médiation distribué pour l'e-santé et l'épidémiologie / A shared mediation system for E-health and epidemiologyCipière, Sébastien 12 July 2016 (has links)
À ce jour, les mesures de risque des cancers ou d’efficacité de leur suivi, se font à partir de recueils de données médicales spécifiques initiés par les médecins épidémiologistes. Ces recueils disposent néanmoins de certaines limites : perte d’information, biais de déclaration, absence de données pour un risque non connu, biais de mesure (par exemple pour les données de nature médico-économiques). Le partage sécurisé de données médicales entre différentes structures médicales publiques et/ou privées est à ce jour en pleine mutation technologique. Les technologies proposées doivent rendre possible un partage électronique et sécurisé de ces données de manière à les rendre disponible à tout instant dans le cadre de l’observation sanitaire à l’évaluation de prises en charge ou de politiques de santé. Pour répondre à ces besoins, l’infrastructure GINSENG se base sur des informations produites dans le cadre des soins, sans nouvelles modalités de recueil, permettant à la fois une vitesse d’accès à l’information et une exhaustivité accrue. Ce recueil se fait par ailleurs avec de meilleures garanties d’anonymat et un chaînage de l’information médicale pour chaque patient. Une autorisation de la CNIL a été octroyée à l’infrastructure informatique du projet ainsi qu’à son utilisation pour le suivi des cancers en octobre 2013. Depuis le portail web e-ginseng.com, les médecins habilités s’authentifient grâce à leur Carte de Professionnel de Santé (CPS). Chaque patient, dont les données médicales sont réparties dans les établissements de santé, est identifié avec son accord, par les attributs suivants : nom, prénom, année et mois de naissance ainsi que son code postal de résidence avant d’être assigné à un numéro d’identification unique et anonyme. La mise à jour des données médicales de chaque patient est réalisée une fois par semaine ; chaque médecin peut alors consulter toutes les informations médicales relatives à chaque patient par une simple connexion au réseau. Ces informations lui apparaissent sous forme d’une arborescence d’évènements médicaux. Par exemple, un médecin chargé du suivi des patients dans le cadre du dépistage organisé pourra accéder directement depuis le portail web aux informations médicales dont il aura besoin pour établir une fiche médicale exhaustive du parcours du patient pour lequel un cancer aurait été détecté ou bien une suspicion de cancer qui se serait avérée négative suite à plusieurs examens médicaux. Un médecin épidémiologiste peut également réaliser des requêtes statistiques d’envergure sur les données médicales afin de répondre à des questions d’intérêt en santé publique. Pour aller plus loin, les requêtes épidémiologiques lancées sur les données médicales peuvent être couplées à des informations d’utilité publique recueillies sur d’autres bases de données en accès libre sur internet. L’infrastructure informatique GINSENG est actuellement déployée pour le suivi des cancers en région Auvergne entre les structures de gestion du dépistage organisé du cancer (SGDO) et le cabinet d’anatomie et cytologie pathologiques (ACP) Sipath-Unilabs. Le recours à un hébergeur de données de santé (HADS), nommé Informatique de sécurité (IDS), est également proposé pour le stockage des informations confidentielles des patients. Cette infrastructure permet actuellement de collecter toutes les informations médicales d’intérêt pour le suivi des cancers et l’évaluation des pratiques médicales. Les équipes de bio-statistiques et de santé publique du CHU de Clermont-Ferrand établissent actuellement les analyses épidémiologiques d’intérêt à partir des données collectées par le réseau. / The implementation of a grid network to support large-scale epidemiology analysis (based on distributed medical data sources) and medical data sharing require medical data integration and semantic alignment. In this thesis, we present the GINSENG (Global Initiative for Sentinel eHealth Network on Grid) network that federates existing Electronic Health Records through a rich metamodel (FedEHR), a semantic data model (SemEHR) and distributed query toolkits. A query interface based on the VIP platform, and available through the e-ginseng.com web portal helps medical end-users in the design of epidemiological studies and the retrieval of relevant medical data sets.
|
5 |
Inférence statistique dans le modèle de mélange à risques proportionnels / Statistical inference in mixture of proportional hazards modelsBen elouefi, Rim 05 September 2017 (has links)
Dans ce travail, nous nous intéressons à l'inférence statistique dans deux modèles semi-paramétrique et non-paramétrique stratifiés de durées de vie censurées. Nous proposons tout d'abord une statistique de test d'ajustement pour le modèle de régression stratifié à risques proportionnels. Nous établissons sa distribution asymptotique sous l'hypothèse nulle d'un ajustement correct du modèle aux données. Nous étudions les propriétés numériques de ce test (niveau, puissance sous différentes alternatives) au moyen de simulations. Nous proposons ensuite une procédure permettant de stratifier le modèle à 1isques proportionnels suivant un seuil inconnu d'une variable de stratification. Cette procédure repose sur l'utilisation du test d'ajustement proposé précédemment. Une étude de simulation exhaustive est conduite pour évaluer les pe1fonnances de cette procédure. Dans une seconde partie de notre travail, nous nous intéressons à l'application du test du logrank stratifié dans un contexte de données manquantes (nous considérons la situation où les strates ne peuvent être observées chez tous les individus de l'échantillon). Nous construisons une version pondérée du logrank stratifié adaptée à ce problème. Nous en établissons la loi limite sous l'hypothèse nulle d'égalité des fonctions de risque dans les différents groupes. Les propriétés de cette nouvelle statistique de test sont évaluée au moyen de simulations. Le test est ensuite appliqué à un jeu de données médicales. / In this work, we are interested in the statistical inference in two semi-parametric and non-parametric stratified models for censored data. We first propose a goodnessof- fit test statistic for the stratified proportional hazards regression model. We establish its asymptotic distribution under the null hypothesis of a correct fit of the model. We investigate the numerical properties of this test (level, power under different alternatives) by means of simulations. Then, we propose a procedure allowing to stratify the proportional hazards model according to an unknown threshold in a stratification variable. This procedure is based on the goodness-of-fit test proposed earlier. An exhaustive simulation study is conducted to evaluate the performance of this procedure. In a second part of our work, we consider the stratified logrank test in a context of missing data (we consider the situation where strata can not be observed on all sample individuals). We construct a weighted version of the stratified logrank, adapted to this problem. We establish its asymptotic distribution under the null hypothesis of equality of the hazards functions in the different groups. The prope1ties of this new test statistic are assessed using simulatious. Finally, the test is applied to a medical dataset.
|
6 |
Ingéniérie des Systèmes d'Information Coopératifs, Application aux Systèmes d'Information HospitaliersAzami, Ikram El 20 March 2012 (has links)
Dans cette thèse, nous traitons les systèmes d’information hospitaliers (SIH), nous analysons leurs problématiques de conception, d’interopérabilité et de communication, dans l’objectif de contribuer à la conception d’un SIH canonique, coopératif, et communicant, ainsi de modéliser les échanges entre ses composants et également avec les autres systèmes impliqués dans la prise en charge du patient dans un réseau de soin. Nous proposons une structure et un modèle de conception d’un SIH canonique en se basant sur trois concepts principaux responsables de la production de l’information médicale, à savoir, le cas pathologique, le Poste de Production de l’Information Médicale (PPIM) et l’activité médicale elle même. Cette dernière, étant modélisée sur la notion d’arbre, permettra une meilleure structuration du processus de soin.Autant, dans l’optique d'assurer la continuité de soins, nous fournissons un modèle d’échange de données médicales à base du standard XML. Ce modèle consiste en un ensemble de données pertinentes organisées autours de cinq catégories : les données du patient, les données sur les antécédents du patient, les données de l’activité médicale, les données des prescriptions médicales et les données sur les documents médicaux (images, compte rendu…).Enfin, nous décrivons une solution d’intégration des systèmes d’information hospitaliers. La solution est inspirée de l’ingénierie des systèmes d’information coopératifs et consiste en une architecture de médiation structurée en trois niveaux : le niveau système d’information, le niveau médiation, et le niveau utilisateur. L’architecture propose une organisation modulaire des systèmes d'information hospitaliers et contribue à satisfaire l’intégration des données, des fonctions et du workflow de l’information médicale. / In this thesis, we deal with hospital information systems (HIS), we analyze their design issues, interoperability and communication, with the aim of contributing to the design of a canonical, cooperative, and communicative HIS, and model the exchanges between its components and also with other systems involved in the management of patient in a healthcare network.We propose a structure and a conceptual model of a canonical HIS based on three main concepts involved in the production of healthcare data, namely, the pathological case, the Production Post of Healthcare Data (PPHD) and medical activity itself. The latter, being modeled as a tree, will allow better structuring of the care process.However, in view of ensuring continuity of care, we provide an XML-based model for exchanging medical data. This model consists of a set of relevant data organized around five categories: patient data, data on patient history, data of medical activity, data of medical prescriptions and medical records data (images, reporting ...).Finally, we describe a solution for integrating hospital information systems. The solution is inspired by the engineering of cooperatives information systems and consists of mediation-based architecture, structured into three levels: the level of information systems, the level of mediation, and the user level. The architecture offers a modular organization of hospital information systems and helps to insure data, function and workflow integration.
|
7 |
Classification sur données médicales à l'aide de méthodes d'optimisation et de datamining, appliquée au pré-screening dans les essais cliniquesJacques, Julie 02 December 2013 (has links) (PDF)
Les données médicales souffrent de problèmes d'uniformisation ou d'incertitude, ce qui les rend difficilement utilisables directement par des logiciels médicaux, en particulier dans le cas du recrutement pour les essais cliniques. Dans cette thèse, nous proposons une approche permettant de palier la mauvaise qualité de ces données à l'aide de méthodes de classification supervisée. Nous nous intéresserons en particulier à 3 caractéristiques de ces données : asymétrie, incertitude et volumétrie. Nous proposons l'algorithme MOCA-I qui aborde ce problème combinatoire de classification partielle sur données asymétriques sous la forme d'un problème de recherche locale multi-objectif. Après avoir confirmé les apports de la modélisation multi-objectif dans ce contexte, nous calibrons MOCA-I et le comparons aux meilleurs algorithmes de classification de la littérature, sur des jeux de données réels et asymétriques de la littérature. Les ensembles de règles obtenus par MOCA-I sont statistiquement plus performants que ceux de la littérature, et 2 à 6 fois plus compacts. Pour les données ne présentant pas d'asymétrie, nous proposons l'algorithme MOCA, statistiquement équivalent à ceux de la littérature. Nous analysons ensuite l'impact de l'asymétrie sur le comportement de MOCA et MOCA-I, de manière théorique et expérimentale. Puis, nous proposons et évaluons différentes méthodes pour traiter les nombreuses solutions Pareto générées par MOCA-I, afin d'assister l'utilisateur dans le choix de la solution finale et réduire le phénomène de sur-apprentissage. Enfin, nous montrons comment le travail réalisé peut s'intégrer dans une solution logicielle.
|
8 |
L'encadrement juridique de la gestion électronique des données médicales. / Legal framework for the electronic management of medical dataEtien-Gnoan, N'Da Brigitte 18 December 2014 (has links)
La gestion électronique des données médicales consiste autant dans le simple traitement automatisé des données personnelles que dans le partage et l'échange de données relatives à la santé. Son encadrement juridique est assuré, à la fois, par les règles communes au traitement automatisé de toutes les données personnelles et par celles spécifiques au traitement des données médicales. Cette gestion, même si elle constitue une source d'économie, engendre des problèmes de protection de la vie privée auxquels le gouvernement français tente de faire face en créant l'un des meilleurs cadres juridiques au monde, en la matière. Mais, de grands chantiers comme celui du dossier médical personnel attendent toujours d'être réalisés et le droit de la santé se voit devancer et entraîner par les progrès technologiques. Le développement de la télésanté bouleverse les relations au sein du colloque singulier entre le soignant et le soigné. L'extension des droits des patients, le partage de responsabilité, l'augmentation du nombre d'intervenants, le secret médical partagé constituent de nouveaux enjeux avec lesquels il faut, désormais compter. Une autre question cruciale est celle posée par le manque d'harmonisation des législations augmentant les risques en cas de partage transfrontalier de données médicales / The electronic management of medical data is as much in the simple automated processing of personal data in the sharing and exchange of health data . Its legal framework is provided both by the common rules to the automated processing of all personal data and those specific to the processing of medical data . This management , even if it is a source of economy, creates protection issues of privacy which the French government tries to cope by creating one of the best legal framework in the world in this field. However , major projects such as the personal health record still waiting to be made and the right to health is seen ahead and lead by technological advances . The development of e-health disrupts relationships within one dialogue between the caregiver and the patient . The extension of the rights of patients , sharing responsibility , increasing the number of players , the shared medical confidentiality pose new challenges with which we must now count. Another crucial question is posed by the lack of harmonization of legislation increasing the risks in cross-border sharing of medical
|
Page generated in 0.0533 seconds