Global ETD Search

11	IXIA (IndeX-based Integration Approach) A Hybrid Approach to Data Integration Kermanshahani, Shokoh 10 July 2009 (has links) (PDF) Aujourd'hui, il existe un nombre important et croissant de sources de données, qui peuvent être des documents et des données structurées ou semi-structurées. En général, aussi bien les documents que les bases de données sont autonomes et gérés par des systèmes différents. D'autre part, beaucoup de ces sources sont reliées tout en étant sémantiquement hétérogènes : elles modélisent la même réalité externe tout en utilisant des concepts et des structures distincts. <br />Or, les organisations et les entreprises qui sont confrontées à de telles sources de données ont besoin d'en avoir une vision homogène et cohérente. La conséquence est qu'il est nécessaire de les intégrer et de disposer d'un système qui gère ces données.<br /><br />L'objectif d'un système d'intégration des données est de proposer une interface homogène pour interroger plusieurs sources, qui peuvent être hétérogènes et autonomes. Derrière une telle interface il y a plusieurs défis, parmi lesquels nous soulignons l'hétérogénéité structurelle et sémantique des sources de données, la fragmentation des données, le traitement et l'optimisation des requêtes. <br /><br />Il existe de nombreux travaux qui présentent des approches distinctes pour l'intégration des données, et chaque approche propose des solutions spécifiques à chacun des problèmes évoqués. On considère en général que ces approches appartiennent à deux grandes catégories : l'approche matérialisée et l'approche virtuelle. Cependant, on peut aussi considérer une troisième approche, dite hybride, qui propose qu'une partie des données du système intégré soit matérialisée et qu'une autre partie des données soit virtuelle.<br /><br />Dans cette thèse, nous proposons une architecture hybride pour un système d'intégration de sources de données hétérogènes, qui vise à étendre l'optimisation des requêtes à toutes les requêtes du système d'intégration. Elle permet aussi de fournir un mécanisme flexible pour traiter la mise à jour des données afin de tolérer les différentes caractéristiques des sources et de leurs données.<br /><br />Cette approche est basée sur un système d'indexation d'objets multicritères au niveau de la médiation. Dans notre approche, nous utilisons le système Osiris et son mécanisme d'indexation. Osiris est un système de gestion de bases de données et de bases de connaissance orienté objet, où une famille d'objets est définie par une hiérarchie de vues " object-preserving ". Le système d'indexation d'Osiris est un système multi-attributs, et notre approche propose la matérialisation du sous-ensemble des données directement reliées aux attributs d'indexation. <br /><br />Le système d'intégration des données proposé, IXIA, matérialise la structure d'indexation des objets sous-jacents au niveau du médiateur. Les Oids des objets, leur correspondance avec les objets des sources et les données nécessaires pour la mise à jour de l'indexation des données sont aussi matérialisées. <br /><br />Cette approche offre une plus grande flexibilité de rafraîchissement des données qu'une approche entièrement matérialisée, et une meilleure optimisation des requêtes que les méthodes entièrement virtuelles. Intégration des données Entrepôt de données Hétérogénéité Médiateur Approches Hybrides Vues
12	Intégration holistique et entreposage automatique des données ouvertes / Holistic integration and automatic warehousing of open data Megdiche Bousarsar, Imen 10 December 2015 (has links) Les statistiques présentes dans les Open Data ou données ouvertes constituent des informations utiles pour alimenter un système décisionnel. Leur intégration et leur entreposage au sein du système décisionnel se fait à travers des processus ETL. Il faut automatiser ces processus afin de faciliter leur accessibilité à des non-experts. Ces processus doivent pallier aux problèmes de manque de schémas, d'hétérogénéité structurelle et sémantique qui caractérisent les données ouvertes. Afin de répondre à ces problématiques, nous proposons une nouvelle démarche ETL basée sur les graphes. Pour l'extraction du graphe d'un tableau, nous proposons des activités de détection et d'annotation automatiques. Pour la transformation, nous proposons un programme linéaire pour résoudre le problème d'appariement holistique de données structurelles provenant de plusieurs graphes. Ce modèle fournit une solution optimale et unique. Pour le chargement, nous proposons un processus progressif pour la définition du schéma multidimensionnel et l'augmentation du graphe intégré. Enfin, nous présentons un prototype et les résultats d'expérimentations. / Statistical Open Data present useful information to feed up a decision-making system. Their integration and storage within these systems is achieved through ETL processes. It is necessary to automate these processes in order to facilitate their accessibility to non-experts. These processes have also need to face out the problems of lack of schemes and structural and sematic heterogeneity, which characterize the Open Data. To meet these issues, we propose a new ETL approach based on graphs. For the extraction, we propose automatic activities performing detection and annotations based on a model of a table. For the transformation, we propose a linear program fulfilling holistic integration of several graphs. This model supplies an optimal and a unique solution. For the loading, we propose a progressive process for the definition of the multidimensional schema and the augmentation of the integrated graph. Finally, we present a prototype and the experimental evaluations. Données ouvertes ETL Graphes Détection tableaux Intégration holistique Entrepôt de données Open data ETL Graphs Table detection Holistic integration Data warehouses
13	Infrastructure adaptable pour les entrepots de données Benitez Guerrero, Edgard-Iván 26 September 2002 (has links) (PDF) Un entrepôt de données est une collection de données historiqucs exploitées par les applications d'aide à la décision. Il centralise des données d'intérêts pour un groupe d'utilisateurs afin de rendre leur accès rapide, peu coûteux et efficace. Dans cette thèse, noue nous intéressons à l'évolution des entrepôts dédiée aux applications d'analyse inultidiinerisioriilelle. Voue proposons une infrastructure pour la construction de gestionnaires d'entrepôt autorisant la création et l'évolution d'entretrepôts de données. Un gestionnaire d'entrepôt autorise la création du shéma d'un entrepôt et fournit les moyens pour le faire évoluer. Il offre également des outils pour construire l'entrepôt à partir des données provenant de multiples sources hétérogènes et autonomes. Il se base sur un modèle de données multidimensionnelles, pivot permettant d'un côté la manipulation du schéma à un niveau abstrait, et d'un autre côté, la fusion de données hétérogènes. Nous avons spécifié un modèle de données utilisé pour la définition de schemas multidimensionnels. Nous proposons un ensemble de primitives d'évolution de schéma qui assurent la cohérence d'un tel schéma entre deux évolutions successives. Nous avons proposé MDL, un langage associé à notre modèle, qui offre des expressions pour créer et faire évoluer des schémas multidimensionnels. Pour valider notre approche, nous avons implanté un prototype de gestionnaire d'entrepôt. Il assure la création et l'évolution d'un entrepôt de données relationnelles. Ce gestionnaire, développé en Java, intègre des données au format XML provenant de sources hétérogènes. Entrepôt de données modèle de données multidimensionnelles langage d'évolution évolution de schéma construction d'entrepôts XML
14	Vers l'OLAP sémantique pour l'analyse en ligne des données complexes Loudcher, Sabine 29 June 2011 (has links) (PDF) L'analyse en ligne OLAP permet une navigation interactive dans les données, une visualisation rapide de l'information et une exploration de la structure multidimensionnelle des données. Une des limites est de se restreindre à des aspects exploratoires et navigationnels. De plus, avec l'avènement des données complexes (données multi-format et/ou multi-structure et/ou multi-source et/ou multi-modale et/ou multi-version), l'analyse en ligne doit s'adapter à la nature spécifique de ces données tout en gardant l'esprit de l'OLAP. Les opérateurs OLAP sont définis pour des données classiques et sont souvent inadaptés quand il s'agit de données complexes par exemple composées de textes, images, son ou vidéos. Les limites de l'OLAP ainsi que la spécificité des données complexes nécessitent une évolution ou adaptation de l'OLAP. Il devient nécessaire de : (1) enrichir les possibilités de l'analyse OLAP en la dotant de nouvelles possibilités ; (2) créer une analyse en ligne adaptée aux données complexes ; (3) faire évoluer l'OLAP vers une analyse sémantique des données. Dans cette vaste problématique, nous choisissons de traiter les questions d'agrégation et visualisation des données complexes, de réorganisation du cube pour identifier des régions d'analyse intéressantes, et d'étendre l'OLAP à des possibilités d'explication et de prédiction. Pour toutes ces questions, nous essayons également de tenir compte de la sémantique véhiculée par les données. Pour apporter des premières solutions, nous orientons vers une combinaison des principes de l'OLAP, de la fouille de données et de la recherche d'information. Afin d'introduire une analyse explicative dans l'OLAP, nous faisons une recherche guidée de règles d'association dans le cube. Cela nous conduit à modifier la définition du support et de la confiance d'une règle. Les arbres de régression nous permettent de proposer à l'utilisateur de faire de la prédiction dans le cube et d'avoir ainsi une démarche de type What If Analysis. Pour l'analyse des données complexes, deux méthodes factorielles (AFC et ACM) rendent possible la visualisation des faits dans un cube et la détection de régions intéressantes en réorganisant les dimensions du cube. Nous proposons également une agrégation sémantique des faits et une nouvelle hiérarchie de dimension construite automatiquement grâce aux principes d'une méthode de classification (CAH). Nos propositions sont une première démonstration de la faisabilité de combiner l'OLAP à d'autres techniques comme la fouille de données et la recherche d'information pour faire significativement évoluer l'analyse en ligne et s'adapter aux données complexes. L'OLAP a commencé à s'adapter à leur structure et à leur spécificité (XOLAP - XML OLAP, SOLAP - spatial OLAP). Mais il faut aller au delà et nous pensons qu'un des défis est d'extraire et d'analyser (en ligne) la sémantique contenue dans les données complexes. Ce point constitue un véritable verrou scientifique mais qui est que partiellement abordé par la communauté scientifique. Il faudrait également identifier tous les problèmes posés par les données complexes et ce quels que soient leur nature, contexte ou spécificités. Nous voulons poursuivre nos travaux dans cette voie et faire évoluer l'OLAP vers une nouvelle génération d'analyse en ligne : l'OLAP sémantique. Les problèmes majeurs à traiter seront comment : (1) modéliser toutes les formes de données complexes, leur sémantique et leurs liens ; (2) analyser en ligne les données complexes ; (3) Intégrer les connaissances de l'utilisateur dans le processus de l'analyse ? entrepôt de données cubes de données analyse en ligne données complexes fouille de données recherche d'information OLAP sémantique
15	Modélisation et manipulation des systèmes OLAP : de l'intégration des documents à l'usager Teste, Olivier 07 December 2009 (has links) (PDF) Mes travaux de recherche se situent dans le domaine de l'informatique décisionnelle, et portent en particulier sur les entrepôts de données (Data Warehouse) et l'analyse en ligne (OLAP, On-Line Analytical Processing). L'originalité de la démarche scientifique suivie par ces recherches réside dans une double orientation consistant à proposer des mécanismes de description couplés aux mécanismes de manipulation des données entreposées dans les systèmes OLAP. Les travaux que je mène depuis 2001 s'articulent en trois axes :  la modélisation et la manipulation des systèmes OLAP,  l'intégration des documents dans les systèmes OLAP, et  la prise en compte de l'usager par la personnalisation des systèmes OLAP. Malgré de nombreux travaux sur la modélisation et la manipulation dans les systèmes OLAP, il n'existe ni standard, ni consensus, que ce soit au niveau des modèles multidimensionnels ou des opérateurs OLAP. Mes premiers travaux ont donc consisté à définir un modèle conceptuel de représentation des données pour les systèmes OLAP basé sur trois concepts clairement formalisés. Ce socle homogène a permis dans un second temps de définir les manipulations OLAP au travers d'un noyau minimum fermé d'opérateurs OLAP. Ce fondement théorique nous permet aujourd'hui d'élaborer des langages assertionels et/ou graphiques dont la complétude au regard de l'algèbre OLAP garanti la couverture du modèle en constellation et la performance des manipulations incrémentales. Pour rendre opérant les systèmes OLAP sur l'ensemble des données d'une organisation, j'ai orienté mes recherches sur l'intégration des documents. Mes recherches ont débouché sur la proposition d'un modèle de représentation unificateur en galaxie. Ce modèle repose sur un unique mécanisme de description des données et supporte les documents dans la globalité de leurs spécificités (contenu, structure, métadonnées). Le défis essentiel a été de maintenir opérants les principes de navigation et d'interrogation des données définis par l'algèbre OLAP. Pour cela, une contribution importante de ces recherches est la spécification de mécanismes d'agrégation textuelle (TOP_KW et AVG_KW) permettant d'assurer des forages dans des amas multidimensionnels de données textuelles. Les systèmes OLAP se sont principalement attachés à faciliter l'accès aux données décisionnelles laissant la charge aux usagers d'expertiser les données par des restitutions destinées à un groupe d'usagers supposés partager des besoins identiques. J'ai donc élargi mes recherches à la personnalisation des systèmes OLAP, par une approche quantitative qui permet à l'usager de définir ses préférences dans une constellation et d'ancrer des annotations qui matérialisent ses analyses et son expertise décisionnelle autorisant ainsi une composante collaborative dans le système OLAP. Enfin, j'ai complété ces propositions par une approche qualitative qui exploite les préférences exprimées par des relations d'ordre pour définir un processus générique autorisant trois types de recommandations contextuelles lors des manipulations OLAP : alternatives, par anticipation et enrichissement. Ces recherches ont fait l'objet de développements dans trois prototypes et s'inscrivent dans le cadre de différents projets et collaborations industrielles notamment dans le milieu médical (Hôpitaux de Paris, Institut Claudius Regaud). Elles ont également donné lieu à plusieurs thèses de doctorat. Système Décisionnel Entrepôt de données Modélisation Multidimensionnelle Algèbre et Manipulation OLAP Personnalisation Entrepôt de Documents
16	Entrepôts de données pour l'aide à la décision médicale: conception et expérimentation María Trinidad, Serna Encinas 27 June 2005 (has links) (PDF) Les entrepôts de données intègrent les informations en provenance de différentes sources, souvent réparties et hétérogènes et qui ont pour objectif de fournir une vue globale de l'information aux analystes et aux décideurs. L'ensemble des données avec leurs historiques sert pour l'aide à la décision. La conception et la mise en œuvre d'un entrepôt se fait en trois étapes : extraction-intégration, organisation et interrogation. Dans cette thèse, nous nous intéressons aux deux dernières. Pour nous, l'organisation est une tâche complexe et délicate, pour cela, nous la divisons en deux parties : structuration et gestion des données. Ainsi, pour la structuration, nous proposons la définition d'un modèle multidimensionnel qui se compose de trois classes : Cube, Dimension et Hiérarchie. Nous proposons également un algorithme pour la sélection de l'ensemble optimal des vues à matérialiser. La gestion de données doit prendre en compte l'évolution des entrepôts. Le concept d'évolution de schéma a été introduit pour récupérer les données existantes par le biais de leur adaptation au nouveau schéma. Néanmoins, dans les systèmes qui doivent gérer des données historiques, l'évolution de schéma n'est pas suffisante et la maintenance de plusieurs schémas est requise. Pour cela, nous proposons l'utilisation des versions de schémas bitemporels pour la gestion, le stockage et la visualisation des données courantes et historisées (intensionnelles et extensionnelles). Finalement, pour l'interrogation, nous avons développé une interface graphique qui permet la génération (semi-automatique) des indicateurs. Ces indicateurs (par exemple, 'le nombre de séjours par établissement et par maladie') sont déterminés par le cadre applicatif. Nous avons eu l'opportunité de travailler dans le cadre d'un projet médical, ce qui nous a permis de vérifier et de valider notre proposition sur des données réelles. entrepôt de données modèle multidimensionnel vues matérialisées versions de schémas bitemporels gestionnaire d'évolution interface graphique données médicales
17	Description des phénotypes cliniques des patientes diagnostiquées pour un cancer de l'ovaire de type épithélial à partir d'un entrepôt de données cliniques : un soutien pour la génomique fonctionnelle Normandeau-Babin, Vincent January 2013 (has links) Ce projet de maîtrise vise à décrire les phénotypes cliniques des patientes diagnostiquées pour un cancer de l'ovaire de type épithélial afin de soutenir la génomique fonctionnelle. Pour réaliser ce projet de recherche, quatre objectifs ont été réalisés : 1) proposer un modèle conceptuel décrivant les phénotypes cliniques des patientes à partir de données médicales enregistrées dans un entrepôt de données cliniques ; 2) à partir du modèle conceptuel, créer deux outils informatiques, dont l'un, le Master Specimen File (MSF) qui extrait des variables du modèle conceptuel issues des rapports de chirurgie et de pathologie des patientes (p. ex. histologie, stade, grade, etc.) afin de confirmer leurs diagnostics et de décrire leurs tissus de recherche selon des caractéristiques tissulaires, cellulaires et moléculaires. L'autre, le Clinical Response Database (CRD) , permet de visualiser d'autres variables (p. ex. traitements, résultats d'imagerie médicale et marqueurs tumoraux) pour déterminer l'ordre des traitements, les réponses aux traitements ainsi que les survies des patientes; 3) utiliser les deux outils informatiques au Centre hospitalier universitaire de Sherbrooke (CHUS) pour décrire les phénotypes cliniques de patientes recrutées pour le Laboratoire de génomique fonctionnelle de l'Université de Sherbrooke (LGFUS) ; et 4) réanalyser les résultats d'une étude publiée en 2009 par le LGFUS en effectuant un nouveau regroupement des patientes selon leurs phénotypes cliniques. L'utilisation des outils informatiques au CHUS a permis de décrire les phénotypes cliniques de 106 patientes diagnostiquées pour un cancer de l'ovaire de type épithélial. Ces outils ont permis de sélectionner les patientes dont les phénotypes cliniques correspondent à des critères de sélection établis par le LGFUS. Cette sélection a permis d'effectuer la réanalyse des résultats d'une étude génomique et de constater que les patientes ayant des phénotypes cliniques hétérogènes ont des moyennes de ratio d'événements d'épissage alternatif de gènes statistiquement différentes. De plus, cette reanalyse a permis d'obtenir de nouveaux résultats statistiquement significatifs et d'apporter de nouvelles hypothèses concernant le gène CDCA1 dans le cadre du cancer de l'ovaire de type épithélial. Recherche translationnelle Prise en charge médicale Phénotype clinique Outils informatiques Modèle conceptuel Génomique fonctionnelle Entrepôt de données cliniques Cancer de l'ovaire
18	Sécurisation des entrepôts de données : de la conception à l’exploitation / Securing data warehouses : from design to exploitation Triki, Salah 24 December 2013 (has links) Les entrepôts des données centralisent des données critiques et sensibles qui sont nécessaires pour l'analyse et la prise de décisions. La centralisation permet une gestion efficace et une administration aisée, par contre de point de vu sécurité, centraliser les données critiques dans un seul endroit ; l'entrepôt de données, attire la convoitise des pirates. En 2011 par exemple, les entreprises SONY et RSA, ont été victime d'attaques qui ont engendré des pertes considérables. En plus, les entreprises sont de plus en plus dépendantes des entrepôts des données du faite qu'ils génèrent de plus en plus de données. Le cabinet d'analyse IDC indique que les quantités des données générées par les entreprise sont en train d'exploser et que en 2015, la quantité des données atteindra 8 billion TB. La sécurisation des entrepôts de données est donc primordiale. Dans ce contexte, nos travaux de thèse consiste a proposer une architecture pour la sécurisation des entrepôts de données de la conception à l'exploitation. Au niveau conceptuel, nous proposons un profil UML pour la définition des autorisations et les niveaux de sensibilités des données, une méthode pour la prévention des inférences, et des règles pour analyser la cohérence des autorisations. Au niveau exploitation, une méthode pour renforcer les autorisations définis au niveau conception, une méthode pour la prévention des inférences, une méthode pour respecter les contraintes d'additivités.Afin de valider l'architecture que nous proposons et montrer son applicabilité, nous l'avons tester le benchmark Star Schema Benchmark. / Companies have to make strategic decisions that involve competitive advantages. In the context of decision making, the data warehouse concept has emerged in the nineties. A data warehouse is a special kind of database that consolidates and historizes data from the operational information system of a company. Moreover, a company's data are proprietary and sensitive and should not be sold without controls. Indeed, some data are personal and may harm their owners when they are disclosed, for example, medical data, religious or ideological beliefs. Thus, many governments have enacted laws to protect the private lives of their citizens. Faced with these laws, organizations are, therefore, forced to implement strict security measures to comply with these laws. Our work takes place in the context of secure data warehouses that can be addressed at two levels: (i) design that aims to develop a secure data storage level, and (ii) operating level, which aims to strengthen the rights access / user entitlements, and any malicious data to infer prohibited from data it has access to user banned. For securing the design level, we have made three contributions. The first contribution is a specification language for secure storage. This language is a UML profile called SECDW+, which is an extended version of SECDW for consideration of conflicts of interest in design level. SECDW is a UML profile for specifying some concepts of security in a data warehouse by adopting the standard models of RBAC security and MAC. Although SECDW allows the designer to specify what role has access to any part of the data warehouse, it does not take into account conflicts of interest. Thus, through stereotypes and tagged values , we extended SECDW to allow the definition of conflict of interest for the various elements of a multidimensional model. Our second contribution, at this level, is an approach to detect potential inferences from conception. Our approach is based on the class diagram of the power sources to detect inferences conceptual level. Note that prevention inferences at this level reduces the cost of administering the OLAP server used to manage access to a data warehouse. Finally, our third contribution to the design of a secure warehouse consists of rules for analyzing the consistency of authorizations modeled. As for safety operating level, we proposed: an architecture for enhancing the permissions for configuration, a method for the prevention of inferences, and a method to meet the constraints of additive measures. The proposed architecture adds to system access control, typically present in any secure DBMS, a module to prevent inferences. This takes our security methods against inferences and respect for additivity constraints. Our method of preventing inferences operates for both types of inferences: precise and partial. For accurate inferences, our method is based on Bayesian networks. It builds Bayesian networks corresponding to user queries using the MAX and MIN functions, and prohibits those that are likely to generate inferences. We proposed a set of definitions to translate the result of a query in Bayesian networks. Based on these definitions, we have developed algorithms for constructing Bayesian networks to prohibit those that are likely to generate inferences. In addition, to provide a reasonable response time needed to deal with the prevention treatment, we proposed a technique for predicting potential applications to prohibit. The technique is based on the frequency of inheritance queries to determine the most common query that could follow a request being processed. In addition to specific inferences (performed through queries using the MIN and MAX functions), our method is also facing partial inferences made through queries using the SUM function. Inspired by statistical techniques, our method relies on the distribution of data in the warehouse to decide to prohibit or allow the execution of queries .... Entrepôt de données Contrôle d'accès Niveau de sensibilité Autorisation Inférence Data Warehousing Access Control Sensitivity Level Prevention inferences Permission
19	Problématique des entrepôts de données textuelles : dr Warehouse et la recherche translationnelle sur les maladies rares / Textual data Warehouse challenge : Dr. Warehouse and translational research on rare diseases Garcelon, Nicolas 29 November 2017 (has links) La réutilisation des données de soins pour la recherche s’est largement répandue avec le développement d’entrepôts de données cliniques. Ces entrepôts de données sont modélisés pour intégrer et explorer des données structurées liées à des thesaurus. Ces données proviennent principalement d’automates (biologie, génétique, cardiologie, etc) mais aussi de formulaires de données structurées saisies manuellement. La production de soins est aussi largement pourvoyeuse de données textuelles provenant des comptes rendus hospitaliers (hospitalisation, opératoire, imagerie, anatomopathologie etc.), des zones de texte libre dans les formulaires électroniques. Cette masse de données, peu ou pas utilisée par les entrepôts classiques, est une source d’information indispensable dans le contexte des maladies rares. En effet, le texte libre permet de décrire le tableau clinique d’un patient avec davantage de précisions et en exprimant l’absence de signes et l’incertitude. Particulièrement pour les patients encore non diagnostiqués, le médecin décrit l’histoire médicale du patient en dehors de tout cadre nosologique. Cette richesse d’information fait du texte clinique une source précieuse pour la recherche translationnelle. Cela nécessite toutefois des algorithmes et des outils adaptés pour en permettre une réutilisation optimisée par les médecins et les chercheurs. Nous présentons dans cette thèse l'entrepôt de données centré sur le document clinique, que nous avons modélisé, implémenté et évalué. À travers trois cas d’usage pour la recherche translationnelle dans le contexte des maladies rares, nous avons tenté d’adresser les problématiques inhérentes aux données textuelles: (i) le recrutement de patients à travers un moteur de recherche adapté aux données textuelles (traitement de la négation et des antécédents familiaux), (ii) le phénotypage automatisé à partir des données textuelles et (iii) l’aide au diagnostic par similarité entre patients basés sur le phénotypage. Nous avons pu évaluer ces méthodes sur l’entrepôt de données de Necker-Enfants Malades créé et alimenté pendant cette thèse, intégrant environ 490 000 patients et 4 millions de comptes rendus. Ces méthodes et algorithmes ont été intégrés dans le logiciel Dr Warehouse développé pendant la thèse et diffusé en Open source depuis septembre 2017. / The repurposing of clinical data for research has become widespread with the development of clinical data warehouses. These data warehouses are modeled to integrate and explore structured data related to thesauri. These data come mainly from machine (biology, genetics, cardiology, etc.) but also from manual data input forms. The production of care is also largely providing textual data from hospital reports (hospitalization, surgery, imaging, anatomopathologic etc.), free text areas in electronic forms. This mass of data, little used by conventional warehouses, is an indispensable source of information in the context of rare diseases. Indeed, the free text makes it possible to describe the clinical picture of a patient with more precision and expressing the absence of signs and uncertainty. Particularly for patients still undiagnosed, the doctor describes the patient's medical history outside any nosological framework. This wealth of information makes clinical text a valuable source for translational research. However, this requires appropriate algorithms and tools to enable optimized re-use by doctors and researchers. We present in this thesis the data warehouse centered on the clinical document, which we have modeled, implemented and evaluated. In three cases of use for translational research in the context of rare diseases, we attempted to address the problems inherent in textual data: (i) recruitment of patients through a search engine adapted to textual (data negation and family history detection), (ii) automated phenotyping from textual data, and (iii) diagnosis by similarity between patients based on phenotyping. We were able to evaluate these methods on the data warehouse of Necker-Enfants Malades created and fed during this thesis, integrating about 490,000 patients and 4 million reports. These methods and algorithms were integrated into the software Dr Warehouse developed during the thesis and distributed in Open source since September 2017. Entrepôt de données Fouille de données Maladies rares Phénotypage Recherche d’information Data warehouse Data mining Rare diseases Phenotyping Information retrieval 005.74
20	Système d'information décisionnel sur les interactions environnement-santé : cas de la Fièvre de la Vallée du Rift au Ferlo (Sénégal) / Decision-making system on environment and health interactions : case of the Rift Valley Fever in Ferlo (Senegal) Bouba, Fanta 25 September 2015 (has links) Notre recherche se situe dans le cadre du projet QWECI (Quantifying Weather and Climate Impacts on Health in Developing Countries, UE FP7) en partenariat avec l’UCAD, le CSE et l’IPD, autour de la thématique environnement-santé avec comme cas pratique les maladies à vecteurs au Sénégal et plus particulièrement la Fièvre de la Vallée du Rift (FVR). La santé des populations humaines et animales est souvent fortement influencée par l’environnement. D’ailleurs, la recherche sur les facteurs de propagation des maladies à transmission vectorielle, telle que la FVR, prend en compte cette problématique dans sa dimension aussi bien physique que socio-économique. Apparue en 1912-1913 au Kenya, la FVR est une anthropo-zoonose virale répandue dans les régions tropicales qui concerne principalement les animaux mais dont les hommes peuvent aussi être touchés. Au Sénégal, la zone à risque concerne en majorité la vallée du fleuve Sénégal et la zone sylvo-pastorale du Ferlo. Bien que de climat sahélien, le Ferlo regorge de nombreuses mares qui sont des sources d’approvisionnement en eau pour les hommes et le bétail mais également les gîtes larvaires pour les vecteurs potentiels de la FVR. La maîtrise de la FVR, carrefour de trois (03) grands systèmes (agro-écologique, pathogène, économique/sanitaire/social), implique nécessairement la prise en compte de plusieurs paramètres si l’on veut d’abord comprendre les mécanismes d’émergence mais aussi envisager le travail de modélisation du risque. Notre travail porte sur le processus décisionnel pour quantifier l’utilisation de données sanitaires et environnementales dans l’évaluation de leur impact pour le suivi de la FVR. Les équipes de recherche impliquées produisent des données lors de leurs enquêtes de terrains et des analyses de laboratoire. Ce flot de données croissant devrait être stocké et préparé à des études corrélées grâce aux nouvelles techniques de stockage que sont les entrepôts de données. A propos de l’analyse des données, il ne suffit pas de s’appuyer seulement sur les techniques classiques telles que les statistiques. En effet, la valeur ajoutée de contribution sur la question s’oriente vers une analyse prédictive combinant à la fois les techniques agrégées de stockage et des outils de traitement. Ainsi, pour la découverte d’informations, nouvelles et pertinentes à priori non évidentes, il est nécessaire de s’orienter vers la fouille de données. Par ailleurs, l’évolution de la maladie étant fortement liée à la dynamique spatio-temporelle environnementale des différents acteurs (vecteurs, virus et hôtes), cause pour laquelle nous nous appuyons sur les motifs spatio-temporels pour identifier et mesurer certaines interactions entre les paramètres environnementaux et les acteurs impliqués. Grâce au processus décisionnel, les résultats qui en découlent sont multiples :i. suivant la formalisation de la modélisation multidimensionnelle, nous avons construit un entrepôt de données intégré qui regroupe l’ensemble des objets qui participent à la gestion du risque sanitaire – ce modèle peut être généralisé aux maladies à vecteurs ;ii. malgré une très grande variété de moustiques, les Culex de type neavei et les Aedes de type ochraceus et vexans sont les vecteurs potentiels de la FVR les plus présents dans la zone d’étude et ce, durant la saison des pluies, période la plus sujette à des cas suspects ; la période à risque reste quand même le mois d’octobre ;iii. les mares analysées ont quasiment le même comportement, mais des variations significatives subsistent par endroits.Ce travail de recherche démontre une fois de plus l’intérêt pour la mise en évidence des relations entre les données environnementales et la FVR à partir de méthodes de fouille de données, pour la surveillance spatio-temporelle du risque d’émergence. / Our research is in part of the QWeCI european project (Quantifying Weather and Climate Impacts on Health in Developing Countries, EU FP7) in partnership with UCAD, the CSE and the IPD, around the theme of environmental health with the practical case on vector-borne diseases in Senegal and particularly the Valley Fever (RVF). The health of human and animal populations is often strongly influenced by the environment. Moreover, research on spread factors of vector-borne diseases such as RVF, considers this issue in its dimension both physical and socio-economic. Appeared in 1912-1913 in Kenya, RVF is a widespread viral anthropo-zoonosis in tropical regions which concerns animals but men can also be affected. In Senegal, the risk area concerns mainly the Senegal River Valley and the forestry-pastoral areas Ferlo. With a Sahelian climate, the Ferlo has several ponds that are sources of water supply for humans and livestock but also breeding sites for potential vectors of RVF. The controlling of the RVF, which is crossroads of three (03) large systems (agro-ecological, pathogen, economic/health/social), necessarily entails consideration of several parameters if one wants to first understand the mechanisms emergence but also consider the work on risk modeling. Our work focuses on the decision making process for quantify the use of health data and environmental data in the impact assessment for the monitoring of RVF. Research teams involved produce data during their investigations periods and laboratory analyzes. The growing flood of data should be stored and prepared for correlated studies with new storage techniques such as datawarehouses. About the data analysis, it is not enough to rely only on conventional techniques such as statistics. Indeed, the contribution on the issue is moving towards a predictive analysis combining both aggregate storage techniques and processing tools. Thus, to discover information, it is necessary to move towards datamining. Furthermore, the evolution of the disease is strongly linked to environmental spatio-temporal dynamics of different actors (vectors, viruses, and hosts), cause for which we rely on spatio-temporal patterns to identify and measure interactions between environmental parameters and the actors involved. With the decision-making process, we have obtained many results :i. following the formalization of multidimensional modeling, we have built an integrated datawarehouse that includes all the objects that are involved in managing the health risk - this model can be generalized to others vector-borne diseases;ii. despite a very wide variety of mosquitoes, Culex neavei, Aedes ochraceus and Aedes vexans are potential vectors of FVR. They are most present in the study area and, during the rainy season period which is most prone to suspected cases; the risk period still remains the month of October;iii. the analyzed ponds have almost the same behavior, but significant variations exist in some points.This research shows once again the interest in the discovery of relationships between environmental data and the FVR with datamining methods for the spatio-temporal monitoring of the risk of emergence. Processus décisionnel Fouille de données Motifs spatio-Temporels Fièvre de la Vallée du Rift Entrepôt de données Modélisation multidimensionnelle Decision-making Spatio and temporal patterns 004

Search results