• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 175
  • 68
  • 19
  • 1
  • 1
  • 1
  • Tagged with
  • 259
  • 259
  • 92
  • 92
  • 86
  • 43
  • 41
  • 36
  • 35
  • 33
  • 27
  • 27
  • 27
  • 26
  • 26
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Combined complexity of probabilistic query evaluation / Complexité combinée de l'évaluation de requêtes sur des données probabilistes

Monet, Mikaël 12 October 2018 (has links)
L'évaluation de requêtes sur des données probabilistes(probabilistic query evaluation, ou PQE) est généralement très coûteuse enressources et ce même à requête fixée. Bien que certaines restrictions sur les requêtes et les données aient été proposées pour en diminuerla complexité, les résultats existants ne s'appliquent pas à la complexité combinée, c'est-à-dire quand la requête n'est pas fixe.Ma thèse s'intéresse à la question de déterminer pour quelles requêtes et données l'évaluation probabiliste est faisable en complexité combinée.La première contribution de cette thèse est d'étudier PQE pour des requêtes conjonctives sur des schémas d'arité 2. Nous imposons que les requêtes et les données aient la forme d'arbres et montrons l'importance de diverses caractéristiques telles que la présence d'étiquettes sur les arêtes, les bifurcations ou la connectivité.Les restrictions imposées dans ce cadre sont assez sévères, mais la deuxième contribution de cette thèse montreque si l'on est prêts à augmenter la complexité en la requête, alors il devient possible d'évaluer un langage de requête plus expressif sur des données plus générales. Plus précisément, nous montrons que l'évaluation probabiliste d'un fragment particulier de Datalog sur des données de largeur d'arbre bornée peut s'effectuer en temps linéaire en les donnéeset doublement exponentiel en la requête. Ce résultat est prouvé en utilisant des techniques d'automatesd'arbres et de compilation de connaissances. La troisième contribution de ce travail est de montrer les limites de certaines de ces techniques, en prouvant desbornes inférieures générales sur la taille de formalismes de représentation utilisés en compilation de connaissances et en théorie des automates. / Query evaluation over probabilistic databases (probabilistic queryevaluation, or PQE) is known to be intractable inmany cases, even in data complexity, i.e., when the query is fixed. Althoughsome restrictions of the queries and instances have been proposed tolower the complexity, these known tractable cases usually do not apply tocombined complexity, i.e., when the query is not fixed. My thesis investigates thequestion of which queries and instances ensure the tractability ofPQE in combined complexity.My first contribution is to study PQE of conjunctive queries on binary signatures, which we rephraseas a probabilistic graph homomorphism problem. We restrict the query and instance graphs to be trees and show the impact on the combined complexity of diverse features such as edge labels, branching,or connectedness. While the restrictions imposed in this setting are quite severe, my second contribution shows that,if we are ready to increase the complexity in the query, then we can evaluate a much more expressive language on more general instances. Specifically, I show that PQE for a particular class of Datalog queries on instances of bounded treewidth can be solved with linear complexity in the instance and doubly exponential complexity in the query.To prove this result, we use techniques from tree automata and knowledge compilation. The third contribution is to show the limits of some of these techniques by proving general lower bounds on knowledge compilation and tree automata formalisms.
92

Évaluation et application de MERRAero, une réanalyse des aérosols atmosphériques développée par la NASA

Provençal, Simon 24 April 2018 (has links)
La Modern-Era Retrospective Analysis for Research and Application (MERRA) est une réanalyse développée par le Global Modeling and Assimilation Office (GMAO) à la National Aeronautics and Space Administration (NASA) aux États-Unis qui intègre des données observées et des données modélisées pour reproduire une base de données complète dans le temps et l'espace de plusieurs variables atmosphériques (température, vitesse et direction du vent, humidité, pressions, etc.) depuis 1979. Afin de reproduire une analyse intégrée du système terrestre, le GMAO effectue d'autres réanalyses en parallèle : une réanalyse des océans (MERRAOcean), une réanalyse de la surface solide de la Terre (MERRALand) et une réanalyse de la composition de l'atmosphère (MERRAero), cette dernière constituant le sujet central de cette thèse. La 1ère version de MERRAero intègre des données de la profondeur optique des aérosols (AOD) mesurée par MODIS-Terra et MODIS-Aqua, en orbite autour de la Terre depuis 2000 et 2002 respectivement, et les données d'un modèle de chimie atmosphérique qui simule la concentration de cinq espèces dominantes d'aérosols, soit les particules de sulfate, de carbone organique, de carbone noir, de poussière et de sel de mer. La réanalyse reproduit donc la concentration de ces cinq espèces d'aérosols partout sur la Terre, avec une résolution de 0,5º de latitude, 0,625º de longitude et 72 niveaux en altitude, à une fréquence horaire, en plus de leur contribution individuelle à l'AOD totale. Une reconstruction peut ensuite être appliquée pour obtenir la concentration totale des matières particulaires, un contaminant couramment pris en compte pour évaluer la qualité de l'air. MERRAero constitue une avancée importante dans l'étude de la composition atmosphérique à l'échelle globale. Elle met à la disposition de la communauté scientifique un outil novateur qui lui permet d'étudier une vaste gamme de problèmes liées à la pollution atmosphérique qu'aucun réseau de surveillance ne peut accomplir, particulièrement dans les régions dépourvues de toute surveillance fiable. MERRAero doit cependant traverser un processus d'évaluation rigoureux avant d'être jugée apte à accomplir ses fonctions. Certaines de ses capacités ont déjà été évaluées à certains endroits, notamment sa simulation de l'AOD au-dessus de certaines régions du monde et sa simulation de la concentration des oxydes de soufre aux États-Unis. L'objectif de cette thèse est de poursuivre les travaux d'évaluation avec une emphase sur la concentration des différentes espèces d'aérosols simulées à la surface par MERRAero dans plusieurs régions du monde. Une fois que l'évaluation ait été jugée favorable, MERRAero a ensuite été appliquée à une étude sur la pollution urbaine de l'air à l'échelle globale. La concentration de plusieurs espèces d'aérosols simulée par MERRAero à la surface depuis 2003 a été comparée à des données d'observations provenant de différents réseaux de surveillance autour du monde : le Interagency Monitoring of Protected Visual Environments (IMPROVE) aux États-Unis, le European Monitoring and Evaluation Programme (EMEP) en Europe, celui du Ministère de la protection environnementale en Israël et celui de l'Administration de la protection environnementale à Taïwan. Plusieurs indicateurs statistiques ont été calculés, et des analyses spatiales et temporelles ont été effectuées pour évaluer l'exactitude de MERRAero, identifier ses lacunes importantes et formuler des recommandations pour améliorer ses versions subséquentes. L'évaluation aux É.-U. et en Europe en milieu rural a démontré que MERRAero reproduit bien la concentration des particules de sulfate et de carbone d'origine anthropique. La concentration des particules de carbone d'origine naturelle, provenant notamment des feux de forêt, a cependant été largement surestimée, causant ainsi un biais important en été. MERRAero a surestimé aussi la concentration des particules de sable de sources lointaines, telles que le Sahara et les déserts en l'Asie de l'Est qui affectent légèrement la composition des aérosols aux É.-U. L'évaluation a reproduit des résultats favorables en milieu urbain malgré la résolution de MERRAero qui ne capture pas toutes les sources d'aérosols, causant ainsi des fluctuations saisonnières non conformes aux observations. L'évaluation a reproduit des résultats très favorables en Israël. Sa proximité au Sahara et aux déserts du Moyen-Orient suggère que MERRAero simule très bien la concentration des particules de sable d'origine locale. À Taïwan, MERRAero a reproduit la concentration des aérosols généralement bien à l'exception des mois d'hiver, lorsque Taïwan est le plus affecté par l'advection de pollution d'origine chinoise. / Malgré les lacunes identifiées, dans l'ensemble, l'évaluation a reproduit des résultats jugés suffisamment favorables pour que MERRAero soit appliquée dans une multitude de problématiques, notamment à l'étude de la pollution urbaine de l'air à l'échelle globale. Cette analyse a démontré l'impact que les politiques environnementales et la récession économique des dernières années ont eu sur la pollution atmosphérique des villes d'Amérique du Nord, d'Europe et d'Asie de l'Est. Même l'air des villes chinoises, lesquelles sont aux prises avec de sérieux problèmes de pollution depuis plusieurs années, s'est amélioré grâce à une initiative du gouvernement à réduire les émissions de contaminants atmosphériques. Les villes de l'Inde et du Bangladesh sont les seules à avoir vu leur situation se détériorer, due à une forte urbanisation et industrialisation. La qualité de l'air des villes d'Amérique du Sud et d'Afrique subsaharienne s'est aussi améliorée par un ralentissement des activités de déforestation au cours des dix dernières années, particulièrement dans la forêt amazonienne.
93

Saisie photogrammétrique multi-représentation de bâtiments : une approche Semi-Automatisée Initialisée et Supportée par l'Intervention humainE

Frédéricque, Benoit 13 April 2018 (has links)
Le peuplement de BDRM-3D (Bases de Données à Représentation Multiple 3D) est de plus en plus requis pour supporter des applications avancées de cartographie sur demande et d’analyse décisionnelle géospatiale. Cette thèse présente une nouvelle approche de saisie photogrammétrique en représentation multiple visant à peupler une BDRM-3D de bâtiments. L’approche proposée est nommée approche SAISIE car elle est Semi-Automatique, Initialisée et Supportée par l’Intervention humainE. Elle traite simultanément l’extraction des Géométries Détaillées (GD) et des Géométries Simplifiées (GS). Elle s’appuie notamment sur les nouveaux concepts de Patron d’Acquisition en Représentation Multiple et d’« Instance Driven SASS » (Sélection et Gestion des Algorithmes, des Sources et des Réglages gérée au niveau de l’instance) afin d’améliorer la performance des traitements automatiques mis en œuvre. Ces deux concepts ont été introduits lors de cette recherche. Le concept de PARM résulte du rapprochement des concepts de patron géométrique (introduit pour supporter la généralisation) et de modèle paramétrique (introduit pour supporter la saisie photogrammétrique). Deux nouveaux algorithmes de reconnaissance de forme, l’un traitant de la détermination automatique des paramètres d’implantation de patrons géométriques 3D et l’autre de l’extraction automatique des emprises au sol de bâtiments, ont par ailleurs été introduits lors de la réalisation de cette thèse. L’approche SAISIE ainsi que les concepts et algorithmes proposés pour la supporter ont été mis en œuvre et expérimentés sur quatre sites de tests couvrant plus de trois cent bâtiments. Les résultats obtenus et l’expérience acquise lors des développements des prototypes nous ont permis d’établir une analyse de l’approche SAISIE ainsi que des recommandations pour les recherches futures. / 3D MRDB (Multi Representation Data Base) population is more and more required to support advanced cartographical applications and advanced geospatial decisional analysis. This dissertation presents a new photogrammetric approach dedicated to multiple representation acquisition process to populate the buildings of a 3D MRDB. The proposed approach is named SAISIE (this French acronym matches with a semi-automatic acquisition process, initialized and supported by human intervention). The SAISIE approach tackles simultaneously the Detailed Geometries (DG) extraction and the Simplified Geometries (GS) extraction. This uses both the Multi-Representation Acquisition Pattern concept and the Instance Driven SASS concept (SASS : Selection of the Algorithms, Sources and Setting) to improve the process performance. These two new concepts have been introduced during this research. The MRAP concept stems from bridging together the geometric pattern concept (used to support generalisation process) and the parametric model (used to support the photogrammetric building extraction). Two new algorithms have also been introduced. The first one deals with the automatic implantation of 3D geometric pattern and the second one with the automatic extraction of building footprints. The SAISIE approach, the new concepts and the two new algorithms, have been implemented and tested with four test sites. These test sites cover more than three hundred buildings. Results analysis and several recommendations, based on our experimentation and experience, are proposed to conclude this dissertation.
94

Le raisonnement à base de logique propositionnelle à l'appui de la fusion et de la révision de bases de données géospatiales

Noël de Tilly, Antoine 13 April 2018 (has links)
Le but de ce mémoire était d’effectuer, dans un contexte géospatial, une comparai- son d’une approche de raisonnement qualitatif basée sur le PROLOG avec une autre approche reposant sur l’ASP. La principale question que nous posons est la suivante : Le moteur de raisonnement Smodels rendant possible la mise en oeuvre du raisonnement non monotone poussé et faisant intervenir le concept de modèle stable peut-il nous permettre de résoudre des problèmes de vérification de cohérence ontologique et des problèmes de révision dans le contexte de la géomatique ? Pour y répondre, nous avons procédé à une série de tests sur un échantillon de la Base nationale de données topographiques (BNDT). À la lumière des résultats obtenus, cette approche se montre très efficace et contribue à l’amélioration de la cohérence de l’information géospatiale et du raisonnement spatial réalisé à partir de cette dernière. / The objective of this thesis is to make a comparison between a qualitative reasoning approach based on PROLOG with another approach based on ASP. Our principal research question was the following : Can the Smodels reasoning engine, allowing for advanced non monotonic reasoning and introducing the stable model concept, allow us to solve ontological consistency checking problems as well as revision problems in a geomatic context ? To answer this question, we carried out a series of tests on a cross-section from the National Topographical Database (NTDB). In the light of the results obtained, this approach has proven very effective and contributes to the amelioration of geospatial information consistency and to the resultant improvement in spatial reasoning.
95

Construction et évaluation d'un modèle d'élaboration de la base de données pour un système d'enseignement assisté par ordinateur

Boulet, Marie-Michèle 25 April 2018 (has links)
Le modèle d'élaboration de la base de données suggéré dans cette recherche s'inscrit dans le domaine de la planification de l'enseignement. Il fait partie de l'un des quatre domaines d'activités distincts encore que connexes formant la technologie de l'éducation identifiés par Eraut (1972): - La préparation et l'emploi de matériel pédagogique; - l'application du savoir concernant l'enseignement et 1 'apprentissage; - la planification, la mise au point et l'application des programmes; - l'organisation du personnel, des ressources et des activités pédagogiques. Le modèle d'élaboration de la base de données dont nous traitons, implique la préparation et l'emploi de matériel pédagogique dispensé par ordinateur, dans un contexte d'enseignement individualisé, avec l'assurance que ce moyen sera au service de l'enseignant et non pas le contraire. L'objectif principal de notre recherche est de montrer qu'il est possible d'appliquer au domaine de l'enseignement assisté par ordinateur des connaissances développées pour l'élaboration des bases de données, de telle sorte que l'ordinateur puisse guider l'étudiant en fonction d'un champ de connaissances structurées, et non pas uniquement en fonction d'une réaction pré-déterminée à une réponse de l'élève, anticipée ou prévue par l'auteur. À cet effet, nous développerons un modèle d'organisation des données faisant partie d'un ensemble, dans une mémoire d'ordinateur, qui optimise chacun des éléments de l'ensemble en vue de créer un système d'enseignement assisté par ordinateur. L'ensemble, pour tout enseignant, c'est l'année scolaire. Le modèle d'élaboration de la base de données qui est proposé ici est une combinaison de deux domaines dans le but de développer un système d'enseignement assisté par ordinateur qui réponde aux attentes de l'enseignant. L'un de ces domaines est celui de la gestion, plus particulièrement celui des systèmes d'information aux fins de gestion, qui fournissent des résultats aidant les gestionnaires à la prise de décision. Nous utiliserons ici l'analyse par réseaux de Forrester (1961). L'autre domaine est celui du design pédagogique tel que proposé par Gagné et Briggs (Brien, 1981). Notre modèle est appliqué ici à la préparation de leçons individualisées en mathématiques, devant être dispensées par ordinateur; l'auteur peut partir d'un matériel original ou encore d'un matériel déjà existant, en autant que certaines conditions préalables soient remplies. Il permet d'identifier tous les éléments qui devront être présents à l'intérieur de la machine et qui devront également fonctionner en parallèle lors du déroulement de la leçon. C'est ici que l'analyse par réseaux fournira un outil de travail pour arriver à les identifier. Notre modèle n'implique pas nécessairement l'utilisation de l'ordinateur pour dispenser toutes les leçons d'un cours; l'ampleur de l'utilisation est laissée à la discrétion de l'enseignant. Il permet d'ajouter en tout temps des leçons, aussi bien que d'en retrancher, compte tenu qu'il permet d'obtenir une image des données qui se trouvent à l'intérieur de la mémoire de l'ordinateur. Pour parvenir à déterminer quel sera le contenu des leçons et quelle importance a un comportement visé dans tout l'ensemble de l'année scolaire, nous utiliserons le design pédagogique proposé par Gagné et Briggs (Brien, 1981), et plus particulièrement, les hiérarchies d'apprentissage. Le premier chapitre de cette recherche permet de situer celle-ci parmi les autres recherches effectuées dans le domaine des applications pédagogiques de l'ordinateur et ainsi préciser notre point de départ. Dans le second chapitre, nous présentons le modèle d'élaboration de la base de données pour un système d'enseignement assisté par ordinateur. Nous décrivons celui-ci en termes d'étapes pour lesquelles une série de tâches doivent être effectuées. Au troisième chapitre, nous traitons un cas pratique d'enseignement assisté par ordinateur appliqué à un contexte d'enseignement individualisé; nous appliquons le modèle d'élaboration de la base de données présenté au chapitre précédent et détaillons le travail effectué à chaque étape. La mise à l'essai du modèle opérationnalisé est présentée au quatrièmé chapitre; le dernier chapitre fait part des résultats obtenus lors de la mise à l'essai du modèle opérationnalisé, en comparaison avec un autre système dont certaines variables d'activité et certaines accumulations ont été retirées. / Québec Université Laval, Bibliothèque 2015
96

Étude comparative randomisée de l’efficacité et de l’impact sur la prise de décision clinique en médecine familiale de deux moteurs de recherche médicaux : InfoClinique et TRIP Database

Ratté, Stéphane 18 April 2018 (has links)
Cette étude randomisée visait à comparer l’efficacité et l’impact sur le processus de décision clinique en médecine familiale de deux moteurs de recherche médicaux : InfoClinique et TRIP Database. Quinze résidents en médecine familiale ont répondu à 20 questions cliniques portant sur des interventions thérapeutiques ou préventives avant et après une recherche initiée au hasard avec InfoClinique ou TRIP Database. En plus de donner les réponses aux questions cliniques, les participants ont rempli des questionnaires en ligne pour évaluer l’impact du moteur de recherche sur le processus de prise de décision. L’efficacité à trouver une réponse correcte aux questions et l’impact des informations trouvées sur le processus de prise de décision clinique ont été similaires à la suite de la recherche initiée avec InfoClinique et TRIP Database. La proportion de réponses correctes observée avant la recherche (25%) a augmenté de façon importante et similaire après la recherche initiale avec les deux moteurs de recherche passant à 63%. Le choix d’utiliser l’un ou l’autre des moteurs de recherche pourrait reposer sur des préférences ergonomiques, géographiques ou linguistiques.
97

Qualitative topological relationships for objects with possibly vague shapes : implications on the specification of topological integrity constraints in transactional spatial databases and in spatial data warehouses

Bejaoui, Lotfi 16 April 2018 (has links)
Dans les bases de données spatiales actuellement mises en oeuvre, les phénomènes naturels sont généralement représentés par des géométries ayant des frontières bien délimitées. Une telle description de la réalité ignore le vague qui caractérise la forme de certains objets spatiaux (zones d'inondation, lacs, peuplements forestiers, etc.). La qualité des données enregistrées est donc dégradée du fait de ce décalage entre la réalité et sa description. Cette thèse s'attaque à ce problème en proposant une nouvelle approche pour représenter des objets spatiaux ayant des formes vagues et caractériser leurs relations topologiques. Le modèle proposé, appelé QMM model (acronyme de Qualitative Min-Max model), utilise les notions d'extensions minimale et maximale pour représenter la partie incertaine d'un objet. Un ensemble d'adverbes permet d'exprimer la forme vague d'un objet (ex: a region with a partially broad boundary), ainsi que l'incertitude des relations topologiques entre deux objets (ex: weakly Contains, fairly Contains, etc.). Cette approche est moins fine que d'autres approches concurrentes (modélisation par sous-ensembles flous ou modélisation probabiliste). Mais elle ne nécessite pas un processus d'acquisition complexe des données. De plus elle est relativement simple à mettre en oeuvre avec les systèmes existants de gestion de bases de données. Cette approche est ensuite utilisée pour contrôler la qualité des données dans les bases de données spatiales et les entrepôts de données spatiales en spécifiant des contraintes d'intégrité par l'intermédiaire des concepts du modèle QMM. Une extension du langage de contraintes OCL (Object Constraint Language) a été étudiée pour spécifier des contraintes topologiques impliquant des objets ayant des formes vagues. Un logiciel existant (outil OCLtoSQL développé à l'Université de Dresden) a été étendu pour permettre la génération automatique du code SQL d'une contrainte lorsque la base de données est gérée par un système relationnel. Une expérimentation de cet outil a été réalisée avec une base de données utilisée pour la gestion des épandages agrico'les. Pour cette application, l'approche et l'outil sont apparus très efficients. Cette thèse comprend aussi une étude de l'intégration de bases de données spatiales hétérogènes lorsque les objets sont représentés avec le modèle QMM. Des résultats nouveaux ont été produits et des exemples d'application ont été explicités.
98

Applications de méthodes de classification non supervisées à la détection d'anomalies

Jabiri, Fouad 11 February 2021 (has links)
Dans ce présent mémoire, nous présenterons dans un premier temps l’algorithme d’arbres binaires de partitionnement et la forêt d’isolation. Les arbres binaires sont des classificateurs très populaires dans le domaine de l’apprentissage automatique supervisé. La forêt d’isolation appartient à la famille des méthodes non supervisées. Il s’agit d’un ensemble d’arbres binaires employés en commun pour isoler les instances qui semblent aberrantes ou anormales. Par la suite, nous présenterons l’approche que nous avons nommée "Exponential smoothig" (ou "pooling"). Cette technique consiste à encoder des séquences de variables de longueurs différentes en un seul vecteur de taille fixe. En effet, l’objectif de ce mémoire est d’appliquer l’algorithme des forêts d’isolation pour identifier les anomalies dans les réclamations et les formulaires d’assurances disponibles dans la base de données d’une grande compagnie d’assurances canadienne. Cependant, un formulaire est une séquence de réclamations. Chaque réclamation est caractérisée par un ensemble de variables. Ainsi, il serait impossible d’appliquer l’algorithme des forêts d’isolation directement sur ce genre de données. Pour cette raison, nous allons appliquer le pooling. Notre application parvient effectivement à isoler des réclamations et des formulaires anormaux. Nous constatons que ces derniers ont plus tendances à être audités parla compagnie que les formulaires normaux. / In this thesis, we will first present the binary tree partitioning algorithm and isolation forests. Binary trees are very popular classifiers in supervised machine learning. The isolation forest belongs to the family of unsupervised methods. It is an ensemble of binary trees used in common to isolate outlying instances. Subsequently, we will present the approach that we have named "Exponential smoothig" (or "pooling"). This technique consists in encoding sequences of variables of different lengths into a single vector of fixed size. Indeed, the objective of this thesis is to apply the algorithm of isolation forests to identify anomalies in insurance claim forms available in the database of a large Canadian insurance company in order to detect cases of fraud. However, a form is a sequence of claims. Each claim is characterized by a set of variables and thus it will be impossible to apply the isolation forest algorithm directly to this kind of data. It is for this reason that we are going to apply Exponential smoothing. Our application effectively isolates claims and abnormal forms, and we find that the latter tend to be audited by the company more often than regular forms.
99

Forage de données de bases administratives en santé

Najjar, Ahmed 24 April 2018 (has links)
Les systèmes de santé actuels sont de plus en plus informatisés et dotés de systèmes de collecte et de stockage des données. Une énorme quantité des données est ainsi stockée dans les bases de données médicales. Les bases de données, conçues à des fins administratives ou de facturation, sont alimentées de nouvelles données à chaque fois que le patient fait appel au système de soins de santé. Cette spécificité rend ces bases de données une source riche en information et extrêmement intéressante et utile. Elles rassemblent ainsi toutes les données de prestation de soins et pourraient permettre de construire et de dévoiler les processus de soins des patients. Toutefois, malgré cet intérêt évident que représente ces banques de données administratives, elles sont jusqu’à date sous-exploitées par les chercheurs. Nous proposons donc dans cette thèse une approche de découverte de connaissances qui à partir des données administratives brutes permet de détecter des patrons des trajectoires de soins des patients. Nous avons tout d’abord proposé un algorithme capable de regrouper des objets complexes qui représentent les services médicaux. Ces objets sont caractérisés par un mélange de variables numériques, catégorielles et catégorielles multivaluées. Nous proposons pour cela d’extraire des espaces de projection pour les variables multivaluées et de modifier le calcul de la distance entre les objets afin de prendre ces projections en compte. La deuxième nouveauté consiste à la proposition d’un modèle de mélange en deux étapes, capable de regrouper ces objets. Ce modèle fait appel à la distribution gaussienne pour les variables numériques, multinomiales pour les variables catégorielles et aux modèles cachés de Markov (HMM) pour les variables multivaluées. Nous obtenons ainsi deux algorithmes capables de regrouper des objets complexes caractérisés par un mélange de variables. Par la suite, une approche de découverte de patrons des trajectoires de soins a été mise en place. Cette approche comporte plusieurs étapes. La première est l’étape de prétraitement qui permet de construire et de générer les ensembles des services médicaux. Ainsi, on obtient trois ensembles des services médicaux : un pour les séjours hospitaliers, un pour les consultations et un pour les visites. La deuxième étape est l’étape de modélisation et regroupement des processus de soins comme une succession des étiquettes des services médicaux. Ces processus sont complexes et ils nécessitent une méthode sophistiquée de regroupement. Nous proposons ainsi un algorithme de regroupement basé sur les HMM. Finalement, une approche de visualisation et d’analyse des patrons des trajectoires est proposée pour exploiter les modèles découverts. L’ensemble de ces étapes forment le processus de découvertes des patrons des trajectoires à partir des bases de données administratives en santé. Nous avons appliqué cette approche aux bases de données sur la prestation des soins pour les personnes âgées de 65 ans et plus souffrant d’insuffisance cardiaque et habitant à la province de Québec. Ces données sont extraites de trois bases de données : la banque de données MED-ÉCHO du MSSS, la banque de la RAMQ et la base contenant les données concernant les certificats de décès. Les résultats issus de ce projet ont montré l’efficacité de notre approche et de nos algorithmes en détectant des patrons spéciaux qui peuvent aider les administrateurs de soins de santé à mieux gérer les soins de santé. / Current health systems are increasingly equipped with data collection and storage systems. Therefore, a huge amount of data is stored in medical databases. Databases, designed for administrative or billing purposes, are fed with new data whenever the patient uses the healthcare system. This specificity makes these databases a rich source of information and extremely interesting. These databases can unveil the constraints of reality, capturing elements from a great variety of real medical care situations. So, they could allow the conception and modeling the medical treatment process. However, despite the obvious interest of these administrative databases, they are still underexploited by researchers. In this thesis, we propose a new approach of the mining for administrative data to detect patterns from patient care trajectories. Firstly, we have proposed an algorithm able to cluster complex objects that represent medical services. These objects are characterized by a mixture of numerical, categorical and multivalued categorical variables. We thus propose to extract one projection space for each multivalued variable and to modify the computation of the distance between the objects to consider these projections. Secondly, a two-step mixture model is proposed to cluster these objects. This model uses the Gaussian distribution for the numerical variables, multinomial for the categorical variables and the hidden Markov models (HMM) for the multivalued variables. Finally, we obtain two algorithms able to cluster complex objects characterized by a mixture of variables. Once this stage is reached, an approach for the discovery of patterns of care trajectories is set up. This approach involves the followed steps: 1. preprocessing that allows the building and generation of medical services sets. Thus, three sets of medical services are obtained: one for hospital stays, one for consultations and one for visits. 2. modeling of treatment processes as a succession of labels of medical services. These complex processes require a sophisticated method of clustering. Thus, we propose a clustering algorithm based on the HMM. 3. creating an approach of visualization and analysis of the trajectory patterns to mine the discovered models. All these steps produce the knowledge discovery process from medical administrative databases. We apply this approach to databases for elderly patients over 65 years old who live in the province of Quebec and are suffering from heart failure. The data are extracted from the three databases: the MSSS MED-ÉCHO database, the RAMQ bank and the database containing death certificate data. The obtained results clearly demonstrated the effectiveness of our approach by detecting special patterns that can help healthcare administrators to better manage health treatments.
100

Modélisation et construction des bases de données géographiques floues et maintien de la cohérence de modèles pour les SGBD SQL et NoSQL / Modeling and construction of fuzzy geographic databases with supporting models consistency for SQL and NoSQL database systems

Soumri Khalfi, Besma 12 June 2017 (has links)
Aujourd’hui, les recherches autour du stockage et de l’intégration des données spatiales constituent un maillon important qui redynamise les recherches sur la qualité des données. La prise en compte de l’imperfection des données géographiques, particulièrement l’imprécision, ajoute une réelle complexification. Parallèlement à l’augmentation des exigences de qualité centrées sur les données (précision, exhaustivité, actualité), les besoins en information intelligible ne cessent d’augmenter. Sous cet angle, nous sommes intéressés aux bases de données géographiques imprécises (BDGI) et leur cohérence. Ce travail de thèse présente des solutions pour la modélisation et la construction des BDGI et cohérentes pour les SGBD SQL et NoSQL.Les méthodes de modélisation conceptuelle de données géographiques imprécises proposées ne permettent pas de répondre de façon satisfaisante aux besoins de modélisation du monde réel. Nous présentons une version étendue de l’approche F-Perceptory pour la conception de BDGI. Afin de construire la BDGI dans un système relationnel, nous présentons un ensemble de règles de transformation automatique de modèles pour générer à partir du modèle conceptuel flou le modèle physique. Nous implémentons ces solutions sous forme d’un prototype baptisé FPMDSG.Pour les systèmes NoSQL type document. Nous présentons un modèle logique baptisé Fuzzy GeoJSON afin de mieux cerner la structure des données géographiques imprécises. En plus, ces systèmes manquent de pertinence pour la cohérence des données ; nous présentons une méthodologie de validation pour un stockage cohérent. Les solutions proposées sont implémentées sous forme d'un processus de validation. / Today, research on the storage and the integration of spatial data is an important element that revitalizes the research on data quality. Taking into account the imperfection of geographic data particularly the imprecision adds a real complexity. Along with the increase in the quality requirements centered on data (accuracy, completeness, topicality), the need for intelligible information (logically consistent) is constantly increasing. From this point of view, we are interested in Imprecise Geographic Databases (IGDBs) and their logical coherence. This work proposes solutions to build consistent IGDBs for SQL and NoSQL database systems.The design methods proposed to imprecise geographic data modeling do not satisfactorily meet the modeling needs of the real world. We present an extension to the F-Perceptory approach for IGDBs design. To generate a coherent definition of the imprecise geographic objects and built the IGDB into relational system, we present a set of rules for automatic models transformation. Based on these rules, we develop a process to generate the physical model from the fuzzy conceptual model. We implement these solutions as a prototype called FPMDSG.For NoSQL document oriented databases, we present a logical model called Fuzzy GeoJSON to better express the structure of imprecise geographic data. In addition, these systems lack relevance for data consistency; therefore, we present a validation methodology for consistent storage. The proposed solutions are implemented as a schema driven pipeline based on Fuzzy GeoJSON schema and semantic constraints.

Page generated in 0.2931 seconds