1 |
Conception assistée d’entrepôts de données et de documents XML pour l’analyse OLAP / Aided design of data warehouses and XML documents for OLAP analysisAbdelhédi, Fatma 03 April 2014 (has links)
Aujourd’hui, les entrepôts de données constituent un enjeu majeur pour les applications décisionnelles au sein des entreprises. Les sources d’un entrepôt, c’est à dire l’origine des données qui l’alimentent, sont diverses et hétérogènes : fichiers séquentiels, feuilles de tableur, bases de données relationnelles, documents du Web. La complexité est telle que les logiciels du marché ne répondent que partiellement aux attentes des décideurs lorsque ceux-ci souhaitent analyser les données. Nos travaux s’inscrivent donc dans le contexte des systèmes décisionnels qui intègrent tous types de données (principalement extraites de bases de données relationnelles et de bases de documents XML) et qui sont destinés à des décideurs. Ils visent à proposer des modèles, des méthodes et des outils logiciels pour élaborer et manipuler des entrepôts de données. Nos travaux ont plus précisément porté sur deux problématiques complémentaires : l’élaboration assistée d’un entrepôt de données ainsi que la modélisation et l’analyse OLAP de documents XML. / Today, data warehouses are a major issue for business intelligence applications within companies. Sources of a warehouse, i.e. the origin of data that feed, are diverse and heterogeneous sequential files, spreadsheets, relational databases, Web documents. The complexity is such that the software on the market only partially meets the needs of decision makers when they want to analyze the data. Therefore, our work is within the decision support systems context that integrate all data types (mainly extracted from relational databases and XML documents databases) for decision makers. They aim to provide models, methods and software tools to elaborate and manipulate data warehouses. Our work has specifically focused on two complementary issues: aided data warehouse and modeling and OLAP analysis of XML documents.
|
2 |
The mobile agent technology application in the distributed dataLu, Weijia January 2005 (has links) (PDF)
Along with the development of the economy and technology, the network has become more important in people's work and life than before. More and more people take advantage of network to improve the quality of their work and life. The network applications are based on the database visiting, and the database visiting is almost based on the Distributed database. The Distributed data service can be widely used in the corporation and many important fields. More technology and solutions are proposed, including the Mobile Agent technology. Mobile Agent is a code segment that can migration in the network, carrying the task code, using network and computers' resource, cooperating with other MAs, finishing one or more designated tasks. Compared with other mobile code, the MA technology can use less network resource, carry less information, and operate with higher efficiency. Using the technology to solve distributed problems is a hot research topic currently. In this paper, we first review the current research status in the Mobile Agent and distributed data service fields. After that, based on the current issues in the Distributed data service fields, we propose a complete solution using the Mobile Agent technology. Last, with the proposed solution, we construct a complete distributed data service model. In our solution, the traditional Distributed data-retrieving procedure is investigated and enhanced with the Mobile Agent technology to achieve high efficiency. The Mobile Agent related technology, such as MA communication, MA security, and MA cooperation technology are also used to improve the model 's efficiency and reduce the network's cost. We have used a project management system as a sub-model. Compared with the traditional approaches, the model works more efficiently with larger number of stations and large amount of the data-request. Finally, detailed analyzing of one instance is presented to show the characteristic of the model.
|
3 |
Modélisation des aspects temporels dans les bases de données spatialesMinout, Mohammed 24 August 2007 (has links)
L'introduction du temps dans les bases de données classiques et spatiales apparaît de plus en plus, aujourd'hui, comme une nécessité pour une gestion optimale de l'historicité. En effet, les applications de bases de données spatio-temporelles sont présentes dans un grand nombre d'applications. Le besoin, par exemple, est de sauvegarder l'historique des géométries des parcelles dans le système d'information d'un plan cadastral, la prévention d'incendie dans le système de gestion forestière, le système de navigation des véhicules, etc. Cet historique des phénomènes permet de mieux comprendre ce qui s'est produit dans le passé, de manière à éventuellement anticiper certaines évolutions futures.
Etant donné ces nouveaux besoins, cette thèse se focalise sur la modélisation et l'implantation des aspects temporels dans bases de données. En effet, la conception d'une application de base de données se fait par un enchaînement de trois phases (conceptuelle, logique et physique). Au niveau conceptuel, plusieurs modèles conceptuels ont été proposés intégrant les caractéristiques temporelles et spatiales.
Malheureusement, au niveau logique, les modèles de données des SGBD actuels n'offrent pas les concepts nécessaires pour implanter le modèle conceptuel spatio-temporel. Nous proposons donc de nouvelles règles de traductions d'un schéma conceptuel, basé sur le modèle MADS (Modélisation des Applications à des données spatio-temporelles), en un schéma logique MADSLog pour les modèles cibles à savoir : relationnel et relationnel-objet. Chaque règle transforme un concept structurel, temporel et spatial du modèle MADS en un ou plusieurs concepts supportés par la cible. Par exemple, la propriété spatiale définissant la géométrie d'un type d'objet est traduite par la création d'un nouvel attribut de type spatial dans ce type d'objet. Un outil CASE(Computer-Aided Software Engineering) appelé Schema Translateur est développé dans cette thèse implémentant toutes les règles de traductions.
La traduction de schémas conceptuels en schémas logiques peut impliquer une perte sémantique en raison de la différence de la puissance d'expression entre le modèle conceptuel et le modèle de données des SGBD existants. D'où la nécessité de générer un ensemble de contraintes d'intégrité afin de préserver la sémantique définie dans le schéma conceptuel. Ces contraintes sont exprimées à ce niveau par des formules logiques.
Avec l'apparition de GML (Geographic Markup Language ) qui est conçu pour la modélisation, le transport et le stockage d'informations géographiques. Nous transformons également le schéma conceptuel MADS en GML. De nouveaux schémas GML temporel et spatial sont définis qui peuvent être employés par n'importe application de base de données spatio-temporelle.
Au niveau physique, nous proposons une méthode d'adaptation du schéma logique en schéma physique pour le modèle relationnel-objet.
Elle permet de définir les tables, les types abstraits, les types d'objets, les domaines, etc. Notre proposition permet aussi la génération des contraintes d'intégrité au niveau physique. En effet, chaque contrainte d'intégrité (structurelle, temporelle ou spatiale) qui est définie en calcul logique est exprimée soit directement par des contraintes déclaratives ou soit par des déclencheurs du SGBD choisi. Les déclencheurs spatiaux sont fondés sur les fonctionnalités prédéfinies dans Oracle, alors que les déclencheurs temporels sont basés sur les opérateurs et méthodes appliquées sur les types temporels.
Enfin, la traduction de requêtes est une deuxième clef de cette recherche. Le but de la traduction de requêtes, exprimées en algèbre, étant de reconstituer l'information au sens MADS à partir de la base de données stockées dans le SGDB cible. Elle permet de traduire les expressions algébriques MADS, qui sont définies sur le schéma conceptuel et non sur le schéma physique, en requêtes opérationnelles qui peuvent être exécutées sur une base de données spatiale et temporelle sous un SGBD ou un SIG.
|
4 |
Développement d'une base de données bioinformatique spécialisée GBank UQAMDjema, Rabah January 2008 (has links) (PDF)
La base de données GBank de l'UQAM a été développée afin de pallier certains problèmes majeurs posés par l'utilisation de la base de données GenBank du NCBI. En effet, les problèmes suivants ont déclenché le développement de GBank UQAM: 1-Certaines requêtes complexes utilisées par les bioinformaticiens sont lentes en raison notamment de la taille énorme et toujours croissante de la base de données. 2-Les bioinformaticiens de l'UQAM dépendent entièrement de la base de NCBI. En cas de sa panne, ils n'ont pas de possibilité d'y accéder. 3-Les utilisateurs n'ont aucun contrôle sur la base de données GenBank. En plus, ils dépendent entièrement des mises à jour du NCBI. 4-Les outils de GenBank pour le filtrage des données ne sont pas toujours adaptés aux besoins des bioinformaticiens intéressés par l'analyse phylogénétique. Ceci mène les bioinformaticiens de se soumettre au mode de fonctionnement de la base GenBank. GBank UQAM se voit donc un sous-ensemble de la base GenBank international, qui résout en totalité ou partiellement les problèmes posés ci-dessus. Ceci a été rendu possible notamment grâce à l'utilisation de la base de données Oracle 10g qui offre plusieurs caractéristiques intéressantes. La nouvelle base de l'UQAM permettrait donc: 1-d'Améliorer le temps de réponse: Étant traité localement, nous pouvons offrir un temps d'accès nettement meilleur. 2-de Mieux contrôler les données: Nous pouvons organiser les données selon nos besoins et donc rendre la base de données plus optimale. En effet, maintenant nous sommes capables de filtrer les données selon nos besoins spécifiques ce qui augmente nettement notre productivité. 3-d'Optimiser la base de données: Avec des temps de réponses améliorés et une plus grande maniabilité dans la gestion de la base de données de l'UQAM, il nous est possible d'optimiser continuellement notre base de données pour la rendre plus évolutive et plus adaptée à nos besoins futurs. Afin de mieux exploiter la nouvelle base de données, nous avons élaboré une interface utilisateur facile et conviviale qui répond à tous les besoins des utilisateurs (bioinformaticiens) d'une base de données bioinformatique. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : GBank UQAM, Bioinformatique, Oracle10g, Performances, T-REX.
|
5 |
Développement d'une base de données orientée-objets pour l'étude de la dynamique des changements d'utilisation du sol et des changements de propriétaires dans la municipalité de Godmanchester au QuébecBruel, Mireille January 2002 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
6 |
Contributions théoriques à la conception et l'évaluation d'un système d'informations appliqué à la gestionDelobel, Claude 17 October 1973 (has links) (PDF)
.
|
7 |
Concordance between childhood injury diagnoses from an injury surveillance system and a physician billing claims databaseKostylova, Alla January 2005 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
8 |
MC-Map, un nouvel outil d'intégration de motifsSt-Onge, Nicolas January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
9 |
XML security views : queries, updates and schemas / Vues de sécurité XML : requêtes, mises à jour et schémasGroz, Benoît 05 October 2012 (has links)
Les évolutions technologiques ont consacré l'émergence des services web et du stockage des données en ligne, en complément des bases de données traditionnelles. Ces évolutions facilitent l'accès aux données, mais en contrepartie soulèvent de nouvelles problématiques de sécurité. La mise en œuvre de politiques de contrôle d'accès appropriées est une des approches permettant de réduire ces risques. Nous étudions ici les politiques de contrôle d'accès au niveau d'un document XML, politiques que nous modélisons par des vues de sécurité XML (non matérialisées) à l'instar de Fan et al. Ces vues peuvent être représentées facilement par des alignements d'arbres grâce à l'absence d'opérateurs arithmétiques ou de restructuration. Notre objectif est par conséquent d'examiner comment manipuler efficacement ce type de vues, à l'aide des méthodes formelles, et plus particulièrement des techniques de réécriture de requêtes et la théorie des automates d'arbres. Trois directions principales ont orienté nos recherches: nous avons tout d'abord élaboré des algorithmes pour évaluer l'expressivité d'une vue, en fonction des requêtes qui peuvent être exprimées à travers cette vue. Il s'avère que l'on ne peut décider en général si une vue permet d'exprimer une requête particulière, mais cela devient possible lorsque la vue satisfait des hypothèses générales. En second lieu, nous avons considéré les problèmes soulevés par la mises à jour du document à travers une vue. Enfin, nous proposons des solutions pour construire automatiquement un schéma de la vue. En particulier, nous présentons différentes techniques pour représenter de façon approchée l'ensemble des documents au moyen d'une DTD. / The evolution of web technologies and social trends fostered a shift from traditional enterprise databases to web services and online data. While making data more readily available to users, this evolution also raises additional security concerns regarding the privacy of users and more generally the disclosure of sensitive information. The implementation of appropriate access control models is one of the approaches to mitigate the threat. We investigate an access control model based on (non-materialized) XML views, as presented among others by Fan et al. The simplicity of such views, and in particular the absence of arithmetic features and restructuring, facilitates their modelization with tree alignments. Our objective is therefore to investigate how to manipulate efficiently such views, using formal methods, and especially query rewriting and tree automata. Our research follows essentially three directions: we first develop new algorithms to assess the expressivity of views, in terms of determinacy, query rewriting and certain answers. We show that those problems, although undecidable in our most general setting, can be decided under reasonable restrictions. Then we address the problem of handling updates in the security view framework. And last, we investigate the classical issues raised by schemata, focusing on the specific "determinism'' requirements of DTDs and XML Schemata. In particular, we survey some techniques to approximate the set of all possible view documents with a DTD, and we provide new algorithms to check if the content models of a DTD are deterministic.
|
10 |
Elicitation of relevant information from medical databases : application to the encoding of secondary diagnoses / Elicitation de l'information pertinente à partir de bases de données médicales : application au codage des diagnostics secondairesChahbandarian, Ghazar 10 November 2017 (has links)
Dans cette thèse, nous nous concentrons sur le codage du séjour d'hospitalisation en codes standards. Ce codage est une tâche médicale hautement sensible dans les hôpitaux français, nécessitant des détails minutieux et une haute précision, car le revenu de l'hôpital en dépend directement. L'encodage du séjour d'hospitalisation comprend l'encodage du diagnostic principal qui motive le séjour d'hospitalisation et d'autres diagnostics secondaires qui surviennent pendant le séjour. Nous proposons une analyse rétrospective mettant en oeuvre des méthodes d'apprentissage, sur la tâche d'encodage de certains diagnostics secondaires sélectionnés. Par conséquent, la base de données PMSI, une grande base de données médicales qui documente toutes les informations sur les séjours d'hospitalisation en France.} est analysée afin d'extraire à partir de séjours de patients hospitalisés antérieurement, des variables décisives (Features). Identifier ces variables permet de pronostiquer le codage d'un diagnostic secondaire difficile qui a eu lieu avec un diagnostic principal fréquent. Ainsi, à la fin d'une session de codage, nous proposons une aide pour les codeurs en proposant une liste des encodages pertinents ainsi que des variables utilisées pour prédire ces encodages. Les défis nécessitent une connaissance métier dans le domaine médical et une méthodologie d'exploitation efficace de la base de données médicales par les méthodes d'apprentissage automatique. En ce qui concerne le défi lié à la connaissance du domaine médical, nous collaborons avec des codeurs experts dans un hôpital local afin de fournir un aperçu expert sur certains diagnostics secondaires difficiles à coder et afin d'évaluer les résultats de la méthodologie proposée. En ce qui concerne le défi lié à l'exploitation des bases de données médicales par des méthodes d'apprentissage automatique, plus spécifiquement par des méthodes de "Feature Selection" (FS), nous nous concentrons sur la résolution de certains points : le format des bases de données médicales, le nombre de variables dans les bases de données médicales et les variables instables extraites des bases de données médicales. Nous proposons une série de transformations afin de rendre le format de la base de données médicales, en général sous forme de bases de données relationnelles, exploitable par toutes les méthodes de type FS. Pour limiter l'explosion du nombre de variables représentées dans la base de données médicales, généralement motivée par la quantité de diagnostics et d'actes médicaux, nous analysons l'impact d'un regroupement de ces variables dans un niveau de représentation approprié et nous choisissons le meilleur niveau de représentation. Enfin, les bases de données médicales sont souvent déséquilibrées à cause de la répartition inégale des exemples positifs et négatifs. / In the thesis we focus on encoding inpatient episode into standard codes, a highly sensitive medical task in French hospitals, requiring minute detail and accuracy, since the hospital's income directly depends on it. Encoding inpatient episode includes encoding the primary diagnosis that motivates the hospitalisation stay and other secondary diagnoses that occur during the stay. Unlike primary diagnosis, encoding secondary diagnoses is prone to human error, due to the difficulty of collecting relevant data from different medical sources, or to the outright absence of relevant data that helps encoding the diagnosis. We propose a retrospective analysis on the encoding task of some selected secondary diagnoses. Hence, the PMSI database is analysed in order to extract, from previously encoded inpatient episodes, the decisive features to encode a difficult secondary diagnosis occurred with frequent primary diagnosis. Consequently, at the end of an encoding session, once all the features are available, we propose to help the coders by proposing a list of relevant encodings as well as the features used to predict these encodings. Nonetheless, a set of challenges need to be addressed for the development of an efficient encoding help system. The challenges include, an expert knowledge in the medical domain and an efficient exploitation methodology of the medical database by Machine Learning methods. With respect to the medical domain knowledge challenge, we collaborate with expert coders in a local hospital in order to provide expert insight on some difficult secondary diagnoses to encode and in order to evaluate the results of the proposed methodology. With respect to the medical databases exploitation challenge, we use ML methods such as Feature Selection (FS), focusing on resolving several issues such as the incompatible format of the medical databases, the excessive number features of the medical databases in addition to the unstable features extracted from the medical databases. Regarding to issue of the incompatible format of the medical databases caused by relational databases, we propose a series of transformation in order to make the database and its features more exploitable by any FS methods. To limit the effect of the excessive number of features in the medical database, usually motivated by the amount of the diagnoses and the medical procedures, we propose to group the excessive number features into a proper representation level and to study the best representation level. Regarding to issue of unstable features extracted from medical databases, as the dataset linked with diagnoses are highly imbalanced due to classification categories that are unequally represented, most existing FS methods tend not to perform well on them even if sampling strategies are used. We propose a methodology to extract stable features by sampling the dataset multiple times and extracting the relevant features from each sampled dataset. Thus, we propose a methodology that resolves these issues and extracts stable set of features from medical database regardless to the sampling method and the FS method used in the methodology. Lastly, we evaluate the methodology by building a classification model that predicts the studied diagnoses out of the extracted features. The performance of the classification model indicates the quality of the extracted features, since good quality features produces good classification model. Two scales of PMSI database are used: local and regional scales. The classification model is built using the local scale of PMSI and tested out using both local and regional scales. Hence, we propose applying our methodology to increase the integrity of the encoded diagnoses and to prevent missing important encodings. We propose modifying the encoding process and providing the coders with the potential encodings of the secondary diagnoses as well as the features that lead to this encoding.
|
Page generated in 0.0287 seconds