Global ETD Search

11	XML security views : queries, updates and schemas / Vues de sécurité XML : requêtes, mises à jour et schémas Groz, Benoît 05 October 2012 (has links) Les évolutions technologiques ont consacré l'émergence des services web et du stockage des données en ligne, en complément des bases de données traditionnelles. Ces évolutions facilitent l'accès aux données, mais en contrepartie soulèvent de nouvelles problématiques de sécurité. La mise en œuvre de politiques de contrôle d'accès appropriées est une des approches permettant de réduire ces risques. Nous étudions ici les politiques de contrôle d'accès au niveau d'un document XML, politiques que nous modélisons par des vues de sécurité XML (non matérialisées) à l'instar de Fan et al. Ces vues peuvent être représentées facilement par des alignements d'arbres grâce à l'absence d'opérateurs arithmétiques ou de restructuration. Notre objectif est par conséquent d'examiner comment manipuler efficacement ce type de vues, à l'aide des méthodes formelles, et plus particulièrement des techniques de réécriture de requêtes et la théorie des automates d'arbres. Trois directions principales ont orienté nos recherches: nous avons tout d'abord élaboré des algorithmes pour évaluer l'expressivité d'une vue, en fonction des requêtes qui peuvent être exprimées à travers cette vue. Il s'avère que l'on ne peut décider en général si une vue permet d'exprimer une requête particulière, mais cela devient possible lorsque la vue satisfait des hypothèses générales. En second lieu, nous avons considéré les problèmes soulevés par la mises à jour du document à travers une vue. Enfin, nous proposons des solutions pour construire automatiquement un schéma de la vue. En particulier, nous présentons différentes techniques pour représenter de façon approchée l'ensemble des documents au moyen d'une DTD. / The evolution of web technologies and social trends fostered a shift from traditional enterprise databases to web services and online data. While making data more readily available to users, this evolution also raises additional security concerns regarding the privacy of users and more generally the disclosure of sensitive information. The implementation of appropriate access control models is one of the approaches to mitigate the threat. We investigate an access control model based on (non-materialized) XML views, as presented among others by Fan et al. The simplicity of such views, and in particular the absence of arithmetic features and restructuring, facilitates their modelization with tree alignments. Our objective is therefore to investigate how to manipulate efficiently such views, using formal methods, and especially query rewriting and tree automata. Our research follows essentially three directions: we first develop new algorithms to assess the expressivity of views, in terms of determinacy, query rewriting and certain answers. We show that those problems, although undecidable in our most general setting, can be decided under reasonable restrictions. Then we address the problem of handling updates in the security view framework. And last, we investigate the classical issues raised by schemata, focusing on the specific "determinism'' requirements of DTDs and XML Schemata. In particular, we survey some techniques to approximate the set of all possible view documents with a DTD, and we provide new algorithms to check if the content models of a DTD are deterministic. Réécriture de requêtes Schémas (bases de données) Mises à jour (base de données) 005.741
12	Elicitation of relevant information from medical databases : application to the encoding of secondary diagnoses / Elicitation de l'information pertinente à partir de bases de données médicales : application au codage des diagnostics secondaires Chahbandarian, Ghazar 10 November 2017 (has links) Dans cette thèse, nous nous concentrons sur le codage du séjour d'hospitalisation en codes standards. Ce codage est une tâche médicale hautement sensible dans les hôpitaux français, nécessitant des détails minutieux et une haute précision, car le revenu de l'hôpital en dépend directement. L'encodage du séjour d'hospitalisation comprend l'encodage du diagnostic principal qui motive le séjour d'hospitalisation et d'autres diagnostics secondaires qui surviennent pendant le séjour. Nous proposons une analyse rétrospective mettant en oeuvre des méthodes d'apprentissage, sur la tâche d'encodage de certains diagnostics secondaires sélectionnés. Par conséquent, la base de données PMSI, une grande base de données médicales qui documente toutes les informations sur les séjours d'hospitalisation en France.} est analysée afin d'extraire à partir de séjours de patients hospitalisés antérieurement, des variables décisives (Features). Identifier ces variables permet de pronostiquer le codage d'un diagnostic secondaire difficile qui a eu lieu avec un diagnostic principal fréquent. Ainsi, à la fin d'une session de codage, nous proposons une aide pour les codeurs en proposant une liste des encodages pertinents ainsi que des variables utilisées pour prédire ces encodages. Les défis nécessitent une connaissance métier dans le domaine médical et une méthodologie d'exploitation efficace de la base de données médicales par les méthodes d'apprentissage automatique. En ce qui concerne le défi lié à la connaissance du domaine médical, nous collaborons avec des codeurs experts dans un hôpital local afin de fournir un aperçu expert sur certains diagnostics secondaires difficiles à coder et afin d'évaluer les résultats de la méthodologie proposée. En ce qui concerne le défi lié à l'exploitation des bases de données médicales par des méthodes d'apprentissage automatique, plus spécifiquement par des méthodes de "Feature Selection" (FS), nous nous concentrons sur la résolution de certains points : le format des bases de données médicales, le nombre de variables dans les bases de données médicales et les variables instables extraites des bases de données médicales. Nous proposons une série de transformations afin de rendre le format de la base de données médicales, en général sous forme de bases de données relationnelles, exploitable par toutes les méthodes de type FS. Pour limiter l'explosion du nombre de variables représentées dans la base de données médicales, généralement motivée par la quantité de diagnostics et d'actes médicaux, nous analysons l'impact d'un regroupement de ces variables dans un niveau de représentation approprié et nous choisissons le meilleur niveau de représentation. Enfin, les bases de données médicales sont souvent déséquilibrées à cause de la répartition inégale des exemples positifs et négatifs. / In the thesis we focus on encoding inpatient episode into standard codes, a highly sensitive medical task in French hospitals, requiring minute detail and accuracy, since the hospital's income directly depends on it. Encoding inpatient episode includes encoding the primary diagnosis that motivates the hospitalisation stay and other secondary diagnoses that occur during the stay. Unlike primary diagnosis, encoding secondary diagnoses is prone to human error, due to the difficulty of collecting relevant data from different medical sources, or to the outright absence of relevant data that helps encoding the diagnosis. We propose a retrospective analysis on the encoding task of some selected secondary diagnoses. Hence, the PMSI database is analysed in order to extract, from previously encoded inpatient episodes, the decisive features to encode a difficult secondary diagnosis occurred with frequent primary diagnosis. Consequently, at the end of an encoding session, once all the features are available, we propose to help the coders by proposing a list of relevant encodings as well as the features used to predict these encodings. Nonetheless, a set of challenges need to be addressed for the development of an efficient encoding help system. The challenges include, an expert knowledge in the medical domain and an efficient exploitation methodology of the medical database by Machine Learning methods. With respect to the medical domain knowledge challenge, we collaborate with expert coders in a local hospital in order to provide expert insight on some difficult secondary diagnoses to encode and in order to evaluate the results of the proposed methodology. With respect to the medical databases exploitation challenge, we use ML methods such as Feature Selection (FS), focusing on resolving several issues such as the incompatible format of the medical databases, the excessive number features of the medical databases in addition to the unstable features extracted from the medical databases. Regarding to issue of the incompatible format of the medical databases caused by relational databases, we propose a series of transformation in order to make the database and its features more exploitable by any FS methods. To limit the effect of the excessive number of features in the medical database, usually motivated by the amount of the diagnoses and the medical procedures, we propose to group the excessive number features into a proper representation level and to study the best representation level. Regarding to issue of unstable features extracted from medical databases, as the dataset linked with diagnoses are highly imbalanced due to classification categories that are unequally represented, most existing FS methods tend not to perform well on them even if sampling strategies are used. We propose a methodology to extract stable features by sampling the dataset multiple times and extracting the relevant features from each sampled dataset. Thus, we propose a methodology that resolves these issues and extracts stable set of features from medical database regardless to the sampling method and the FS method used in the methodology. Lastly, we evaluate the methodology by building a classification model that predicts the studied diagnoses out of the extracted features. The performance of the classification model indicates the quality of the extracted features, since good quality features produces good classification model. Two scales of PMSI database are used: local and regional scales. The classification model is built using the local scale of PMSI and tested out using both local and regional scales. Hence, we propose applying our methodology to increase the integrity of the encoded diagnoses and to prevent missing important encodings. We propose modifying the encoding process and providing the coders with the potential encodings of the secondary diagnoses as well as the features that lead to this encoding. Apprentissage automatique Sélection d'attribut Base de données CIM10 PMSI
13	Création, partage et transfert d'ensembles de données terminologiques basés sur SKOS Zoghlami, Mohamed Kaiser 08 1900 (has links) (PDF) Depuis quelques années, la recherche sur la normalisation des ensembles de données terminologiques a été une des plus grandes préoccupations d'un groupe de travail du World Wide Web Consortium. Ce travail de recherche a permis de développer un nouveau standard SKOS qui a été ensuite émis en 2009 en tant que recommandation du W3C. Le travail de recherche que nous entreprenons dans ce mémoire concerne ce standard. Notre étude consiste à réaliser à partir de cette recommandation un modèle conceptuel fiable et cohérent reprenant les principaux éléments de SKOS et de son extension. Elle consiste aussi à prototyper un outil reposant sur ce modèle qui permettrait de gérer, de manipuler et de partager des ensembles de données terminologiques basés sur SKOS. Pour ce faire, une méthodologie de recherche bien précise a été adoptée et diverses recherches concernant le standard SKOS et le type d'ensemble de données terminologiques ont été réalisées. A partir de ces recherches, nous avons proposé un modèle conceptuel de SKOS et nous avons conçu et prototypé l'outil le supportant, qui a été par la suite testé à travers des cas d'utilisation réels. Ces tests ont permis d'évaluer l'outil et de démontrer sa capacité à manipuler des données normalisées en SKOS en toute simplicité. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Gestion de connaissances, SKOS, RDF, gestion des KOS, ensembles de données terminologiques basés sur SKOS, exportation SKOS, glossaires, thésaurus. Base de données terminologiques Échange de données informatisées SKOS (Langage de balisage)
14	Relations entre bases de données et ontologies dans le cadre du web des données Curé, Olivier 11 October 2010 (has links) (PDF) Ce manuscrit présente mon intérêt pour la conception des méthodes et algorithmes nécessaires pour la réalisation d'applications avancées pour le web sémantique. Cette extension du web actuel vise à autoriser l'intégration et le partage de données entre organismes et applications. Une conséquence directe du succès de cette approche permettrait de considérer le web comme une base de données globale contenant les données stockées sur toutes les machines connectées. Cet aspect s'exprime bien dans le site web dédié à l'activité web sémantique du W3C, qui déclare que le web sémantique est un web des données. Ainsi, ce web des données permettra de soumettre des requêtes structurées sur tous les ensembles de données connectés, et de récupérer des résultats pertinents provenant de sources diverses et hétérogènes. Une question essentielle liée à cette hétérogénéité concerne la notion de sémantique. Dans le contexte du web sémantique, elle est généralement traitée avec des ontologies et les opérations de médiation associées. Ma recherche s'ancrent dans ces thématiques et ce manuscrit vise à présenter quelques unes de mes recherches et résultats, ainsi qu'à décrire certaines des applications que j'ai conçues et implémentées base de données DBOM médiation d'ontologies
15	Paris Stock Exchange 1870-1914 : financial information and portfolio choices / Place de Paris 1870-1914 : information financière et choix de portefeuille Edlinger, Cécile 20 June 2016 (has links) Cette thèse se compose de quatre chapitres dédiés à l'étude de la Bourse de Paris et des investissements français entre 1874 et 1914. Elle relève d'une démarche cliométrique : les faits historiques sont analysés en mobilisant les outils statistiques et théoriques de l'économie financière.Le premier chapitre participe à la réécriture de l'histoire de l'économie financière. Il démontre que les conseils financiers français avant 1914 relèvent d'une proto-science, prémices à la Théorie Moderne du Portefeuille (T.M.P.) développée à partir des années 1960s. Il justifie l'utilisation, dans le second chapitre, de la T.M.P. pour l'évaluation de la rationalité des choix de portefeuilles internationaux. Nous démontrons la rationalité des flux massifs de capitaux à l'étranger et en particulier à destination des pays européens. Nous constatons la rationalité de la préférence européenne des investisseurs français et le biais des investissements britanniques en faveur des "nouvelles nations". Le troisième chapitre présente une base de données inédite composée des rentabilités mensuelles de tous les types de titres cotés à la Bourse de Paris entre 1874 et 1914. Il s'agit d'un indicateur fiable des performances de la Bourse de Paris et de l'information publique en France sur cette période. Dans le quatrième chapitre, nous réalisons la première évaluation des conseils de l'analyste financier français A. Neymarck (1913), à la veille de 1914. Nous montrons que le risque de chaque catégorie d'actifs est correctement perçu, l'existence d'une hiérarchisation des portefeuilles proposés en fonction de la richesse de l'investisseur et mettons en avant les imperfections de ces conseils. / This PhD dissertation is composed of four chapters dedicated to the study of the Paris Stock Exchange and French investments from 1874 to 1914. It follows a cliometric approach, whereby historical facts are analysed using the statistical and theoretical tools of financial economics.The first chapter contributes to a re-evaluation of the history of financial economics. It shows that French financial advice before 1914 was part of a proto-science which laid the foundations for the Modern Portfolio Theory (M.P.T.) developed from the 1960s onwards. This finding justifies the use of the M.P.T in the second chapter to assess the rationality of international portfolio choices. We demonstrate the rationality of huge capital flows toward foreign countries and in particular toward European countries. We note the rationality of the French investor's preference for European securities, and the bias towards "young nations" in British investments. The third chapter introduces an original database composed of the monthly returns for all the types of securities listed on the Paris Stock Exchange from 1874 to 1914. It is a reliable indicator of Paris Stock Exchange performances and of the public information available in France at that time. In the fourth chapter, we make the first assessment of the advice provided by the French financial analyst A. Neymarck (1913), prior to 1914. We show that the risk of each asset category is correctly evaluated, evidence the ranking of the suggested portfolios according to the investors' wealth, and pinpoint the few imperfections of his advice. Choix de portefeuille Base de données Économie financière 330.944 081
16	Interrogation des bases de données XML probabilistes / Querying probabilistic XML Souihli, Asma 21 September 2012 (has links) XML probabiliste est un modèle probabiliste pour les bases de données incertaines semi-structurées, avec des applications telles que l'intégration incertaine de données, l'extraction d'informations ou le contrôle probabiliste de versions. Nous explorons dans cette thèse une solution efficace pour l'évaluation des requêtes tree-pattern avec jointures sur ces documents, ou, plus précisément, pour l'approximation de la probabilité d'une requête booléenne sur un document probabiliste. L'approche repose sur, d'une part, la production de la provenance probabiliste de la requête posée, et, d'autre part, la recherche d'une stratégie optimale pour estimer la probabilité de cette provenance. Cette deuxième partie s'inspire des approches des optimiseurs de requêtes: l'exploration de différents plans d'évaluation pour différentes parties de la formule et l'estimation du coût de chaque plan, suivant un modèle de coût établi pour les algorithmes de calcul utilisés. Nous démontrons l'efficacité de cette approche sur des jeux de données utilisés dans des travaux précédents sur l'interrogation des bases de données XML probabilistes, ainsi que sur des données synthétiques. / Probabilistic XML is a probabilistic model for uncertain tree-structured data, with applications to data integration, information extraction, or uncertain version control. We explore in this dissertation efficient algorithms for evaluating tree-pattern queries with joins over probabilistic XML or, more specifically, for approximating the probability of each item of a query result. The approach relies on, first, extracting the query lineage over the probabilistic XML document, and, second, looking for an optimal strategy to approximate the probability of the propositional lineage formula. ProApproX is the probabilistic query manager for probabilistic XML presented in this thesis. The system allows users to query uncertain tree-structured data in the form of probabilistic XML documents. It integrates a query engine that searches for an optimal strategy to evaluate the probability of the query lineage. ProApproX relies on a query-optimizer--like approach: exploring different evaluation plans for different parts of the formula and predicting the cost of each plan, using a cost model for the various evaluation algorithms. We demonstrate the efficiency of this approach on datasets used in a number of most popular previous probabilistic XML querying works, as well as on synthetic data. An early version of the system was demonstrated at the ACM SIGMOD 2011 conference. First steps towards the new query solution were discussed in an EDBT/ICDT PhD Workshop paper (2011). A fully redesigned version that implements the techniques and studies shared in the present thesis, is published as a demonstration at CIKM 2012. Our contributions are also part of an IEEE ICDE Gestion de base de données Requête XML Database management XLM query
17	Application de la logique floue dans l'interpolation spatio-temporelle à l'aide d'un système d'information géographique Dragićević, Suzana January 1998 (has links) Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal. SIG Modélisation temporelle Base de données historiques Périurbain Dynamique des changements
18	Étude et évaluation d'une architecture de système pour les bases de données généralisées Burnier, Marc 21 September 1984 (has links) (PDF) Dans le cadre du projet TIGRE, on a mis en évidence les insuffisances de systèmes de gestion de données et plus particulièrement des systèmes de gestion de bases de données QUART à la manipulation de ces nouvelles informations volumineuses et structurellement complexes. Description des fondements de ces nouveaux types d'architectures et on aborde la phase d'expérimentation durant laquelle a été évaluée la machine base de données d'Intel, l'IDBP en l'opposant à une configuration plus traditionnelle définie autour de SOCRATE/CI. base de données généralisées machine base de données nouvelle architecture de SGBD nouvelle application évaluation DORSAL
19	Explicitation de la sémantique dans les<br />bases de données : Base de données à base ontologique et le modèle OntoDB Dehainsala, Hondjack 30 May 2007 (has links) (PDF) Une ontologie de domaine est une représentation de la sémantique des concepts d'un domaine<br />en termes de classes et de propriétés, ainsi que des relations qui les lient. Avec le développement de<br />modèles d'ontologies stables dans différents domaines, OWL dans le domaine duWeb sémantique,<br />PLIB dans le domaine technique, de plus en plus de données (ou de métadonnées) sont décrites par référence à ces ontologies. La taille croissante de telles données rend nécessaire de les gérer au sein de bases de données originales, que nous appelons bases de données à base ontologique (BDBO), et qui possèdent la particularité de représenter, outre les données, les ontologies qui en définissent le sens. Plusieurs architectures de BDBO ont ainsi été proposées au cours des dernières années. Les chémas qu'elles utilisent pour la représentation des données sont soit constitués d'une unique table de triplets de type (sujet, prédicat, objet), soit éclatés en des tables unaires et binaires respectivement pour chaque classe et pour chaque propriété. Si de telles représentations permettent une grande flexibilité dans la structure des données représentées, elles ne sont ni susceptibles de passer à grande échelle lorsque chaque instance est décrite par un nombre significatif de propriétés, ni adaptée à la structure des bases de données usuelles, fondée sur les relations n-aires. C'est ce double inconvénient que vise à résoudre le modèle OntoDB. En introduisant des hypothèses de typages qui semblent acceptables dans beaucoup de domaine d'application, nous proposons une architecture de BDBO constituée de quatre parties : les deux premières parties correspondent à la structure usuelle des bases de données : données reposant sur un schéma logique de données, et méta-base décrivant l'ensemble de la structure de tables.<br />Les deux autres parties, originales, représentent respectivement les ontologies, et le méta-modèle<br />d'ontologie au sein d'un méta-schéma réflexif. Des mécanismes d'abstraction et de nomination permettent respectivement d'associer à chaque donnée le concept ontologique qui en définit le sens, et d'accéder aux données à partir des concepts, sans se préoccuper de la représentation des données. Cette architecture permet à la fois de gérer de façon efficace des données de grande taille définies par référence à des ontologies (données à base ontologique), mais aussi d'indexer des bases de données usuelles au niveau connaissance en leur adjoignant les deux parties : ontologie et méta-schéma. Le modèle d'architecture que nous proposons a été validé par le développement d'un prototype opérationnel implanté sur le système PostgreSQL avec le modèle d'ontologie PLIB. Nous présentons également une évaluation comparative de nos propositions aux modèles présentés antérieurement. [INFO:INFO_OH] Computer Science/Other Base de données ontologie données à base ontologique PLIB RDF Schéma OWL
20	Protection cryptographique des bases de données : conception et cryptanalyse Jacob, Stéphane 08 March 2012 (has links) (PDF) Cette thèse présente une étude approfondie de la protection cryptographique des bases de données. Elle aborde tous les aspects de ce domaine : la législation l'encadrant, les produits commerciaux et " open-source " offrant ce type de service, et les travaux effectués par les communautés de cryptographie et de base de données. Cette étude se focalise notamment sur les systèmes d'information qui contiennent des données hautement sensibles. Dans ce contexte, nous avons étudié la sécurité de plusieurs propositions. En particulier, nous avons effectué une cryptanalyse de l'algorithme de chiffrement Fast Comparison Encryption (FCE) proposé par Ge et Zdonik en 2007, ainsi que d'une variante suggérée par les auteurs en réaction à notre première cryptanalyse. Ces deux attaques ont l'avantage d'être pratiques, c'est-à-dire qu'elles s'exécutent en temps raisonnable sur un PC standard. Ces travaux nous ont également conduit à proposer des façons sûres de protéger les bases de données en utilisant des algorithmes dont la sécurité a été éprouvée par la communauté cryptographique. Cela permet d'avoir des solutions robustes, à défaut d'être parfaites, pour protéger des données sensibles. cryptographie base de données données de santé cryptanalyse conception d'algorithmes externalisation

Search results