Spelling suggestions: "subject:"cogestion dde base dde données"" "subject:"cogestion dde base dee données""
1 |
Interrogation des bases de données XML probabilistes / Querying probabilistic XMLSouihli, Asma 21 September 2012 (has links)
XML probabiliste est un modèle probabiliste pour les bases de données incertaines semi-structurées, avec des applications telles que l'intégration incertaine de données, l'extraction d'informations ou le contrôle probabiliste de versions. Nous explorons dans cette thèse une solution efficace pour l'évaluation des requêtes tree-pattern avec jointures sur ces documents, ou, plus précisément, pour l'approximation de la probabilité d'une requête booléenne sur un document probabiliste. L'approche repose sur, d'une part, la production de la provenance probabiliste de la requête posée, et, d'autre part, la recherche d'une stratégie optimale pour estimer la probabilité de cette provenance. Cette deuxième partie s'inspire des approches des optimiseurs de requêtes: l'exploration de différents plans d'évaluation pour différentes parties de la formule et l'estimation du coût de chaque plan, suivant un modèle de coût établi pour les algorithmes de calcul utilisés. Nous démontrons l'efficacité de cette approche sur des jeux de données utilisés dans des travaux précédents sur l'interrogation des bases de données XML probabilistes, ainsi que sur des données synthétiques. / Probabilistic XML is a probabilistic model for uncertain tree-structured data, with applications to data integration, information extraction, or uncertain version control. We explore in this dissertation efficient algorithms for evaluating tree-pattern queries with joins over probabilistic XML or, more specifically, for approximating the probability of each item of a query result. The approach relies on, first, extracting the query lineage over the probabilistic XML document, and, second, looking for an optimal strategy to approximate the probability of the propositional lineage formula. ProApproX is the probabilistic query manager for probabilistic XML presented in this thesis. The system allows users to query uncertain tree-structured data in the form of probabilistic XML documents. It integrates a query engine that searches for an optimal strategy to evaluate the probability of the query lineage. ProApproX relies on a query-optimizer--like approach: exploring different evaluation plans for different parts of the formula and predicting the cost of each plan, using a cost model for the various evaluation algorithms. We demonstrate the efficiency of this approach on datasets used in a number of most popular previous probabilistic XML querying works, as well as on synthetic data. An early version of the system was demonstrated at the ACM SIGMOD 2011 conference. First steps towards the new query solution were discussed in an EDBT/ICDT PhD Workshop paper (2011). A fully redesigned version that implements the techniques and studies shared in the present thesis, is published as a demonstration at CIKM 2012. Our contributions are also part of an IEEE ICDE
|
2 |
SGBD open-source pour historisation de données et impact des mémoires flashChardin, Brice 07 December 2011 (has links) (PDF)
L'archivage de données industrielles est un problème complexe : il s'agit de stocker un grand nombre de données sur plusieurs décennies, tout en supportant la charge des insertions temps réel et des requêtes d'extraction et d'analyse. Pour ce type d'application, des produits " de niche " se sont spécialisés pour ce segment du marché : les progiciels d'historisation. Il s'agit de solutions propriétaires avec des coûts de licence de l'ordre de plusieurs dizaines de milliers d'euros, et dont le fonctionnement interne n'est pas dévoilé. Nous avons donc dans un premier temps mis en évidence les spécificités de ces progiciels d'historisation, tant au niveau des fonctionnalités que des performances. Néanmoins, l'archivage de données industrielles peut s'appliquer à des contexte très différents. L'IGCBox par exemple est un mini PC industriel utilisant MySQL pour l'archivage à court terme des données de production des centrales hydrauliques d'EDF. Ce matériel présente quelques spécificités, la principale étant son système de mémoire non volatile basé uniquement sur la technologie flash, pour sa fiabilité importante en milieu industriel et sa faible consommation d'énergie. Les SGBD possèdent pour des raisons historiques de nombreuses optimisations spécifiques aux disques durs, et le manque d'optimisation adaptée aux mémoires flash peut dégrader significativement les performances. Le choix de ce type de mémoire a donc eu des répercussions notables sur les performances pour l'insertion, avec une dégradation importante par rapport aux disques durs. Nous avons donc proposé Chronos, un SGBD dédié à l'historisation de données sur mémoires flash. Pour cela, nous avons en particulier identifié un algorithme d'écriture " quasi-séquentiel " efficace pour accéder à la mémoire, ainsi que des mécanismes de bufferisation et de mise à jour d'index optimisés pour les charges typiques de l'historisation. Les résultats expérimentaux montrent un gain significatif pour les insertions par rapport à des solutions équivalentes, d'un facteur 20 à 54. Chronos est donc une solution compétitive lorsque les insertions correspondent à une proportion importante de la charge soumise au SGBD. En particulier pour les charges typiques des IGCBox, Chronos se distingue en proposant des performances globales améliorées d'un facteur 4 à 18 par rapport aux autres solutions.
|
3 |
L'HYPERTEXTE COMME MODE D'EXPLOITATION DES RESULTATS D'OUTILS ET METHODES D'ANALYSE DE L'INFORMATION SCIENTIFIQUE ET TECHNIQUEGrivel, Luc 10 January 2001 (has links) (PDF)
L'analyse de l'Information Scientifique et Technique (IST) stockée dans les bases de données bibliographiques requiert l'exploitation coordonnée de différentes techniques. Deux méthodes permettant de classer et représenter sur une carte thématique un ensemble de documents en se basant sur les mots-clés qui les indexent sont étudiées en profondeur. Ces études montrent que l'analyse et l'interprétation des résultats obtenus par de tels outils supposent un mélange d'exploration informelle intuitive et d'exploitation méthodique de l'information élaborée par ces outils d'analyse. En partant d'une métaphore, la navigation dans un océan d'informations, il est établi la nécessité de construire automatiquement des hypertextes à partir des données à analyser, en leur incorporant une carte de navigation et des indicateurs de positionnement thématique. L'exploration de cette voie débouche sur la conception et le développement d'un système informatique basé sur SGML (Standard Generalized MarkUp Language), HENOCH, qui permet de rassembler et d'organiser dans un SGBD (Système de Gestion de Bases de Données) des données bibliographiques normalisées et traitées par diverses techniques (linguistiques, classificatoires, cartographiques), puis de distribuer ces informations sur INTERNET via une interface de navigation générée automatiquement et adaptée à l'analyse de l'information. Il est montré expérimentalement que le couplage d'un hypertexte et d'un SGBD permet de modéliser et de mettre en place concrètement des mécanismes d'exploration de différentes représentations de l'information qui assistent l'utilisateur dans son interprétation des résultats des méthodes d'analyse. Les hypertextes générés par ce système sont évalué positivement par les utilisateurs de l'INIST-CNRS, où s'est effectué cette recherche. Ils en ont apprécié notamment l'ergonomie de navigation. Ses points faibles se situent au niveau du suivi des évolutions thématiques d'un corpus dans le temps. En guise de conclusion, quelques pistes d'améliorations sont ébauchées.
|
4 |
SGBD open-source pour historisation de données et impact des mémoires flash / Open-source DBMS for data historization and impact of flash memoriesChardin, Brice 07 December 2011 (has links)
L'archivage de données industrielles est un problème complexe : il s'agit de stocker un grand nombre de données sur plusieurs décennies, tout en supportant la charge des insertions temps réel et des requêtes d'extraction et d'analyse. Pour ce type d'application, des produits « de niche » se sont spécialisés pour ce segment du marché : les progiciels d'historisation. Il s'agit de solutions propriétaires avec des coûts de licence de l'ordre de plusieurs dizaines de milliers d'euros, et dont le fonctionnement interne n'est pas dévoilé. Nous avons donc dans un premier temps mis en évidence les spécificités de ces progiciels d'historisation, tant au niveau des fonctionnalités que des performances. Néanmoins, l'archivage de données industrielles peut s'appliquer à des contexte très différents. L'IGCBox par exemple est un mini PC industriel utilisant MySQL pour l'archivage à court terme des données de production des centrales hydrauliques d'EDF. Ce matériel présente quelques spécificités, la principale étant son système de mémoire non volatile basé uniquement sur la technologie flash, pour sa fiabilité importante en milieu industriel et sa faible consommation d'énergie. Les SGBD possèdent pour des raisons historiques de nombreuses optimisations spécifiques aux disques durs, et le manque d'optimisation adaptée aux mémoires flash peut dégrader significativement les performances. Le choix de ce type de mémoire a donc eu des répercussions notables sur les performances pour l'insertion, avec une dégradation importante par rapport aux disques durs. Nous avons donc proposé Chronos, un SGBD dédié à l'historisation de données sur mémoires flash. Pour cela, nous avons en particulier identifié un algorithme d'écriture « quasi-séquentiel » efficace pour accéder à la mémoire, ainsi que des mécanismes de bufferisation et de mise à jour d'index optimisés pour les charges typiques de l'historisation. Les résultats expérimentaux montrent un gain significatif pour les insertions par rapport à des solutions équivalentes, d'un facteur 20 à 54. Chronos est donc une solution compétitive lorsque les insertions correspondent à une proportion importante de la charge soumise au SGBD. En particulier pour les charges typiques des IGCBox, Chronos se distingue en proposant des performances globales améliorées d'un facteur 4 à 18 par rapport aux autres solutions. / Archiving industrial data is a complex issue: a large volume of data has to be stored for several decades while meeting performance requirements for real-time insertions, along with retrieval and analysis queries. For these applications, niche products have specialized in this market segment: data historians. Data historians are proprietary solutions, with license fees of tens of thousands of dollars, and whose internal mechanisms are not documented. Therefore, we first emphasized data historian specificities, with regards to functionalities as much as performance. However, archiving industrial data can occur in very different contexts. IGCBoxes for example are industrial mini PCs using MySQL for short-term data archiving in hydroelectric power stations at EDF. These equipments expose distinctive features, mainly on their storage system based exclusively on flash memory, for its reliability in an industrial environment and its low energy consumption. For historical reasons, DBMS include many hard disk drive-oriented optimizations, and the lack of adjustment for flash memories can significantly decrease performance. This type of memory thus had notable consequences on insert performance, with a substantial drop compared with hard disk drives. We therefore designed Chronos, a DBMS for historization data management on flash memories. For that purpose, we especially identified an efficient “quasi-sequential” write pattern on flash memories, along with buffer and index management techniques optimized for historization typical workloads. Experimental results demonstrate improved performance for insertions over different solutions, by a factor of 20 to 54. Chronos is therefore competitive when insertions make up an extensive part of the workload. For instance, Chronos stands out with the typical workload of IGCBoxes, with global performance improved by a factor of 4 to 18 compared with other solutions.
|
Page generated in 0.1487 seconds