Global ETD Search

Return to search

Approximation of OLAP queries on data warehouses / Approximation aux requêtes OLAP sur les entrepôts de données

Nous étudions les réponses proches à des requêtes OLAP sur les entrepôts de données. Nous considérons les réponses relatives aux requêtes OLAP sur un schéma, comme les distributions avec la distance L1 et rapprocher les réponses sans stocker totalement l'entrepôt de données. Nous présentons d'abord trois méthodes spécifiques: l'échantillonnage uniforme, l'échantillonnage basé sur la mesure et le modèle statistique. Nous introduisons également une distance d'édition entre les entrepôts de données avec des opérations d'édition adaptées aux entrepôts de données. Puis, dans l'échange de données OLAP, nous étudions comment échantillonner chaque source et combiner les échantillons pour rapprocher toutes requêtes OLAP. Nous examinons ensuite un contexte streaming, où un entrepôt de données est construit par les flux de différentes sources. Nous montrons une borne inférieure de la taille de la mémoire nécessaire aux requêtes approximatives. Dans ce cas, nous avons les réponses pour les requêtes OLAP avec une mémoire finie. Nous décrivons également une méthode pour découvrir les dépendances statistique, une nouvelle notion que nous introduisons. Nous recherchons ces dépendances en basant sur l'arbre de décision. Nous appliquons la méthode à deux entrepôts de données. Le premier simule les données de capteurs, qui fournissent des paramètres météorologiques au fil du temps et de l'emplacement à partir de différentes sources. Le deuxième est la collecte de RSS à partir des sites web sur Internet. / We study the approximate answers to OLAP queries on data warehouses. We consider the relative answers to OLAP queries on a schema, as distributions with the L1 distance and approximate the answers without storing the entire data warehouse. We first introduce three specific methods: the uniform sampling, the measure-based sampling and the statistical model. We introduce also an edit distance between data warehouses with edit operations adapted for data warehouses. Then, in the OLAP data exchange, we study how to sample each source and combine the samples to approximate any OLAP query. We next consider a streaming context, where a data warehouse is built by streams of different sources. We show a lower bound on the size of the memory necessary to approximate queries. In this case, we approximate OLAP queries with a finite memory. We describe also a method to discover the statistical dependencies, a new notion we introduce. We are looking for them based on the decision tree. We apply the method to two data warehouses. The first one simulates the data of sensors, which provide weather parameters over time and location from different sources. The second one is the collection of RSS from the web sites on Internet.

http://www.theses.fr/2013PA112091/document

OLAP

Réponses proches de la requête

Échange de données OLAP

Flux de données

Distance d'édition

Algorithme d'échantillonnage

Dépendances statistiques

Modèle statistique

OLAP

Approximate query answering

Statistical dependencies

Statistical model

Identifer	oai:union.ndltd.org:theses.fr/2013PA112091
Date	20 June 2013
Creators	Cao, Phuong Thao
Contributors	Paris 11, Rougemont, Michel de, Spyratos, Nicolas
Source Sets	Dépôt national des thèses électroniques françaises
Language	English
Detected Language	French
Type	Electronic Thesis or Dissertation, Text, Image, StillImage

Page generated in 0.0022 seconds

Approximation of OLAP queries on data warehouses / Approximation aux requêtes OLAP sur les entrepôts de données

Description

Links & Downloads

Tags

Additional Fields