Global ETD Search

181	Automatic assessment of OLAP exploration quality / Evaluation automatique de la qualité des explorations OLAP Djedaini, Mahfoud 06 December 2017 (has links) Avant l’arrivée du Big Data, la quantité de données contenues dans les bases de données était relativement faible et donc plutôt simple à analyser. Dans ce contexte, le principal défi dans ce domaine était d’optimiser le stockage des données, mais aussi et surtout le temps de réponse des Systèmes de Gestion de Bases de Données (SGBD). De nombreux benchmarks, notamment ceux du consortium TPC, ont été mis en place pour permettre l’évaluation des différents systèmes existants dans des conditions similaires. Cependant, l’arrivée de Big Data a complètement changé la situation, avec de plus en plus de données générées de jour en jour. Parallèlement à l’augmentation de la mémoire disponible, nous avons assisté à l’émergence de nouvelles méthodes de stockage basées sur des systèmes distribués tels que le système de fichiers HDFS utilisé notamment dans Hadoop pour couvrir les besoins de stockage technique et le traitement Big Data. L’augmentation du volume de données rend donc leur analyse beaucoup plus difficile. Dans ce contexte, il ne s’agit pas tant de mesurer la vitesse de récupération des données, mais plutôt de produire des séquences de requêtes cohérentes pour identifier rapidement les zones d’intérêt dans les données, ce qui permet d’analyser ces zones plus en profondeur, et d’extraire des informations permettant une prise de décision éclairée. / In a Big Data context, traditional data analysis is becoming more and more tedious. Many approaches have been designed and developed to support analysts in their exploration tasks. However, there is no automatic, unified method for evaluating the quality of support for these different approaches. Current benchmarks focus mainly on the evaluation of systems in terms of temporal, energy or financial performance. In this thesis, we propose a model, based on supervised automatic leaming methods, to evaluate the quality of an OLAP exploration. We use this model to build an evaluation benchmark of exploration support sys.terns, the general principle of which is to allow these systems to generate explorations and then to evaluate them through the explorations they produce. Exploration des données OLAP Benchmarking Données massives Interactive Data Exploration OLAP Business Intelligence Benchmarking Big Data
182	évaluation de la véracité des données : améliorer la découverte de la vérité en utilisant des connaissances a priori / data veracity assessment : enhancing truth discovery using a priori knowledge Beretta, Valentina 30 October 2018 (has links) Face au danger de la désinformation et de la prolifération de fake news (fausses nouvelles) sur le Web, la notion de véracité des données constitue un enjeu crucial. Dans ce contexte, il devient essentiel de développer des modèles qui évaluent de manière automatique la véracité des informations. De fait, cette évaluation est déjà très difficile pour un humain, en raison notamment du biais de confirmation qui empêche d’évaluer objectivement la fiabilité des informations. De plus, la quantité d'informations disponibles sur le Web rend cette tâche quasiment impossible. Il est donc nécessaire de disposer d'une grande puissance de calcul et de développer des méthodes capables d'automatiser cette tâche.Dans cette thèse, nous nous concentrons sur les modèles de découverte de la vérité. Ces approches analysent les assertions émises par différentes sources afin de déterminer celle qui est la plus fiable et digne de confiance. Cette étape est cruciale dans un processus d'extraction de connaissances, par exemple, pour constituer des bases de qualité, sur lesquelles pourront s'appuyer différents traitements ultérieurs (aide à la décision, recommandation, raisonnement…). Plus précisément, les modèles de la littérature sont des modèles non supervisés qui reposent sur un postulat : les informations exactes sont principalement fournies par des sources fiables et des sources fiables fournissent des informations exactes.Les approches existantes faisaient jusqu'ici abstraction de la connaissance a priori d'un domaine. Dans cette contribution, nous montrons comment les modèles de connaissance (ontologies de domaine) peuvent avantageusement être exploités pour améliorer les processus de recherche de vérité. Nous insistons principalement sur deux approches : la prise en compte de la hiérarchisation des concepts de l'ontologie et l'identification de motifs dans les connaissances qui permet, en exploitant certaines règles d'association, de renforcer la confiance dans certaines assertions. Dans le premier cas, deux valeurs différentes ne seront plus nécessairement considérées comme contradictoires ; elles peuvent, en effet, représenter le même concept mais avec des niveaux de détail différents. Pour intégrer cette composante dans les approches existantes, nous nous basons sur les modèles mathématiques associés aux ordres partiels. Dans le second cas, nous considérons des modèles récurrents (modélisés en utilisant des règles d'association) qui peuvent être dérivés à partir des ontologies et de bases de connaissances existantes. Ces informations supplémentaires peuvent renforcer la confiance dans certaines valeurs lorsque certains schémas récurrents sont observés. Chaque approche est validée sur différents jeux de données qui sont rendus disponibles à la communauté, tout comme le code de calcul correspondant aux deux approches. / The notion of data veracity is increasingly getting attention due to the problem of misinformation and fake news. With more and more published online information it is becoming essential to develop models that automatically evaluate information veracity. Indeed, the task of evaluating data veracity is very difficult for humans. They are affected by confirmation bias that prevents them to objectively evaluate the information reliability. Moreover, the amount of information that is available nowadays makes this task time-consuming. The computational power of computer is required. It is critical to develop methods that are able to automate this task.In this thesis we focus on Truth Discovery models. These approaches address the data veracity problem when conflicting values about the same properties of real-world entities are provided by multiple sources.They aim to identify which are the true claims among the set of conflicting ones. More precisely, they are unsupervised models that are based on the rationale stating that true information is provided by reliable sources and reliable sources provide true information. The main contribution of this thesis consists in improving Truth Discovery models considering a priori knowledge expressed in ontologies. This knowledge may facilitate the identification of true claims. Two particular aspects of ontologies are considered. First of all, we explore the semantic dependencies that may exist among different values, i.e. the ordering of values through certain conceptual relationships. Indeed, two different values are not necessary conflicting. They may represent the same concept, but with different levels of detail. In order to integrate this kind of knowledge into existing approaches, we use the mathematical models of partial order. Then, we consider recurrent patterns that can be derived from ontologies. This additional information indeed reinforces the confidence in certain values when certain recurrent patterns are observed. In this case, we model recurrent patterns using rules. Experiments that were conducted both on synthetic and real-world datasets show that a priori knowledge enhances existing models and paves the way towards a more reliable information world. Source code as well as synthetic and real-world datasets are freely available. Découverte de la vérité Ontologies Données liées Qualite des données Truth Discovery Ontologies Linked data Data quality
183	Optimisation de la collecte de données dans les réseaux de capteurs sans fil : application au projet Everblu d’Itron / Data collection optimization in Wireless Sensor Networks : application to the Everblu smart metering Network Abid, Besem 23 March 2015 (has links) Les réseaux de capteurs sans fil contiennent de nombreux nœuds capables de recueillir et de transmettre des données de manière autonome. Optimiser la collecte de données est une tâche importante pour ces réseaux. Cette optimisation passe par trois axes: 1. L'agrégation des paquets pour réduire le trafic dans le réseau.2. Éviter les interférences et les collisions de paquets. 3. Une bonne stratégie de déploiement des nœuds. D'abord, nous avons travaillé sur l'agrégation de données dans les réseaux de capteurs. Cette technique permet au réseau de réduire la consommation d'énergie en éliminant les paquets redondants, et en combinant plusieurs paquets pour les envoyer en un seul paquet. Dans notre travail, nous avons considéré les applications temps réel dans les réseaux de capteurs. Nous avons proposé une solution qui combine un clustering multi-niveaux avec un mécanisme de transmission de données entre les clusterheads qui favorise l'agrégation. En outre, nous avons développé une nouvelle approche distribuée pour construire un backbone virtuel dans les réseaux de capteurs. Les nœuds du backbone sont les nœuds d'agrégation. Cette technique permet de réduire la consommation d'énergie et améliore la tolérance aux pannes et ainsi augmente la quantité de données qui atteint la station de base. Ensuite, nous nous sommes concentrés sur la façon dont les capteurs accèdent au canal de transmission via les protocoles MAC afin de diminuer le risque de collision des paquets. L'originalité de notre travail est lié à l'utilisation des nœuds mobiles et les applications temps réel dans les réseaux de capteurs sans fil. En effet, ces deux critères ont toujours été traités de façon séparée. Toute approche développée qui vise à améliorer la performance du réseau ne fonctionne bien qu'avec une bonne stratégie de déploiement sur le terrain. Par conséquent, nous proposons une nouvelle solution pour estimer les positions des différents composants du réseau et nous fournissons un nouvel outil pour aider les techniciens sur terrain lors de l'installation de ces composants. Notre solution de déploiement a été appliquée à un réseau de compteurs intelligents appelé EverBlu. Ce système est une solution de collecte de données sans fil développée par Itron. Il est adapté à tout type de compteur (eau, gaz et chaleur) et pour différentes topologies de sites, que ce soit en milieu urbain ou rural / Wireless sensor networks (WSNs) contain many nodes able to collect and transmit data autonomously. Optimizing data collection is an important issue in these networks. This optimization goes through three axis: 1. Packet aggregation to reduce the traffic in the network. 2. Avoiding interference and packets collision. 3. A good deployment strategy in field. We firstly worked on data aggregation in WSNs which enables the network to reduce energy consumption by removing redundant packets, and by combining packets together and sending them as one packet. In our research, we considered real-time applications in WSNs. For these networks, we proposed a solution that combines a multi-level clustering with a data transmission mechanism between cluster heads that promotes aggregation. In addition, we developed a new distributed approach to construct a virtual backbone in a WSN. The nodes inside the backbone are the aggregator nodes. This technique reduces the energy consumption and enhances fault tolerance which increases the amount of data that reaches the sink even when some nodes fail in the network. Then, we focus on how the sensors access to the transmission channel via Medium Access Control (MAC) protocols in order to decrease the risk of packets collision. The originality of our work is related to mobile nodes and real-time WSN applications. In fact, these two criteria were always treated independently. Any developed approach that aims to enhance the network performance works well only with a good deployment strategy in field. Therefore we propose a new solution to predict the different network components and we provide a new tool to assist the technicians in field while installing these components. Our deployment solution was applied to a smart metering network called EverBlu. This system is a wireless data collection solution developed by Itron. It is suitable for any meter type (Water, Gas and Heat) and for various site topologies, either in urban or rural environments Réseaux de capteurs sans fil Noeuds Agrégation de données Wireless sensor networks Nodles Agrégation de données 004
184	Caractérisation logique de données : application aux données biologiques / Logical Characterization of Data : application to Biological Data Chambon, Arthur 13 December 2017 (has links) L’analyse de groupes de données binaires est aujourd’hui un défi au vu des quantités de données collectées. Elle peut être réalisée par des approches logiques. Ces approches identifient dessous-ensembles d’attributs booléens pertinents pour caractériser les observations d’un groupe et peuvent aider l’utilisateur à mieux comprendre les propriétés de ce groupe.Cette thèse présente une approche pour caractériser des groupes de données binaires en identifiant un sous-ensemble minimal d’attributs permettant de distinguer les données de différents groupes.Nous avons défini avec précision le problème de la caractérisation multiple et proposé de nouveaux algorithmes qui peuvent être utilisés pour résoudre ses différentes variantes. Notre approche de caractérisation de données peut être étendue à la recherche de patterns (motifs) dans le cadre de l’analyse logique de données. Un pattern peut être considéré comme une explication partielle des observations positives pouvant être utilisées par les praticiens, par exemple à des fins de diagnostic. De nombreux patterns existent et plusieurs critères de préférence peuvent être ajoutés pour se concentrer sur des ensembles plus restreints (prime patterns,strong patterns,. . .). Nous proposons donc une comparaison entre ces deux méthodologies ainsi que des algorithmes pour générer des patterns. Un autre objectif est d’étudier les propriétés des solutions calculées en fonction des propriétés topologiques des instances. Des expériences sont menées sur de véritables ensembles de données biologiques. / Analysis of groups of binary data is now a challenge given the amount of collected data. It can be achieved by logical based approaches. These approaches identify subsets of relevant Boolean attributes to characterize the observations of a group and may help the user to better understand the properties of this group. This thesis presents an approach for characterizing groups of binary data by identifying a minimal subset of attributes that allows to distinguish data from different groups. We have precisely defined the multiple characterization problem and proposed new algorithms that can be used to solve its different variants. Our data characterization approach can be extended to search for patterns in the framework of logical analysis of data. A pattern can be considered as a partial explanation of the positive observations that can be used by practitioners, for instance for diagnosis purposes. Many patterns may exist and several preference criteria can be added in order to focus on more restricted sets of patterns (prime patterns, strong patterns, . . . ). We propose a comparison between these two methodologies as well as algorithms for generating patterns. The purpose is also to precisely study the properties of the solutions that are computed with regards to the topological properties of the instances. Experiments are thus conducted on real biological data. Caractérisation logique de données Données biologiques Logical Characterization of Data Biological Data Boolean Functions 004
185	Data structures for current multi-core and future many-core architectures / Structures de données pour des architectures multi-cœur actuelles et de futures architectures many-cœur Kanellou, Eleni 14 December 2015 (has links) Actuellement, la majorité des architectures de processeurs sont fondées sur une mémoire partagée avec cohérence de caches. Des prototypes intégrant de grandes quantités de cœurs, reliés par une infrastructure de transmission de messages, indiquent que, dans un proche avenir, les architectures de processeurs vont probablement avoir ces caractéristiques. Ces deux tendances exigent que les processus s'exécutent en parallèle et rendent la programmation concurrente nécessaire. Cependant, la difficulté inhérente du raisonnement sur la concurrence peut rendre ces nouvelles machines difficiles à programmer. Nous explorons trois approches ayant pour but de faciliter la programmation concurrente. Nous proposons WFR-TM, une approche fondé sur la mémoire transactionnelle (TM), un paradigme de programmation concurrente qui utilise des transactions afin de synchroniser l'accès aux données partagées. Une transaction peut soit terminer (commit), rendant visibles ses modifications, soit échouer (abort), annulant toutes ses modifications. WFR-TM tente de combiner des caractéristiques désirables des TM optimistes et pessimistes. Une TM pessimiste n'échoue jamais aucune transaction; néanmoins les algorithmes existants utilisent des verrous pour exécuter de manière séquentielle les transactions qui contiennent des opérations d'écriture. Les algorithmes TM optimistes exécutent toutes les transactions en parallèle mais les terminent seulement si elles n'ont pas rencontré de conflit au cours de leur exécution. WFR-TM fournit des transactions en lecture seule qui sont wait-free, sans jamais exécuter d'opérations de synchronisation coûteuse (par ex. CAS, LL\SC, etc) ou sacrifier le parallélisme entre les transactions d'écriture. Nous présentons également Dense, une implémentation concurrente de graphe. Les graphes sont des structures de données polyvalentes qui permettent la mise en oeuvre d'une variété d'applications. Cependant, des applications multi-processus qui utilisent des graphes utilisent encore largement des versions séquentielles. Nous introduisons un nouveau modèle de graphes concurrents, permettant l'ajout ou la suppression de n'importe quel arc du graphe, ainsi que la traversée atomique d'une partie (ou de l'intégralité) du graphe. Dense offre la possibilité d'effectuer un snapshot partiel d'un sous-ensemble du graphe défini dynamiquement. Enfin, nous ciblons les futures architectures. Dans l'intérêt de la réutilisation du code il existe depuis quelques temps une tentative d'adaptation des environnements d'exécution de logiciel - comme par ex. JVM, l'environnement d'exécution de Java - initialement prévus pour mémoire partagée, à des machines sans cohérence de caches. Nous étudions des techniques générales pour implémenter des structures de données distribuées en supposant qu'elles vont être utilisées sur des architectures many-core, qui n'offrent qu'une cohérence partielle de caches, voir pas de cohérence du tout. / Though a majority of current processor architectures relies on shared, cache-coherent memory, current prototypes that integrate large amounts of cores, connected through a message-passing substrate, indicate that architectures of the near future may have these characteristics. Either of those tendencies requires that processes execute in parallel, making concurrent programming a necessary tool. The inherent difficulty of reasoning about concurrency, however, may make the new processor architectures hard to program. In order to deal with issues such as this, we explore approaches for providing ease of programmability. We propose WFR-TM, an approach based on transactional memory (TM), which is a concurrent programming paradigm that employs transactions in order to synchronize the access to shared data. A transaction may either commit, making its updates visible, or abort, discarding its updates. WFR-TM combines desirable characteristics of pessimistic and optimistic TM. In a pessimistic TM, no transaction ever aborts; however, in order to achieve that, existing TM algorithms employ locks in order to execute update transactions sequentially, decreasing the degree of achieved parallelism. Optimistic TMs execute all transactions concurrently but commit them only if they have encountered no conflict during their execution. WFR-TM provides read-only transactions that are wait-free, without ever executing expensive synchronization operations (like CAS, LL/SC, etc), or sacrificing the parallelism between update transactions. We further present Dense, a concurrent graph implementation. Graphs are versatile data structures that allow the implementation of a variety of applications. However, multi-process applications that rely on graphs still largely use a sequential implementation. We introduce an innovative concurrent graph model that provides addition and removal of any edge of the graph, as well as atomic traversals of a part (or the entirety) of the graph. Dense achieves wait-freedom by relying on light-weight helping and provides the inbuilt capability of performing a partial snapshot on a dynamically determined subset of the graph. We finally aim at predicted future architectures. In the interest of ode reuse and of a common paradigm, there is recent momentum towards porting software runtime environments, originally intended for shared-memory settings, onto non-cache-coherent machines. JVM, the runtime environment of the high-productivity language Java, is a notable example. Concurrent data structure implementations are important components of the libraries that environments like these incorporate. With the goal of contributing to this effort, we study general techniques for implementing distributed data structures assuming they have to run on many-core architectures that offer either partially cache-coherent memory or no cache coherence at all and present implementations of stacks, queues, and lists. Mémoire transactionnelle logicielle Programmation concurrente Structures de données Structures de données (informatique) Stm Concurrent programming Data structures
186	Composition guidée de services : application aux workflows d’analyse de données en bio-informatique / Guided composition of services : application to workflow for data analysis in bioinformatics Ba, Mouhamadou 04 December 2015 (has links) Dans les domaines scientifiques, particulièrement en bioinformatique, des services élémentaires sont composés sous forme de workflows pour effectuer des expériences d’analyse de données complexes. À cause de l’hétérogénéité des ressources, la composition de services est une tâche difficile. Les utilisateurs, en composant des workflows, manquent d’assistance pour retrouver et interconnecter les services compatibles. Les solutions existantes utilisent des services spéciaux définis de manière manuelle pour gérer les conversions de formats de données entre les entrées et sorties des services dans les workflows. Cela est pénible pour un utilisateur final. Gérer les incompatibilités des services avec des convertisseurs manuels prend du temps et est lourd. Il existe des solutions automatisées pour faciliter la composition de workflows mais elles sont généralement limitées dans le guidage et l’adaptation des données entre services. La première contribution de cette thèse propose de détecter systématiquement la convertibilité des sorties vers les entrées des services. La détection de convertibilité repose sur un système de règles basé sur une abstraction des types d’entrée et sortie des services. L’abstraction de types permet de considérer la nature et la composition des données d’entrée et sortie. Les règles permettent la décomposition et la composition ainsi que la spécialisation et la généralisation de types. Elles permettent également de générer des convertisseurs de données à utiliser entre services dans les workflows. La deuxième contribution propose une approche interactive qui permet de guider des utilisateurs à composer des workflows en fournissant des suggestions de services et de liaisons compatibles basées sur la convertibilité de types d’entrée et sortie des services. L’approche est basée sur le modèle des Systèmes d’Information Logiques (LIS) qui permettent des requêtes et une navigation guidées et sûres sur des données représentées avec une logique uniforme. Avec notre approche, la composition de workflows est sûre et complète vis-à-vis de propriétés désirées. Les résultats et les expériences, effectués sur des services et des types de données en bioinformatique, montrent la pertinence de nos approches. Nos approches offrent des mécanismes adaptés pour gérer les incompatibilités de services dans les workflows, en prenant en compte la structure composite des données d’entrée et sortie. Elles permettent également de guider, étape par étape, des utilisateurs à définir des workflows bien formés à travers des suggestions pertinentes. / In scientific domains, particularly in bioinformatics, elementary services are composed as workflows to perform complex data analysis experiments. Due to the heterogeneity of resources, the composition of services is a difficult task. Users, when composing workflows, lack assistance to find and interconnect compatible services. Existing solutions use special services manually defined to manage data format conversions between the inputs and outputs of services in workflows, it is difficult for an end user. Managing service incompatibilities with manual converters is time-consuming and heavy. There are automated solutions to facilitate composing workflows but they are generally limited in the guidance and the data adaptation between services they offer. The first contribution of this thesis proposes to systematically detect convertibility from outputs to inputs of services. Convertibility detection relies on a rule system based on an abstraction of input and output types of services. Type abstraction enables to consider the nature and the composition of input and output data. Rules enable decomposition and composition as well as specialization and generalization of types. They also enable to generate data converters to use between services in workflows. The second contribution proposes an interactive approach that enables to guide users to compose workflows by providing suggestions of compatible services and links based on convertibility of input and output types of services. The approach is based on the framework of Logical Information Systems (LIS) that enables safe and guided requests and navigation on data represented with a uniform logic. With our approach, composition of workflows is safe and complete w.r.t. desired properties. The results and experiences, conducted on bioinformatics services and datatypes, show the relevance of our approaches. Our approaches offer adapted mechanisms to manage service incompatibilities in workflows, by taking into account the composite structure of inputs and outputs data. They enable to guide, step by step, users to define well-formed workflows through relevant suggestions. Flux de données Composition guidée de données Workflow Service Data analysis Guided composition of services Bioinformatics 004
187	Inversion des observations spatiales micro-ondes pour la détermination de la température du sol en présence de neige Kohn, Jacqueline January 2009 (has links) The soil temperature is an essential parameter for the energy balance of the earth. Many methods have been developed to determine summer surface temperature, but the determination in the presence of snow is an ill-conditioned problem since it requires the differentiation of several temperatures (surface of snow, temperature gradient within the snowpack and temperature at the snow/soil interface). Our project was motivated by the need to improve the estimation of soil temperature, within the first centimeters of soil, under the snowpack.The passive microwave remote sensing could provide this information. We showed the potential of the passive microwave brightness temperature inversion at 10 GHz (derived from AMSR-E, version V5) for the estimation of the soil temperature by using a physical multilayer snow model (SNTHERM) coupled with a snow microwave emission model (HUT).The snow model is driven with measurements from meteorological stations (air temperature, precipitation, air relative humidity, wind speed) and data generated by the NARR meteorological reanalysis.The coupled model is validated with in-situ measurements and the retrieved soil temperatures are compared to those derived from the snow model and NARR.The overall root mean square error in the soil temperature retrieval is 3.29 K, which is lower than the error derived from models without the use of remote sensing. This validation must consider the fact that we are comparing temperatures from a point station to that corresponding to an area of 25 x 25 km on the satellite scale. We also show the possibility of mapping the soil temperature. This original procedure constitutes a very promising tool to characterize the soil under snow (frozen or not), as well as its evolution in locations where measurements are unavailable Modèle de neige Température du sol Validation Données météorologiques Données micro-ondes AMSR-E Télédétection
188	Intégration de données par médiation basée sur les ontologies pour l'analyse en ligne (OLAP) à la demande / Ontology-based data integration by mediation for on-line analysis (OLAP) on-the-fly Maiz, Nora 06 July 2010 (has links) Les systèmes d’aide à la décision existants sont modélisés selon un modèle multidimensionneldédié à l’analyse. Leurs principales limitations sont leur structure statique, leur volume et lefait qu’ils ne prennent pas en compte ni l’évolution des sources de données ni celle desbesoins d’analyse. Dans cette thèse, nous proposons une architecture dynamique pourl’analyse en ligne à la demande qui est différente d’un entreposage physique de données dansune base cible avec un modèle figé. Les données dans notre architecture peuvent continuer àévoluer et dans leur contenu et dans leur structure selon l’activité ou l’environnement qu’ellesdécrivent. Le recueil de données et leur structuration sous forme de contextes d’analyse se faitdonc au moment où l’on souhaite effectuer les diverses analyses envisagées. L’accès auxsources de données ne se fera alors qu’à ce moment.Pour pouvoir mettre en oeuvre cette architecture, nous envisageons une solution selon deuxgrands axes :– La construction d’un système d’intégration de données fondé sur une approche parmédiation. Afin de rendre la recherche de données pertinente, il fallait décrire defaçon plus proche de la réalité les sources de données. Pour cela, nous avons optépour l’utilisation des ontologies comme modèle de description des sources ainsique de leurs relations.– La mise en place d’un dispositif de création de contextes d’analyse à la demandesous forme de cubes de données. Ce dispositif est basé également sur l’utilisationde l’ontologie du domaine décisionnel et d’un entrepôt de cubes de données. / Current decisional systems are modelled according to a multidimensional model which, isdedicated to on-line analysis. Their principal limitations lie in their structure, their volume andthat they do not take into account data sources and analysis needs evolution. In this thesis, wepropose a dynamic architecture for on-line analysis on-the-fly which is different fromwarehousing data in a target base with a fixed model.In our architecture, data can continue to evolve in their sources according to the activity thatthey describe. Collecting and structuring data in analysis contexts is when we want to makeanalysis.To implement this architecture, we consider a solution composed of two main parts:- The construction of a data integration system by mediation based on ontologies.- The implementation of a dispositive to building analysis contexts on-the-fly which isbased on ontologies to describe the decisional domain. Intégration de données Médiateur Contextes d’analyse à la demande Cube de données Data integration Mediation Ontology Analysis contexts on-the-fly Datawarehouse
189	Accéler la préparation des données pour l'analyse du big data / Accelerating data preparation for big data analytics Tian, Yongchao 07 April 2017 (has links) Nous vivons dans un monde de big data, où les données sont générées en grand volume, grande vitesse et grande variété. Le big data apportent des valeurs et des avantages énormes, de sorte que l’analyse des données est devenue un facteur essentiel de succès commercial dans tous les secteurs. Cependant, si les données ne sont pas analysées assez rapidement, les bénéfices de big data seront limités ou même perdus. Malgré l’existence de nombreux systèmes modernes d’analyse de données à grande échelle, la préparation des données est le processus le plus long de l’analyse des données, n’a pas encore reçu suffisamment d’attention. Dans cette thèse, nous étudions le problème de la façon d’accélérer la préparation des données pour le big data d’analyse. En particulier, nous nous concentrons sur deux grandes étapes de préparation des données, le chargement des données et le nettoyage des données. Comme première contribution de cette thèse, nous concevons DiNoDB, un système SQL-on-Hadoop qui réalise l’exécution de requêtes à vitesse interactive sans nécessiter de chargement de données. Les applications modernes impliquent de lourds travaux de traitement par lots sur un grand volume de données et nécessitent en même temps des analyses interactives ad hoc efficaces sur les données temporaires générées dans les travaux de traitement par lots. Les solutions existantes ignorent largement la synergie entre ces deux aspects, nécessitant de charger l’ensemble des données temporaires pour obtenir des requêtes interactives. En revanche, DiNoDB évite la phase coûteuse de chargement et de transformation des données. L’innovation importante de DiNoDB est d’intégrer à la phase de traitement par lots la création de métadonnées que DiNoDB exploite pour accélérer les requêtes interactives. La deuxième contribution est un système de flux distribué de nettoyage de données, appelé Bleach. Les approches de nettoyage de données évolutives existantes s’appuient sur le traitement par lots pour améliorer la qualité des données, qui demandent beaucoup de temps. Nous ciblons le nettoyage des données de flux dans lequel les données sont nettoyées progressivement en temps réel. Bleach est le premier système de nettoyage qualitatif de données de flux, qui réalise à la fois la détection des violations en temps réel et la réparation des données sur un flux de données sale. Il s’appuie sur des structures de données efficaces, compactes et distribuées pour maintenir l’état nécessaire pour nettoyer les données et prend également en charge la dynamique des règles. Nous démontrons que les deux systèmes résultants, DiNoDB et Bleach, ont tous deux une excellente performance par rapport aux approches les plus avancées dans nos évaluations expérimentales, et peuvent aider les chercheurs à réduire considérablement leur temps consacré à la préparation des données. / We are living in a big data world, where data is being generated in high volume, high velocity and high variety. Big data brings enormous values and benefits, so that data analytics has become a critically important driver of business success across all sectors. However, if the data is not analyzed fast enough, the benefits of big data will be limited or even lost. Despite the existence of many modern large-scale data analysis systems, data preparation which is the most time-consuming process in data analytics has not received sufficient attention yet. In this thesis, we study the problem of how to accelerate data preparation for big data analytics. In particular, we focus on two major data preparation steps, data loading and data cleaning. As the first contribution of this thesis, we design DiNoDB, a SQL-on-Hadoop system which achieves interactive-speed query execution without requiring data loading. Modern applications involve heavy batch processing jobs over large volume of data and at the same time require efficient ad-hoc interactive analytics on temporary data generated in batch processing jobs. Existing solutions largely ignore the synergy between these two aspects, requiring to load the entire temporary dataset to achieve interactive queries. In contrast, DiNoDB avoids the expensive data loading and transformation phase. The key innovation of DiNoDB is to piggyback on the batch processing phase the creation of metadata, that DiNoDB exploits to expedite the interactive queries. The second contribution is a distributed stream data cleaning system, called Bleach. Existing scalable data cleaning approaches rely on batch processing to improve data quality, which are very time-consuming in nature. We target at stream data cleaning in which data is cleaned incrementally in real-time. Bleach is the first qualitative stream data cleaning system, which achieves both real-time violation detection and data repair on a dirty data stream. It relies on efficient, compact and distributed data structures to maintain the necessary state to clean data, and also supports rule dynamics. We demonstrate that the two resulting systems, DiNoDB and Bleach, both of which achieve excellent performance compared to state-of-the-art approaches in our experimental evaluations, and can help data scientists significantly reduce their time spent on data preparation. Big data Base de données Système distribué Nettoyage de données Big data Database Distributed system Data cleaning
190	Au-delà des frontières entre langages de programmation et bases de données / Breaking boundaries between programming languages and databases Lopez, Julien 13 September 2019 (has links) Plusieurs classes de solutions permettent d'exprimer des requêtes dans des langages de programmation: les interfaces spécifiques telles que JDBC, les mappings objet-relationnel ou object-relational mapping en anglais (ORMs) comme Hibernate, et les frameworks de requêtes intégrées au langage comme le framework LINQ de Microsoft. Cependant, la plupart de ces solutions ne permet de requêtes visant plusieurs bases de données en même temps, et aucune ne permet l'utilisation de logique d'application complexe dans des requêtes aux bases de données. Dans cette thèse, nous détaillons la création d'un framework de requêtes intégrées au langage nommé BOLDR qui permet d'évaluer dans les bases de données des requêtes écrites dans des langages de programmation généralistes qui contiennent de la logique d'application, et qui ciblent différentes bases de données potentiellement basées sur des modèles de données différents. Dans ce framework, les requêtes d'une application sont traduites vers une représentation intermédiaire de requêtes, puis réécrites pour éviter le phénomène "d'avalanche de requêtes" et pour profiter au maximum des capacités d'optimisation des bases de données, et enfin envoyées pour évaluation vers les bases de données ciblées et les résultats obtenus sont convertis dans le langage de programmation de l'application. Nos expériences montrent que les techniques implémentées dans ce framework sont applicables pour de véritables applications centrées données, et permettent de gérer efficacement un vaste champ de requêtes intégrées à des langages de programmation généralistes. / Several classes of solutions allow programming languages to express queries: Specific APIs such as JDBC, Object-Relational Mappings (ORMs) such as Hibernate, and language-integrated query frameworks such as Microsoft's LINQ. However, most of these solutions do not allow for efficient cross-databases queries, and none allow the use of complex application logic from the programming language in queries. In this thesis, we create a language-integrated query framework called BOLDR that, in particular, allows the evaluation in databases of queries written in general-purpose programming languages that contain application logic, and that target different databases of possibly different data models. In this framework, application queries are translated to an intermediate representation, then rewritten in order to avoid query avalanches and make the most out of database optimizations, and finally sent for evaluation to the corresponding databases and the results are converted back to the application. Our experiments show that the techniques we implemented are applicable to real-world database applications, successfully handling a variety of language-integrated queries with good performances. Bases de données Requêtes intégrées au langage Langages centrés données Databases Language-integrated queries Data-centric languages

Search results