Global ETD Search

1	Declarative approach for long-term sensor data storage / Approche déclarative pour le stockage à long terme de données capteurs Charfi, Manel 21 September 2017 (has links) De nos jours, on a de plus en plus de capteurs qui ont tendance à apporter confort et facilité dans notre vie quotidienne. Ces capteurs sont faciles à déployer et à intégrer dans une variété d’applications (monitoring de bâtiments intelligents, aide à la personne,...). Ces milliers (voire millions)de capteurs sont de plus en plus envahissants et génèrent sans arrêt des masses énormes de données qu’on doit stocker et gérer pour le bon fonctionnement des applications qui en dépendent. A chaque fois qu'un capteur génère une donnée, deux dimensions sont d'un intérêt particulier : la dimension temporelle et la dimension spatiale. Ces deux dimensions permettent d'identifier l'instant de réception et la source émettrice de chaque donnée. Chaque dimension peut se voir associée à une hiérarchie de granularités qui peut varier selon le contexte d'application. Dans cette thèse, nous nous concentrons sur les applications nécessitant une conservation à long terme des données issues des flux de données capteurs. Notre approche vise à contrôler le stockage des données capteurs en ne gardant que les données jugées pertinentes selon la spécification des granularités spatio-temporelles représentatives des besoins applicatifs, afin d’améliorer l'efficacité de certaines requêtes. Notre idée clé consiste à emprunter l'approche déclarative développée pour la conception de bases de données à partir de contraintes et d'étendre les dépendances fonctionnelles avec des composantes spatiales et temporelles afin de revoir le processus classique de normalisation de schéma de base de données. Étant donné des flux de données capteurs, nous considérons à la fois les hiérarchies de granularités spatio-temporelles et les Dépendances Fonctionnelles SpatioTemporelles (DFSTs) comme objets de premier ordre pour concevoir des bases de données de capteurs compatibles avec n'importe quel SGBDR. Nous avons implémenté un prototype de cette architecture qui traite à la fois la conception de la base de données ainsi que le chargement des données. Nous avons mené des expériences avec des flux de donnés synthétiques et réels provenant de bâtiments intelligents. Nous avons comparé notre solution avec la solution de base et nous avons obtenu des résultats prometteurs en termes de performance de requêtes et d'utilisation de la mémoire. Nous avons également étudié le compromis entre la réduction des données et l'approximation des données. / Nowadays, sensors are cheap, easy to deploy and immediate to integrate into applications. These thousands of sensors are increasingly invasive and are constantly generating enormous amounts of data that must be stored and managed for the proper functioning of the applications depending on them. Sensor data, in addition of being of major interest in real-time applications, e.g. building control, health supervision..., are also important for long-term reporting applications, e.g. reporting, statistics, research data... Whenever a sensor produces data, two dimensions are of particular interest: the temporal dimension to stamp the produced value at a particular time and the spatial dimension to identify the location of the sensor. Both dimensions have different granularities that can be organized into hierarchies specific to the concerned context application. In this PhD thesis, we focus on applications that require long-term storage of sensor data issued from sensor data streams. Since huge amount of sensor data can be generated, our main goal is to select only relevant data to be saved for further usage, in particular long-term query facilities. More precisely, our aim is to develop an approach that controls the storage of sensor data by keeping only the data considered as relevant according to the spatial and temporal granularities representative of the application requirements. In such cases, approximating data in order to reduce the quantity of stored values enhances the efficiency of those queries. Our key idea is to borrow the declarative approach developed in the seventies for database design from constraints and to extend functional dependencies with spatial and temporal components in order to revisit the classical database schema normalization process. Given sensor data streams, we consider both spatio-temporal granularity hierarchies and Spatio-Temporal Functional Dependencies (STFDs) as first class-citizens for designing sensor databases on top of any RDBMS. We propose a specific axiomatisation of STFDs and the associated attribute closure algorithm, leading to a new normalization algorithm. We have implemented a prototype of this architecture to deal with both database design and data loading. We conducted experiments with synthetic and real-life data streams from intelligent buildings. Informatique Conception de base de données Flux de données Hiérarchies spatiotemporelles Information Technology Database design Data Flow Spatio-Temporal hierarchies 005.750 72
2	Contextualized access to distributed and heterogeneous multimedia data sources / Accès contextualisé aux sources de données multimédias distribuées et hétérogènes Vilsmaier, Christian 26 September 2014 (has links) Rendre les données multimédias disponibles en ligne devient moins cher et plus pratique sur une base quotidienne, par exemple par les utilisateurs eux-mêmes. Des phénomènes du Web comme Facebook, Twitter et Flickr bénéficient de cette évolution. Ces phénomènes et leur acceptation accrue conduisent à une multiplication du nombre d’images disponibles en ligne. La taille cumulée de ces images souvent publiques et donc consultables, est de l’ordre de plusieurs zettaoctets. L’exécution d’une requête de similarité sur de tels volumes est un défi que la communauté scientifique commence à cibler. Une approche envisagée pour faire face à ce problème propose d’utiliser un système distribué et hétérogène de recherche d’images basé sur leur contenu (CBIRs). De nombreux problèmes émergent d’un tel scénario. Un exemple est l’utilisation de formats de métadonnées distincts pour décrire le contenu des images; un autre exemple est l’information technique et structurelle inégale. Les métriques individuelles qui sont utilisées par les CBIRs pour calculer la similarité entre les images constituent un autre exemple. Le calcul de bons résultats dans ce contexte s’avère ainsi une tàche très laborieuse qui n’est pas encore scientifiquement résolue. Le problème principalement abordé dans cette thèse est la recherche de photos de CBIRs similaires à une image donnée comme réponse à une requête multimédia distribuée. La contribution principale de cette thèse est la construction d’un réseau de CBIRs sensible à la sémantique des contenus (CBIRn). Ce CBIRn sémantique est capable de collecter et fusionner les résultats issus de sources externes spécialisées. Afin d’être en mesure d’intégrer de telles sources extérieures, prêtes à rejoindre le réseau, mais pas à divulguer leur configuration, un algorithme a été développé capable d’estimer la configuration d’un CBIRS. En classant les CBIRs et en analysant les requêtes entrantes, les requêtes d’image sont exclusivement transmises aux CBIRs les plus appropriés. De cette fac ̧on, les images sans intérêt pour l’utilisateur peuvent être omises à l’avance. Les images retournées cells sont considérées comme similaires par rapport à l’image donnée pour la requête. La faisabilité de l’approche et l’amélioration obtenue par le processus de recherche sont démontrées par un développement prototypique et son évaluation utilisant des images d’ImageNet. Le nombre d’images pertinentes renvoyées par l’approche de cette thèse en réponse à une requête image est supérieur d’un facteur 4.75 par rapport au résultat obtenu par un réseau de CBIRs predéfini. / Making multimedia data available online becomes less expensive and more convenient on a daily basis. This development promotes web phenomenons such as Facebook, Twitter, and Flickr. These phenomena and their increased acceptance in society in turn leads to a multiplication of the amount of available images online. This vast amount of, frequently public and therefore searchable, images already exceeds the zettabyte bound. Executing a similarity search on the magnitude of images that are publicly available and receiving a top quality result is a challenge that the scientific community has recently attempted to rise to. One approach to cope with this problem assumes the use of distributed heterogeneous Content Based Image Retrieval system (CBIRs). Following from this anticipation, the problems that emerge from a distributed query scenario must be dealt with. For example the involved CBIRs’ usage of distinct metadata formats for describing their content, as well as their unequal technical and structural information. An addition issue is the individual metrics that are used by the CBIRs to calculate the similarity between pictures, as well as their specific way of being combined. Overall, receiving good results in this environment is a very labor intensive task which has been scientifically but not yet comprehensively explored. The problem primarily addressed in this work is the collection of pictures from CBIRs, that are similar to a given picture, as a response to a distributed multimedia query. The main contribution of this thesis is the construction of a network of Content Based Image Retrieval systems that are able to extract and exploit the information about an input image’s semantic concept. This so called semantic CBIRn is mainly composed of CBIRs that are configured by the semantic CBIRn itself. Complementarily, there is a possibility that allows the integration of specialized external sources. The semantic CBIRn is able to collect and merge results of all of these attached CBIRs. In order to be able to integrate external sources that are willing to join the network, but are not willing to disclose their configuration, an algorithm was developed that approximates these configurations. By categorizing existing as well as external CBIRs and analyzing incoming queries, image queries are exclusively forwarded to the most suitable CBIRs. In this way, images that are not of any use for the user can be omitted beforehand. The hereafter returned images are rendered comparable in order to be able to merge them to one single result list of images, that are similar to the input image. The feasibility of the approach and the hereby obtained improvement of the search process is demonstrated by a prototypical implementation. Using this prototypical implementation an augmentation of the number of returned images that are of the same semantic concept as the input images is achieved by a factor of 4.75 with respect to a predefined non-semantic CBIRn. Informatique Bases de données multimédia Recherche d'images Contexte sensitive Fusion de données Fusion de données Information Technology Multimedia databases Image retrieval Contexte sensitive Data Fusion Data merge 005.750 72
3	SGBD open-source pour historisation de données et impact des mémoires flash / Open-source DBMS for data historization and impact of flash memories Chardin, Brice 07 December 2011 (has links) L'archivage de données industrielles est un problème complexe : il s'agit de stocker un grand nombre de données sur plusieurs décennies, tout en supportant la charge des insertions temps réel et des requêtes d'extraction et d'analyse. Pour ce type d'application, des produits « de niche » se sont spécialisés pour ce segment du marché : les progiciels d'historisation. Il s'agit de solutions propriétaires avec des coûts de licence de l'ordre de plusieurs dizaines de milliers d'euros, et dont le fonctionnement interne n'est pas dévoilé. Nous avons donc dans un premier temps mis en évidence les spécificités de ces progiciels d'historisation, tant au niveau des fonctionnalités que des performances. Néanmoins, l'archivage de données industrielles peut s'appliquer à des contexte très différents. L'IGCBox par exemple est un mini PC industriel utilisant MySQL pour l'archivage à court terme des données de production des centrales hydrauliques d'EDF. Ce matériel présente quelques spécificités, la principale étant son système de mémoire non volatile basé uniquement sur la technologie flash, pour sa fiabilité importante en milieu industriel et sa faible consommation d'énergie. Les SGBD possèdent pour des raisons historiques de nombreuses optimisations spécifiques aux disques durs, et le manque d'optimisation adaptée aux mémoires flash peut dégrader significativement les performances. Le choix de ce type de mémoire a donc eu des répercussions notables sur les performances pour l'insertion, avec une dégradation importante par rapport aux disques durs. Nous avons donc proposé Chronos, un SGBD dédié à l'historisation de données sur mémoires flash. Pour cela, nous avons en particulier identifié un algorithme d'écriture « quasi-séquentiel » efficace pour accéder à la mémoire, ainsi que des mécanismes de bufferisation et de mise à jour d'index optimisés pour les charges typiques de l'historisation. Les résultats expérimentaux montrent un gain significatif pour les insertions par rapport à des solutions équivalentes, d'un facteur 20 à 54. Chronos est donc une solution compétitive lorsque les insertions correspondent à une proportion importante de la charge soumise au SGBD. En particulier pour les charges typiques des IGCBox, Chronos se distingue en proposant des performances globales améliorées d'un facteur 4 à 18 par rapport aux autres solutions. / Archiving industrial data is a complex issue: a large volume of data has to be stored for several decades while meeting performance requirements for real-time insertions, along with retrieval and analysis queries. For these applications, niche products have specialized in this market segment: data historians. Data historians are proprietary solutions, with license fees of tens of thousands of dollars, and whose internal mechanisms are not documented. Therefore, we first emphasized data historian specificities, with regards to functionalities as much as performance. However, archiving industrial data can occur in very different contexts. IGCBoxes for example are industrial mini PCs using MySQL for short-term data archiving in hydroelectric power stations at EDF. These equipments expose distinctive features, mainly on their storage system based exclusively on flash memory, for its reliability in an industrial environment and its low energy consumption. For historical reasons, DBMS include many hard disk drive-oriented optimizations, and the lack of adjustment for flash memories can significantly decrease performance. This type of memory thus had notable consequences on insert performance, with a substantial drop compared with hard disk drives. We therefore designed Chronos, a DBMS for historization data management on flash memories. For that purpose, we especially identified an efficient “quasi-sequential” write pattern on flash memories, along with buffer and index management techniques optimized for historization typical workloads. Experimental results demonstrate improved performance for insertions over different solutions, by a factor of 20 to 54. Chronos is therefore competitive when insertions make up an extensive part of the workload. For instance, Chronos stands out with the typical workload of IGCBoxes, with global performance improved by a factor of 4 to 18 compared with other solutions. Informatique Système de gestion de base de données Mémoire flash Historisation Banc d'essais Séries temporelles Information Technology Data base management system Flash Memory Historization Benchmark Time series 005.750 72
4	Modélisation sémantique des bases de données d'inventaires en cycle de vie / Semantic modelling of life cycle inventory databases Bertin, Benjamin 25 June 2013 (has links) L'analyse des impacts environnementaux de la production de biens et de services est aujourd'hui devenue un enjeu majeur. L'analyse en cycle de vie est la méthode consacrée pour modéliser les impacts environnementaux des activités humaines. L'inventaire en cycle de vie, qui est l'une des étapes de cette méthode, consiste à décomposer les activités économiques en processus interdépendants. Chaque processus a des impacts environnementaux et la composition de ces processus nous donne l'impact cumulé des activités étudiées. Plusieurs entreprises et agences gouvernementales fournissent des bases de données d'inventaires en cycle de vie pour que les experts puissent réutiliser des processus déjà étudiés lors de l'analyse d'un nouveau système. L'audit et la compréhension de ces inventaires nécessite de s'intéresser à un très grand nombre de processus et à leurs relations d'interdépendance. Ces bases de données peuvent comporter plusieurs milliers de processus et des dizaines de milliers de relations de dépendance. Pour les experts qui utilisent les bases de données d'inventaire en cycle de vie, deux problèmes importants sont clairement identifiés : - organiser les processus pour avoir une meilleure compréhensibilité du modèle ; - calculer les impacts d'une modélisation (composition de processus) et, le cas échéant, détecter les raisons de la non convergence du calcul. Dans cette thèse, nous : - mettons en évidence de l'existence de similarités sémantiques entre les processus et leurs relations d'interdépendance et proposons une nouvelle approche pour modéliser les relations d'interdépendance entre les processus d'une base de données d'inventaire. Elle se base sur un étiquetage sémantique des processus à l'aide d'une ontologie et une modélisation multi-niveaux des relations d'interdépendance entre les processus. Nous étudions aussi deux approches déclaratives d'interaction avec ce modèle multi-niveau. - étudions les différentes méthodes de calcul des impacts basées sur des notions classiques d'algèbre linéaire et de théorie des graphes. Nous étudions aussi les conditions de non convergence de ces méthodes en présence de cycle dans le modèle des relations de dépendances. Un prototype implémentant cette approche a montré des résultats probants sur les cas étudiés. Nous avons réalisé une étude de cas de ce prototype sur les processus de production d'électricité aux États-Unis extraits de la base de données d'inventaire en cycle de vie de l'agence environnementale américaine. Ce prototype est à la base d'une application opérationnelle utilisée par l'entreprise. / Environmental impact assessment of goods and services is nowadays a major challenge for both economic and ethical reasons. Life Cycle Assessment provides a well accepted methodology for modeling environmental impacts of human activities. This methodology relies on the decomposition of a studied system into interdependent processes in a step called Life Cycle Inventory. Every process has several environmental impacts and the composition of those processes provides the cumulated environmental impact for the studied human activities. Several organizations provide processes databases containing several thousands of processes with their interdependency links that are used by LCA practitioners to do an LCA study. Understanding and audit of those databases requires to analyze a huge amount of processes and their dependency relations. But those databases can contain thousands of processes linked together. We identified two problems that the experts faces using those databases: - organize the processes and their dependency relations to improve the comprehensibility; - calculate the impacts and, if it is not possible, find why it is not feasible. In this thesis, we: - show that there are some semantic similarities between the processes and their dependency relations and propose a new way to model the dependency relations in an inventory database. In our approach, we semantically index the processes using an ontology and we use a multi-layers model of the dependency relations. We also study a declarative approach of this multi-layers approach; - propose a method to calculate the environmental impacts of the processes based on linear algebra and graph theory, and we study the conditions of the feasibility of this calculation when we have a cyclic model. We developed a prototype based on this approach that showed some convincing results on different use cases. We tested our prototype on a case study based on a data set extracted from the National Renewable Energy restricted to the electricity production in the United-States. Informatique Base de données Inventaire de cycle de vie Processus élémentaire Relation d'interdépendance Modélisation Analyse sémantique Web sémantique Ontologie Information Technology Database Life Cycle Assessment Unit process Dependancy relation Modelling Semantic analysis Semantic web Ontology 005.750 72

1

Page generated in 0.0241 seconds