• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 28
  • 19
  • Tagged with
  • 46
  • 46
  • 24
  • 21
  • 17
  • 17
  • 12
  • 10
  • 9
  • 8
  • 8
  • 7
  • 7
  • 7
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Scalable view-based techniques for web data : algorithms and systems / Techniques efficaces basées sur des vues matérialisées pour la gestion des données du Web : algorithmes et systèmes

Katsifodimos, Asterios 03 July 2013 (has links)
Le langage XML, proposé par le W3C, est aujourd’hui utilisé comme un modèle de données pour le stockage et l’interrogation de grands volumes de données dans les systèmes de bases de données. En dépit d’importants travaux de recherche et le développement de systèmes efficace, le traitement de grands volumes de données XML pose encore des problèmes des performance dus à la complexité et hétérogénéité des données ainsi qu’à la complexité des langages courants d’interrogation XML. Les vues matérialisées sont employées depuis des décennies dans les bases de données afin de raccourcir les temps de traitement des requêtes. Elles peuvent être considérées les résultats de requêtes pré-calculées, que l’on réutilise afin d’éviter de recalculer (complètement ou partiellement) une nouvelle requête. Les vues matérialisées ont fait l’objet de nombreuses recherches, en particulier dans le contexte des entrepôts des données relationnelles.Cette thèse étudie l’applicabilité de techniques de vues matérialisées pour optimiser les performances des systèmes de gestion de données Web, et en particulier XML, dans des environnements distribués. Dans cette thèse, nos apportons trois contributions.D’abord, nous considérons le problème de la sélection des meilleures vues à matérialiser dans un espace de stockage donné, afin d’améliorer la performance d’une charge de travail des requêtes. Nous sommes les premiers à considérer un sous-langage de XQuery enrichi avec la possibilité de sélectionner des noeuds multiples et à de multiples niveaux de granularités. La difficulté dans ce contexte vient de la puissance expressive et des caractéristiques du langage des requêtes et des vues, et de la taille de l’espace de recherche de vues que l’on pourrait matérialiser.Alors que le problème général a une complexité prohibitive, nous proposons et étudions un algorithme heuristique et démontrer ses performances supérieures par rapport à l’état de l’art.Deuxièmement, nous considérons la gestion de grands corpus XML dans des réseaux pair à pair, basées sur des tables de hachage distribuées. Nous considérons la plateforme ViP2P dans laquelle des vues XML distribuées sont matérialisées à partir des données publiées dans le réseau, puis exploitées pour répondre efficacement aux requêtes émises par un pair du réseau. Nous y avons apporté d’importantes optimisations orientées sur le passage à l’échelle, et nous avons caractérisé la performance du système par une série d’expériences déployées dans un réseau à grande échelle. Ces expériences dépassent de plusieurs ordres de grandeur les systèmes similaires en termes de volumes de données et de débit de dissémination des données. Cette étude est à ce jour la plus complète concernant une plateforme de gestion de contenus XML déployée entièrement et testée à une échelle réelle.Enfin, nous présentons une nouvelle approche de dissémination de données dans un système d’abonnements, en présence de contraintes sur les ressources CPU et réseau disponibles; cette approche est mise en oeuvre dans le cadre de notre plateforme Delta. Le passage à l’échelle est obtenu en déchargeant le fournisseur de données de l’effort de répondre à une partie des abonnements. Pour cela, nous tirons profit de techniques de réécriture de requêtes à l’aide de vues afin de diffuser les données de ces abonnements, à partir d’autres abonnements.Notre contribution principale est un nouvel algorithme qui organise les vues dans un réseau de dissémination d’information multi-niveaux ; ce réseau est calculé à l’aide d’outils techniques de programmation linéaire afin de passer à l’échelle pour de grands nombres de vues, respecter les contraintes de capacité du système, et minimiser les délais de propagation des information. L’efficacité et la performance de notre algorithme est confirmée par notre évaluation expérimentale, qui inclut l’étude d’un déploiement réel dans un réseau WAN. / XML was recommended by W3C in 1998 as a markup language to be used by device- and system-independent methods of representing information. XML is nowadays used as a data model for storing and querying large volumes of data in database systems. In spite of significant research and systems development, many performance problems are raised by processing very large amounts of XML data. Materialized views have long been used in databases to speed up queries. Materialized views can be seen as precomputed query results that can be re-used to evaluate (part of) another query, and have been a topic of intensive research, in particular in the context of relational data warehousing. This thesis investigates the applicability of materialized views techniques to optimize the performance of Web data management tools, in particular in distributed settings, considering XML data and queries. We make three contributions.We first consider the problem of choosing the best views to materialize within a given space budget in order to improve the performance of a query workload. Our work is the first to address the view selection problem for a rich subset of XQuery. The challenges we face stem from the expressive power and features of both the query and view languages and from the size of the search space of candidate views to materialize. While the general problem has prohibitive complexity, we propose and study a heuristic algorithm and demonstrate its superior performance compared to the state of the art.Second, we consider the management of large XML corpora in peer-to-peer networks, based on distributed hash tables (or DHTs, in short). We consider a platform leveraging distributed materialized XML views, defined by arbitrary XML queries, filled in with data published anywhere in the network, and exploited to efficiently answer queries issued by any network peer. This thesis has contributed important scalability oriented optimizations, as well as a comprehensive set of experiments deployed in a country-wide WAN. These experiments outgrow by orders of magnitude similar competitor systems in terms of data volumes and data dissemination throughput. Thus, they are the most advanced in understanding the performance behavior of DHT-based XML content management in real settings.Finally, we present a novel approach for scalable content-based publish/subscribe (pub/sub, in short) in the presence of constraints on the available computational resources of data publishers. We achieve scalability by off-loading subscriptions from the publisher, and leveraging view-based query rewriting to feed these subscriptions from the data accumulated in others. Our main contribution is a novel algorithm for organizing subscriptions in a multi-level dissemination network in order to serve large numbers of subscriptions, respect capacity constraints, and minimize latency. The efficiency and effectiveness of our algorithm are confirmed through extensive experiments and a large deployment in a WAN.
22

Discovering data quality rules in a master data management context / Fouille de règles de qualité de données dans un contexte de gestion de données de référence

Diallo, Thierno Mahamoudou 17 July 2013 (has links)
Le manque de qualité des données continue d'avoir un impact considérable pour les entreprises. Ces problèmes, aggravés par la quantité de plus en plus croissante de données échangées, entrainent entre autres un surcoût financier et un rallongement des délais. De ce fait, trouver des techniques efficaces de correction des données est un sujet de plus en plus pertinent pour la communauté scientifique des bases de données. Par exemple, certaines classes de contraintes comme les Dépendances Fonctionnelles Conditionnelles (DFCs) ont été récemment introduites pour le nettoyage de données. Les méthodes de nettoyage basées sur les CFDs sont efficaces pour capturer les erreurs mais sont limitées pour les corriger . L’essor récent de la gestion de données de référence plus connu sous le sigle MDM (Master Data Management) a permis l'introduction d'une nouvelle classe de règle de qualité de données: les Règles d’Édition (RE) qui permettent d'identifier les attributs en erreur et de proposer les valeurs correctes correspondantes issues des données de référence. Ces derniers étant de très bonne qualité. Cependant, concevoir ces règles manuellement est un processus long et coûteux. Dans cette thèse nous développons des techniques pour découvrir de manière automatique les RE à partir des données source et des données de référence. Nous proposons une nouvelle sémantique des RE basée sur la satisfaction. Grace à cette nouvelle sémantique le problème de découverte des RE se révèle être une combinaison de la découverte des DFCs et de l'extraction des correspondances entre attributs source et attributs des données de référence. Nous abordons d'abord la découverte des DFCs, en particulier la classe des DFCs constantes très expressives pour la détection d'incohérence. Nous étendons des techniques conçues pour la découverte des traditionnelles dépendances fonctionnelles. Nous proposons ensuite une méthode basée sur les dépendances d'inclusion pour extraire les correspondances entre attributs source et attributs des données de référence avant de construire de manière automatique les RE. Enfin nous proposons quelques heuristiques d'application des ER pour le nettoyage de données. Les techniques ont été implémenté et évalué sur des données synthétiques et réelles montrant la faisabilité et la robustesse de nos propositions. / Dirty data continues to be an important issue for companies. The datawarehouse institute [Eckerson, 2002], [Rockwell, 2012] stated poor data costs US businesses $611 billion dollars annually and erroneously priced data in retail databases costs US customers $2.5 billion each year. Data quality becomes more and more critical. The database community pays a particular attention to this subject where a variety of integrity constraints like Conditional Functional Dependencies (CFD) have been studied for data cleaning. Repair techniques based on these constraints are precise to catch inconsistencies but are limited on how to exactly correct data. Master data brings a new alternative for data cleaning with respect to it quality property. Thanks to the growing importance of Master Data Management (MDM), a new class of data quality rule known as Editing Rules (ER) tells how to fix errors, pointing which attributes are wrong and what values they should take. The intuition is to correct dirty data using high quality data from the master. However, finding data quality rules is an expensive process that involves intensive manual efforts. It remains unrealistic to rely on human designers. In this thesis, we develop pattern mining techniques for discovering ER from existing source relations with respect to master relations. In this set- ting, we propose a new semantics of ER taking advantage of both source and master data. Thanks to the semantics proposed in term of satisfaction, the discovery problem of ER turns out to be strongly related to the discovery of both CFD and one-to-one correspondences between sources and target attributes. We first attack the problem of discovering CFD. We concentrate our attention to the particular class of constant CFD known as very expressive to detect inconsistencies. We extend some well know concepts introduced for traditional Functional Dependencies to solve the discovery problem of CFD. Secondly, we propose a method based on INclusion Dependencies to extract one-to-one correspondences from source to master attributes before automatically building ER. Finally we propose some heuristics of applying ER to clean data. We have implemented and evaluated our techniques on both real life and synthetic databases. Experiments show both the feasibility, the scalability and the robustness of our proposal.
23

Archéologie et inventaire du patrimoine national : recherches sur les systèmes d'inventaire en Europe et Méditerranée occidentale (France, Espagne, Grande-Bretagne, Tunisie) : comparaisons et perspectives / Archaeology and national heritage record : research on record systems in Europe and western Méditerranée (France, Spain, Great-Britain, Tunisia) : comparisons and prospects

Ournac, Perrine 28 September 2011 (has links)
La comparaison des systèmes d'inventaire du patrimoine archéologique en France, Espagne, Grande-Bretagne et Tunisie consiste à observer l'organisation et les résultats de ces inventaires, au niveau national lorsqu'il existe, ou le cas échéant, au niveau régional. Il s'agit d'identifier, pour chaque pays, le mode de réalisation d'une base de données, dont les objectifs sont la protection et la mise en valeur du patrimoine archéologique. Ainsi, la naissance des premiers recensements, le cadre réglementaire, la structure institutionnelle, les conditions d'accessibilité, et la forme actuelle des inventaires ont été observés. L'analyse critique des différents cas, à l'issue des descriptions et des tests, permet de mettre en avant des paramètres conditionnant d'une part, l'existence réelle d'un inventaire national du patrimoine archéologique, d'autre part, le niveau d'accessibilité des données regroupées par ces inventaires. / Compare archaeological heritage record systems in France, Spain, Great-Britain and Tunisie consists in studying organization and results of these records, at the national level, or, where it does not exist, at the regional level. The database design, aimed at protecting and promoting archaeological resource, has been identified in each country. The first inventories, the legal and institutional structures, the condition of accessibility, and the current frame of archaeological records have been studied. Analysis shows, after describing and testing these case, that there are circumstances conditioning: the existence of a national archaeological record, but also, the level of accessibility of data maintained in these records.
24

Mécanismes de traitement des données dans les réseaux de capteurs sans fils dans les cas d'accès intermittent à la station de base / Data Management in Wireless Sensor Networks with Intermittent Sink Access

Dini, Cosmin 21 December 2010 (has links)
Les réseaux des capteurs sans fil sont considérés comme une alternative aux réseaux câblés afin de permettre l'installation dans des zones peu accessibles. Par conséquent, de nouveaux protocoles ont été conçus pour supporter le manque des ressources qui est spécifique à ce type de réseau. La communication entre les nœuds est réalisée par des protocoles spécifiques pour la gestion efficace de l'énergie. La gestion des données collectées par ces nœuds doit être également prise en compte car la communication entre les nœuds engendre un coût non négligeable en termes d'énergie. De plus, l'installation de ce type de réseau dans des régions lointaines facilite les attaques sur la structure des réseaux ainsi que sur les données collectées. Les mesures de sécurité envisagées amènent des coûts d'énergie supplémentaires. Un aspect souvent négligé concerne le cas où un nœud ne peut pas communiquer avec la station de base (sink node) qui collectionne et traite les données. Cependant, les nœuds continuent à accumuler des informations en suivant les plans de collection. Si la situation continue, l'espace de mémoire (storage) diminue à un point où la collection de nouvelles données n'est plus possible.Nous proposons des mécanismes pour la réduction contrôlée de données en considérant leur priorité relative. Les données sont divisées dans des unités auxquelles un niveau d'importance est alloué, en fonction des considérations d'utilité et de missions qui les utilisent. Nous proposons un ensemble de primitives (opérations) qui permettent la réduction d'espace de stockage nécessaire, tout en préservant un niveau raisonnable de résolution des informations collectées. Pour les larges réseaux à multiple nœuds, nous proposons des mécanismes pour le partage de données (data load sharing) ainsi que la redondance. Des algorithmes ont été proposés pour évaluer l'efficacité de ces techniques de gestion de données vis-à-vis de l'énergie nécessaire pour transférer les données.A travers des simulations, nous avons validé le fait que les résultats sont très utiles dans les cas à mémoire limitée (wireless nades) et pour les communications intermittentes. / Wireless Sensor Networks have evolved as an alternative to wired networks fit for quick deployments in areas with limited access. New protocols have been deviees to deal with the inherent scarcity of resources that characterizes such netvorks. Energy efficient network protocols are used for communication between nades. Data collected by wireless nades is transmitted at an energy cost and therefore carefully managed. The remote deployment of wireless networks opens the possibility of malicious attacks on the data and on the infrastructure itself. Security measures have also been devised, but they come at an energy cost. One item that has received little attention is the situation of the data sink becoming unreachable. The nodes still collect data as instructed and accumulate it. Under prolonged unavailability of the sink node, the storage space on sensor nades is used up and collecting new data is no longer feasible. Our proposal for a prioritized data reduction alleviates this problem. The collected data is divided into data units who are assigned an importance level calculated in agreement with the business case. We have proposed data reduction primitive operations that reduce the needed space while only losing a limited amount of data resolution. A multi-node deployment opens the possibility for data load sharing between the nodes as well as redundancy. Algorithms were proposed to evaluate the potential gain ofthese approaches in relation to the amount of energy spent for data transfer. The proposed approach works well in coping with fixed size data storage by trimming the low interest data in a manner that data is still usable.
25

Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle

Moise, Diana Maria 16 December 2011 (has links) (PDF)
Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds.
26

Contribution to the management of large scale platforms: the Diet experience

Caron, Eddy 06 October 2010 (has links) (PDF)
10 ans. 10 ans de recherches autour du calcul haute performance dans des environnements distribués. Et tout au long de ces années, le développement d'un intergiciel appelé DIET comme liant de ces recherches. Aujourd'hui la naissance d'une start'up autour de DIET, offre à cet intergiciel une autre vie. Ce tournant me donne alors l'occasion de proposer une vision que j'espère complète de cette aventure. A travers l'expérience de DIET, il sera intéressant d'évoquer les problèmes de recherche inhérents au développement complet d'un intergiciel de grille et de Cloud pour le calcul haute performance. Les aspects d'interoperabilités seront tout d'abord évoqués au travers des efforts de standardisation du GridRPC, et nous verrons comment DIET répond au problème de la localisation de ressources. Le problème de l'extensibilité sera ensuite traité au travers de l'architecture proposée. Nous verrons ensuite la réponse faite pour la découverte de services qui partant d'un besoin de notre intergiciel débouchera sur une solution générique. Ces premiers travaux évoqués se focalise côté client. Côté serveur nous évoquerons la solution mise en place pour la gestion des ressources. L'étape suivante sera de s'intéresser au déploiement et à la planification de ce déploiement. Conformément à notre objectif initial de fournir un outil complet, nous aborderons ensuite les problèmes liés à la gestion de données. Nous mettrons ensuite en lumière un des points forts de DIET qui est la réponse de ce dernier aux problèmes d'ordonnancement sur des environnements hétérogènes. Ce qui nous conduira jusqu'à la gestion des workflows dans notre intergiciel. Enfin pour conclure je vous présenterai différents cas d'utilisation de DIET sur des applications réelles et variées dont la plateforme du projet Décrypthon qui utilise notre intergiciel dans un cadre de production.
27

Efficient Content-based Retrieval in Parallel Databases of Images

Manjarrez Sanchez, Jorge 26 October 2009 (has links) (PDF)
Cette thèse porte sur le traitement des requêtes par similarité sur les données de haute dimensionnalité, notamment multimédias, et, parmi elles, les images plus particulièrement. Ces requêtes, notamment celles des k plus proches voisins (kNN), posent des problèmes de calcul de par la nature des données elles-mêmes et de la taille de la base des données. Nous avons étudié leurs performances quand une méthode de partitionnement est appliquée sur la base de données pour obtenir et exploiter des classes. Nous avons proposé une taille et un nombre optimaux de ces classes pour que la requête puisse être traitée en temps optimal et avec une haute précision. Nous avons utilisé la recherche séquentielle comme base de référence. Ensuite nous avons proposé des méthodes de traitement de requêtes parallèles sur une grappe de machines. Pour cela, nous avons proposé des méthodes d'allocation des données pour la recherche efficace des kNN en parallèle. Nous proposons de même, un nombre réduit de noeuds sur la grappe de machines permettant néanmoins des temps de recherche sous-linéaires et optimaux vis-à-vis des classes déterminées précédemment. Nous avons utilisé des donnés synthétiques et réelles pour les validations pratiques. Dans les deux cas, nous avons pu constater des temps de réponse et une qualité des résultats supérieurs aux méthodes existantes, lesquelles, au-delà d'un faible nombre des dimensions, deviennent inefficaces.
28

Le sens au coeur des systèmes d'information

Cyril, Labbé 06 December 2010 (has links) (PDF)
La mise en réseau des dispositifs de gestion de l'information, qu'ils soient de petite taille (capteur - dispositif) ou de grande taille (cluster -super calcu- lateur) accompagnent et accélèrent l'émergence d'une informatique ubiquitaire. Ce mouvement de fond entraîne une explosion, tant de la quantité que de la diversité de l'information disponible. Le sens même de ces informations est souvent ignoré par les traitements opérés dans les couches basses des systèmes qui gèrent ces informations. Dans un contexte où les sources d'information deviennent surabondantes, l'exé- cution de l'opération la plus élémentaire, portant sur la plus élémentaire des in- formations, passe par la maîtrise du sens associé aux données manipulées. Une des évolutions majeures à venir est donc, l'intégration, au cœur des systèmes, du sens associé à l'information et aux processus de traitement. Les domaines plus particulièrement développés sont la recherche de sens dans les textes et la gestion de données dans les systèmes ubiquitaires à grande échelle. Ces recherches ont été conduites au sein de la communauté IMAG et se poursuivent aujourd'hui dans l'équipe SIGMA - laboratoire LIG et de l'Université Joseph Fourier.
29

Etude en vue de la réalisation de logiciels bas niveau dédiés aux réseaux de capteurs sans fil : microsystème de fichiers

De Sousa, Gil 27 October 2008 (has links) (PDF)
De nombreux travaux de recherche actuels s'intéressent aux réseaux de capteurs sans fil (RCSF) et à leurs différentes problématiques. L'une d'entre elles est la gestion des données présentes au sein du RCSF. Généralement, les deux grands types de données manipulées sont soit celles collectées à l'aide d'un dispositif de mesure, soit celles gérées par le système d'exploitation. L'objectif de cette thèse est de proposer des solutions à cette problématique. Un microsystème de fichier a ainsi été conçu en prenant comme support un noyau temps réel au fonctionnement hybride à la fois multitâche et basé sur les événements. Ce noyau utilise un concept permettant d'offrir un niveau d'abstraction pour la gestion des processus ou des événements. Ce concept a été repris, au niveau du microsystème de fichiers, dans le cadre de l'accès aux données. L'autre caractéristique principale de ce microsystème de fichiers, par rapport aux systèmes existants, est de réunir, au sein d'un même système, des fonctionnalités de gestion de mémoire et d'interrogation de données. Ces deux éléments, que sont le microsystème de fichiers et le noyau temps réel, associés à un capteur sans fil multi-composant constituent une plateforme adaptative permettant la mise en place d'applications d'acquisition de données environnementales.
30

Interactions Projet/Données lors de la conception de produits multi-technologiques en contexte collaboratif

GODOT, Xavier 03 July 2013 (has links) (PDF)
Du point de vue industriel, la conception de produit a pour finalité de répondreaux besoins de développement d'une entreprise. Elle fait appel à de nombreusesconnaissances et compétences différentes qui doivent concourir à un unique but : décrire unproduit qui répond aux besoins du marché visé par l'entreprise. Il existe donc de fortesinteractions entre l'entreprise, son marché et l'activité de conception. Par conséquent, toutprojet de développement doit tenir compte des caractéristiques et des contraintes de chacun deces trois éléments. L'objectif de cette thèse est donc de proposer un cadre méthodologiquegénérique permettant de construire et de piloter des projets de conception de produits enfonction des objectifs de développement d'une entreprise, mais également de ses ressourcestant humaines que matérielles ou financières. Pour atteindre cet objectif, il est indispensabled'intégrer plusieurs facteurs importants. Certains sont d'ordre technique (l'innovation, lacomplexité croissante des produits multi-technologiques, l'hétérogénéité des donnéesnumériques...) et d'autres d'ordre économique ou financier (un contexte concurrentiel trèsdifficile, des financements de projets de développement limités et incertains...). La prise encompte de ces multiples paramètres hétérogènes nécessite une approche systémique. Ainsi,une démarche en deux temps a été élaborée. L'ensemble des objets concernant les objectifsde développement de l'entreprise, son marché et l'activité de conception a tout d'abord étéidentifié et formalisé au sein d'un même diagramme de concepts. Celui-ci a ensuite permisd'identifier les interactions entre ces objets et d'en déduire les mécanismes de fonctionnement.Ces premiers résultats ont finalement été traduits sous la forme d'un processus générique quiconstitue la proposition de cette thèse. Plusieurs exemples issus des PME du secteur de lamécanique sont traités afin d'éprouver la validité de cette solution.

Page generated in 0.1262 seconds