Return to search

Collaboration dans une fédération de consommateurs de données liées / Collaboration in a Federation of Linked Data Consumers

Les producteurs de données ont publié des millions de faits RDF sur le Web en suivant les principes des données liées. N’importe qui peut récupérer des informations utiles en interrogeant les données liées avec des requêtes SPARQL. Ces requêtes sont utiles dans plusieurs domaines, comme la santé ou le journalisme des données. Cependant, il y a un compromis entre la performance des requêtes et la disponibilité des données lors de l’exécution des requêtes SPARQL. Dans cette thèse, nous étudions comment la collaboration des consommateurs de données ouvre de nouvelles opportunités concernant ce compromis. Plus précisément, comment la collaboration des consommateurs de données peut : améliorer les performances sans dégrader la disponibilité, ou améliorer la disponibilité sans dégrader les performances. Nous considérons que les données liées permettent à n’importe qui d’exécuter un médiateur compact qui peut interroger des sources de données sur le Web grâce à des requêtes SPARQL. L’idée principale est de connecter ces médiateurs ensemble pour construire une fédération de consommateurs de données liées. Dans cette fédération, chaque médiateur interagit avec un sous-ensemble du réseau. Grâce à cette fédération, nous avons construit : (i) un cache décentralisé hébergé par les médiateurs. Ce cache côté client permet de prendre en charge une part importante des sous-requêtes et d’améliorer la disponibilité des données avec un impact faible sur les performances. (ii) un algorithme de délégation qui permet aux médiateurs de déléguer leurs requêtes à d’autres médiateurs. Nous démontrons que la délégation permet d’exécuter un ensemble de requêtes plus rapidement quand les médiateurs collaborent. Cela améliore les performances sans dégrader la disponibilité des données. / Following the Linked Data principles, data providers have published billions of RDF facts on the web. Anyone can retrieve some relevant information from the Linked Data by executing SPARQL queries. Such queries are useful in many domains including health or data journalism. However, there is a trade-off between performances of the queries and data availability when executing SPARQL queries. In this thesis, we have investigated how the collaboration of data consumers is opening new opportunities in this trade-off. More precisely, how the collaboration of data consumers can improve performances without degrading availability, or can improve availability without degrading performances. We consider that Linked Data can allow anyone to run a compact mediator that executes SPARQL queries over data sources on the web. The main idea is to connect these mediators together to build a federation of Linked Data consumers. In this federation, each mediator interacts with a subset of the network. Thanks to this federation, we have built : (i) a decentralized cache hosted by mediators. This client-side cache is able to handle a significative part of subqueries and then improve data availability without a low impact on performances. (ii) a delegation algorithm that allows mediators to delegate their queries to other mediators. We have demonstrated that delegation allows to run the workloads faster when collaborating. This clearly improves performances without degrading data availability.

Identiferoai:union.ndltd.org:theses.fr/2017NANT4052
Date12 October 2017
CreatorsFolz, Pauline
ContributorsNantes, Molli, Pascal, Skaf, Hala
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0019 seconds