• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 119
  • 65
  • 11
  • Tagged with
  • 197
  • 197
  • 109
  • 63
  • 62
  • 51
  • 47
  • 41
  • 35
  • 34
  • 34
  • 33
  • 23
  • 22
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
161

Représentation OWL de la ressource lexicale LVF et son utilisation dans le traitement automatique de la langue

Abdi, Radia 09 1900 (has links)
Le dictionnaire LVF (Les Verbes Français) de J. Dubois et F. Dubois-Charlier représente une des ressources lexicales les plus importantes dans la langue française qui est caractérisée par une description sémantique et syntaxique très pertinente. Le LVF a été mis disponible sous un format XML pour rendre l’accès aux informations plus commode pour les applications informatiques telles que les applications de traitement automatique de la langue française. Avec l’émergence du web sémantique et la diffusion rapide de ses technologies et standards tels que XML, RDF/RDFS et OWL, il serait intéressant de représenter LVF en un langage plus formalisé afin de mieux l’exploiter par les applications du traitement automatique de la langue ou du web sémantique. Nous en présentons dans ce mémoire une version ontologique OWL en détaillant le processus de transformation de la version XML à OWL et nous en démontrons son utilisation dans le domaine du traitement automatique de la langue avec une application d’annotation sémantique développée dans GATE. / The LVF dictionary (Les Verbes Français) by J. Dubois and F. Dubois-Charlier is one of the most important lexical resources in the French language, which is characterized by a highly relevant semantic and syntactic description. The LVF has been available in an XML format to make access to information more convenient for computer applications such as NLP applications for French language. With the emergence of the Semantic Web and the rapid diffusion of its technologies and standards such as XML, RDF/RDFS and OWL, it would be interesting to represent LVF in a more formalized format for a better and more sophisticated usage by natural language processing and semantic web applications. We present in this paper an OWL ontology version of LVF by demonstrating the mapping process between the data model elements of the XML version and OWL. We give account about its use in the field of natural language processing by presenting an application of semantic annotation developed in GATE.
162

La modélisation d'objets pédagogiques pour une plateforme sémantique d'apprentissage / The modeling of learning objects for a semantic learning platform

Balog-Crisan, Radu 13 December 2011 (has links)
Afin de rendre les objets pédagogiques (OP) accessibles, réutilisables et adaptables, il est nécessaire de les modéliser. Outre la forme et la structure, il faut aussi décrire la sémantique des OP. Ainsi, nous proposons un schéma de modélisation d'OP d'après la norme LOM (Learning Object Metadata), en utilisant un modèle de données de type RDF (Ressource Description Framework). Pour encoder, échanger et réutiliser les métadonnées structurées d'OP, nous avons implémenté l'application RDF4LOM (RDF for LOM). Le recours aux outils du Web sémantique nous permet de proposer le prototype d'une plateforme sémantique d'apprentissage (SLCMS), qui valorise à la fois les ressources internes, les OP modélisés avec RDF, ainsi que les ressources externes (wikis, blogs ou encore agendas sémantiques). L'architecture du SLCMS est basée sur un Noyau sémantique capable d'interpréter les métadonnées et de créer des requêtes intelligentes. Pour la description des contraintes sémantiques et des raisonnements sur les OP, nous utilisons les ontologies. Grâce à des ontologies précises et complètes, les OP seront « interprétables » et « compréhensibles » par les machines. Pour le module Quiz sémantique, nous avons modélisé l'ontologie Quiz et l'ontologie LMD. La plateforme sémantique d'apprentissage permet la recherche d'OP pertinents, la génération de parcours personnalisés pour les apprenants et, en perspective, l'adaptabilité aux styles d'apprentissage. / In order to make Learning Objects (LO) accessible, reusable and adaptable, it is necessary to model them. Besides form and structure, one must also define the semantics associated with a given LO. Thus, we propose a modeling scheme for LOs that respects the LOM (Learning Object Metadata) standard and which uses a RDF-based (Resource Description Framework) data model. In order to encode, exchange and reuse such structured metadata for LOs, we have developed the RDF4LOM (RDF for LOM) application. By using Semantic Web tools, we are able to deliver a prototype of a semantic learning platform (SLCMS) that enhances internal resources, LOs modeled with RDF as well as external resources (semantic wikis, blogs or calendars). The architecture of this SLCMS is based upon a semantic Kernel whose role is to interpret metadata and create intelligent queries. We use ontologies, for the description of semantic constraints and reasoning rules concerning the LOs. By means of accurate and complete ontologies, the LOs will be machine-interpretable and also machine-understandable. For the semantic Quiz module, we have developed the Quiz and LMD ontologies. The semantic learning platform enables searching for appropriate LOs, generating personalized learning paths for learners and, as en evolution, adaptation to learning styles.
163

Convergence entre Web Social et Web Sémantique. Application à l'innovation à l'aide du Web / Convergence between the Social and the Semantic Web. Application to Innovation on the Web

Stankovic, Milan 07 December 2012 (has links)
Cette thèse s’inscrit dans le cadre de travaux relatifs au Web Social Sémantique, dans la perspective de la complémentarité et de la coévolution de deux aspects du Web, l’aspect social et sémantique. Le développement du Web au cours de ces dernières années a fait émerger un énorme graphe de données structurées, sémantiques résultant en partie de l’activité des utilisateurs, le LOD. Nous nous intéressons à l’utilisation de ce graphe afin de faciliter l’accès à l’information présente sur le Web, et ce de manière utile, informative et enrichissante pour l’utilisateur. Cette problématique est notamment étudiée dans les scénarios de l’innovation sur le Web – pratiques visant à utiliser des technologies du Web pour contribuer à l’émergence de l’innovation. Une spécificité de ce contexte, assez peu abordé dans la littérature existante, est sans doute le besoin d’inciter les découvertes inattendues et fortuites. Au delà de la simple pertinence sollicitée dans toute situation de recherche et de recommandation sur le Web, le contexte d’innovation impose une certaine ouverture d’esprit pour permettre à l’utilisateur d’accéder aux informations inattendues mais néanmoins pertinentes, et permet par la même occasion de s’inspirer et de transposer des idées d’un domaine à l’autre. Les travaux présentés dans cette thèse ont donc pour objectif d’aider, de manière directe ou indirecte, les acteurs de l’innovation en ligne (e.g., les entreprises qui cherchent à innover, les experts et les porteurs d’idées) de faire des découvertes. Cet objectif ce décline particulièrement par les travaux de construction d’un système de recherche d’experts, un système de recommandation de mots-clés pertinents pour un problème et un système de recommandation de collaborateurs pour aider à un expert d’affronter des problèmes pluridisciplinaires. / This thesis builds upon the work on the Social Semantic Web, a research perspective on the complementarity and coevolution of two aspects of the Web, the social and semantic one. Web development in recent years has given rise to a huge graph of semantically structured data, partly resulting from user activity. We are particularly interested in the use of this graph in order to facilitate access to information found on the Web, in a useful, informative manner. This problem is particularly studied in scenarios related to innovation on the Web - practices to use Web technologies to contribute to the emergence of innovation. A notable specificity of this context, so far little discussed in literature, is the need to encourage serendipity and discovery. Beyond the simple relevance sought in any search and recommendation situation on the Web, the context of innovation requires a certain openness to allow the user to access information relevant yet unexpected, and should also open opportunities to learn and translate ideas from one domain to another.The work presented in this thesis therefore aims to assist, directly or indirectly, the innovators online (eg, companies seeking to innovate, experts and carriers of ideas) to make discoveries. We address each of these challenges in different parts of the thesis. This vision is principally implemented through the construction of an expert search system, Hy.SemEx, a system for keyword recommendation allowing to discover unknown relevant keywords, HyProximity, and an approach for recommending collaborators to experts in order to help them face multidisciplinary problems.
164

Contrôle d'accès et présentation contextuelle pour le Web des données / Context-aware access control and presentation of linked data

Costabello, Luca 29 November 2013 (has links)
La thèse concerne le rôle joué par le contexte dans l'accès au Web de données depuis les dispositifs mobiles. Le travail analyse ce problème de deux points de vue distincts: adapter au contexte la présentation de triplets, et protéger l'accès aux bases des données RDF depuis les dispositifs mobiles. La première contribution est PRISSMA, un moteur de rendu RDF qui étend Fresnel avec la sélection de la meilleure représentation pour le contexte physique où on se trouve. Cette opération est effectuée par un algorithme de recherche de sous-graphes tolérant aux erreurs basé sur la notion de distance d'édition sur les graphes. L'algorithme considère les différences entre les descriptions de contexte et le contexte détecté par les capteurs, supporte des dimensions de contexte hétérogènes et est exécuté sur le client pour ne pas révéler des informations privées. La deuxième contribution concerne le système de contrôle d'accès Shi3ld. Shi3ld supporte tous les triple stores et il ne nécessite pas de les modifier. Il utilise exclusivement les langages du Web sémantique, et il n'ajoute pas des nouveaux langages de définition de règles d'accès, y compris des analyseurs syntaxiques et des procédures de validation. Shi3ld offre une protection jusqu'au niveau des triplets. La thèse décrit les modèles, algorithmes et prototypes de PRISSMA et de Shi3ld. Des expériences montrent la validité des résultats de PRISSMA ainsi que les performances au niveau de mémoire et de temps de réponse. Le module de contrôle d'accès Shi3ld a été testé avec différents triple stores, avec et sans moteur SPARQL. Les résultats montrent l'impact sur le temps de réponse et démontrent la faisabilité de l'approche. / This thesis discusses the influence of mobile context awareness in accessing the Web of Data from handheld devices. The work dissects this issue into two research questions: how to enable context-aware adaptation for Linked Data consumption, and how to protect access to RDF stores from context-aware devices. The thesis contribution to this first research question is PRISSMA, an RDF rendering engine that extends Fresnel with a context-aware selecting of the best presentation according to mobile context. This operation is performed by an error-tolerant subgraph matching algorithm based on the notion of graph edit distance. The algorithm takes into account the discrepancies between context descriptions and the sensed context, supports heterogeneous context dimensions, and runs on the client-side - to avoid disclosing sensitive context information. The second research activity presented in the thesis is the Shi3ld access control framework for Linked Data servers. Shi3ld has the advantage of being a pluggable filter for generic triple stores, with no need to modify the endpoint itself. It adopts exclusively Semantic Web languages and it does not add new policy definition languages, parsers nor validation procedures. Shi3ld provides protection up to triple level. The thesis describes both PRISSMA and Shi3ld prototypes. Test campaigns show the validity of PRISSMA results, along with memory and response time performance. The Shi3ld access control module has been tested on different triple stores, with and without SPARQL engines. Results show the impact on response time, and demonstrate the feasibility of the approach.
165

Annotation et recherche contextuelle des documents multimédias socio-personnels / Context-aware annotation and retrieval of socio-personal multimedia documents

Lajmi, Sonia 11 March 2011 (has links)
L’objectif de cette thèse est d’instrumentaliser des moyens, centrés utilisateur, de représentation, d’acquisition, d’enrichissement et d’exploitation des métadonnées décrivant des documents multimédias socio-personnels. Afin d’atteindre cet objectif, nous avons proposé un modèle d’annotation, appelé SeMAT avec une nouvelle vision du contexte de prise de vue. Nous avons proposé d’utiliser des ressources sémantiques externes telles que GeoNames , et Wikipédia pour enrichir automatiquement les annotations partant des éléments de contexte capturés. Afin d’accentuer l’aspect sémantique des annotations, nous avons modélisé la notion de profil social avec des outils du web sémantique en focalisant plus particulièrement sur la notion de liens sociaux et un mécanisme de raisonnement permettant d’inférer de nouveaux liens sociaux non explicités. Le modèle proposé, appelé SocialSphere, construit un moyen de personnalisation des annotations suivant la personne qui consulte les documents (le consultateur). Des exemples d’annotations personnalisées peuvent être des objets utilisateurs (e.g. maison, travail) ou des dimensions sociales (e.g. ma mère, le cousin de mon mari). Dans ce cadre, nous avons proposé un algorithme, appelé SQO, permettant de suggérer au consultateur des dimensions sociales selon son profil pour décrire les acteurs d’un document multimédia. Dans la perspective de suggérer à l’utilisateur des évènements décrivant les documents multimédias, nous avons réutilisé son expérience et l’expérience de son réseau de connaissances en produisant des règles d’association. Dans une dernière partie, nous avons abordé le problème de correspondance (ou appariement) entre requête et graphe social. Nous avons proposé de ramener le problème de recherche de correspondance à un problème d’isomorphisme de sous-graphe partiel. Nous avons proposé un algorithme, appelé h-Pruning, permettant de faire une correspondance rapprochée entre les nœuds des deux graphes : motif (représentant la requête) et social. Pour la mise en œuvre, nous avons réalisé un prototype à deux composantes : web et mobile. La composante mobile a pour objectif de capturer les éléments de contexte lors de la création des documents multimédias socio-personnels. Quant à la composante web, elle est dédiée à l’assistance de l’utilisateur lors de son annotation ou consultation des documents multimédias socio-personnels. L’évaluation a été effectuée en se servant d’une collection de test construite à partir du service de médias sociaux Flickr. Les tests ont prouvé : (i) l’efficacité de notre approche de recherche dans le graphe social en termes de temps d’exécution ; (ii) l’efficacité de notre approche de suggestion des événements (en effet, nous avons prouvé notre hypothèse en démontrant l’existence d’une cooccurrence entre le contexte spatio-temporel et les événements) ; (iii) l’efficacité de notre approche de suggestion des dimensions sociales en termes de temps d’exécution. / The overall objective of this thesis is to exploit a user centric means of representation, acquisition, enrichment and exploitation of multimedia document metadata. To achieve this goal, we proposed an annotation model, called SeMAT with a new vision of the snapshot context. We proposed the usage of external semantic resources (e.g. GeoNames ,, Wikipedia , etc.) to enrich the annotations automatically from the snapshot contextual elements. To accentuate the annotations semantic aspect, we modeled the concept of ‘social profile’ with Semantic web tools by focusing, in particular, on social relationships and a reasoning mechanism to infer a non-explicit social relationship. The proposed model, called SocialSphere is aimed to exploit a way to personalize the annotations to the viewer. Examples can be user’s objects (e.g. home, work) or user’s social dimensions (e.g. my mother, my husband's cousin). In this context, we proposed an algorithm, called SQO to suggest social dimensions describing actors in multimedia documents according to the viewer’s social profile. For suggesting event annotations, we have reused user experience and the experience of the users in his social network by producing association rules. In the last part, we addressed the problem of pattern matching between query and social graph. We proposed to steer the problem of pattern matching to a sub-graph isomorphism problem. We proposed an algorithm, called h-Pruning, for partial sub-graph isomorphism to ensure a close matching between nodes of the two graphs: motive (representing the request) and the social one. For implementation, we realized a prototype having two components: mobile and web. The mobile component aims to capture the snapshot contextual elements. As for the web component, it is dedicated to the assistance of the user during his socio-personnel multimedia document annotation or socio-personnel multimedia document consultation. The evaluation have proven: (i) the effectiveness of our exploitation of social graph approach in terms of execution time, (ii) the effectiveness of our event suggestion approach (we proved our hypothesis by demonstrating the existence of co-occurrence between the spatio-temporal context and events), (iii) the effectiveness of our social dimension suggestion approach in terms of execution time.
166

Multi-providers location based services for mobile-tourism : a use case for location and cartographic integrations on mobile devices / Services localisés multi-fournisseurs pour le tourisme mobile : un cas d'utilisation pour l'intégration sémantique et cartographique sur des dispositifs portables

Karam, Roula 26 September 2011 (has links)
Les services géolocalisés (LBS) sont destinés à délivrer de l’information adéquate aux utilisateurs quelque soit le temps et l’endroit et ceci en se basant sur leur profil, contexte et position géographique. A travers n’importe quelle application dans ce domaine, par exemple m-tourisme, les utilisateurs souhaitent toujours recevoir une réponse rapide et précise en se déplaçant. Cependant, la qualité de service proposée par les fournisseurs cartographiques actuels (i.e. Google Maps, Bing, Yahoo Maps, Mappy ou Via Michelin) dépend de leurs données géographiques. En général, ces données sont stockées de plusieurs bases de données géographiques (BDG) dans le monde entier. D’autre part, le nombre croissant des différentes BDG couvrant la même zone géographique et la récupération des données/métadonnées non erronées pour un service quelconque, impliquent de nombreux raisonnements et de contrôles d’accès aux BDG afin de résoudre les ambiguïtés dues à la présence des objets homologues dupliqués sur l’écran mobile. Mon travail consiste à permettre cette intégration cartographique pour les applications mtourisme et ceci en récupérant les informations spatiales/non-spatiales (noms, positions géographiques, catégorie du service, détails sémantiques et symboles cartographiques) de plusieurs fournisseurs. Cependant, ceci peut conduire à visualiser des objets dupliqués pour le même point d’intérêt et causer des difficultés au niveau de la gestion des données. En outre, l’utilisateur sera dérouté par la présence de résultats multiples pour un même point. Donc, mon but ultime sera de générer automatiquement une carte unique intégrant plusieurs interfaces des fournisseurs sur laquelle les objets homologues seront intégrés avant de les visualiser sur l’écran mobile. Nos nouveaux concepts, basés sur certains algorithmes de fusion, sur l’ontologie pour assurer l’intégration au niveau sémantique et cartographique, sur l’orchestration des géo web services, sont implémentés dans des prototypes modulaires et évalués. / Through any location based services application (LBA) (i.e. m-tourism), users who request information while on the move, intentionally seek as well a quick and precise answer on any map. However, the quality of the cartographic search engines such as Google maps, Bing, Yahoo Maps, Mappy or Via Michelin relies on their geographic datasets. Typically, these datasets had been collected from many geographic databases worldwide. However, the increasing number of different GDBs covering the same area and the retrieval of accurate data/metadata for the requested service will imply lots of reasoning processes and databases’ accesses in order to avoid nearly-duplicated records when displayed on the screen. The scope of my research is to ensure location and cartographic integrations for m-tourism LBA by retrieving spatial/non-spatial information (place names, geographic positions,category type, semantic details and cartographic symbols) from many service providers.However, this will cause many nearly-duplicated records for the same datasets which would bring trouble to data management and make users confused by the different results of a unique query especially for the same point of interest. In other words, my ultimate goal is to generate automatically a unique map from multiple providers’ portrayals such as Google Maps, Bing and Yahoo Maps while homologous features should be integrated to avoid duplicate icons on the mobile screen. Our conceptual framework, based on some fusion algorithms, ontology reasoning for cartographic interoperability and geo-web services orchestration, had been implemented in some modular prototypes and tested for evaluation purpose.
167

Vers un meilleur accès aux informations pertinentes à l’aide du Web sémantique : application au domaine du e-tourisme / Towards a better access to relevant information with Semantic Web : application to the e-tourism domain

Lully, Vincent 17 December 2018 (has links)
Cette thèse part du constat qu’il y a une infobésité croissante sur le Web. Les deux types d’outils principaux, à savoir le système de recherche et celui de recommandation, qui sont conçus pour nous aider à explorer les données du Web, connaissent plusieurs problématiques dans : (1) l’assistance de la manifestation des besoins d’informations explicites, (2) la sélection des documents pertinents, et (3) la mise en valeur des documents sélectionnés. Nous proposons des approches mobilisant les technologies du Web sémantique afin de pallier à ces problématiques et d’améliorer l’accès aux informations pertinentes. Nous avons notamment proposé : (1) une approche sémantique d’auto-complétion qui aide les utilisateurs à formuler des requêtes de recherche plus longues et plus riches, (2) des approches de recommandation utilisant des liens hiérarchiques et transversaux des graphes de connaissances pour améliorer la pertinence, (3) un framework d’affinité sémantique pour intégrer des données sémantiques et sociales pour parvenir à des recommandations qualitativement équilibrées en termes de pertinence, diversité et nouveauté, (4) des approches sémantiques visant à améliorer la pertinence, l’intelligibilité et la convivialité des explications des recommandations, (5) deux approches de profilage sémantique utilisateur à partir des images, et (6) une approche de sélection des meilleures images pour accompagner les documents recommandés dans les bannières de recommandation. Nous avons implémenté et appliqué nos approches dans le domaine du e-tourisme. Elles ont été dûment évaluées quantitativement avec des jeux de données vérité terrain et qualitativement à travers des études utilisateurs. / This thesis starts with the observation that there is an increasing infobesity on the Web. The two main types of tools, namely the search engine and the recommender system, which are designed to help us explore the Web data, have several problems: (1) in helping users express their explicit information needs, (2) in selecting relevant documents, and (3) in valuing the selected documents. We propose several approaches using Semantic Web technologies to remedy these problems and to improve the access to relevant information. We propose particularly: (1) a semantic auto-completion approach which helps users formulate longer and richer search queries, (2) several recommendation approaches using the hierarchical and transversal links in knowledge graphs to improve the relevance of the recommendations, (3) a semantic affinity framework to integrate semantic and social data to yield qualitatively balanced recommendations in terms of relevance, diversity and novelty, (4) several recommendation explanation approaches aiming at improving the relevance, the intelligibility and the user-friendliness, (5) two image user profiling approaches and (6) an approach which selects the best images to accompany the recommended documents in recommendation banners. We implemented and applied our approaches in the e-tourism domain. They have been properly evaluated quantitatively with ground-truth datasets and qualitatively through user studies.
168

Semantically-enabled stream processing and complex event processing over RDF graph streams / Traitement de flux sémantiquement activé et traitement d'évènements complexes sur des flux de graphe RDF

Gillani, Syed 04 November 2016 (has links)
Résumé en français non fourni par l'auteur. / There is a paradigm shift in the nature and processing means of today’s data: data are used to being mostly static and stored in large databases to be queried. Today, with the advent of new applications and means of collecting data, most applications on the Web and in enterprises produce data in a continuous manner under the form of streams. Thus, the users of these applications expect to process a large volume of data with fresh low latency results. This has resulted in the introduction of Data Stream Processing Systems (DSMSs) and a Complex Event Processing (CEP) paradigm – both with distinctive aims: DSMSs are mostly employed to process traditional query operators (mostly stateless), while CEP systems focus on temporal pattern matching (stateful operators) to detect changes in the data that can be thought of as events. In the past decade or so, a number of scalable and performance intensive DSMSs and CEP systems have been proposed. Most of them, however, are based on the relational data models – which begs the question for the support of heterogeneous data sources, i.e., variety of the data. Work in RDF stream processing (RSP) systems partly addresses the challenge of variety by promoting the RDF data model. Nonetheless, challenges like volume and velocity are overlooked by existing approaches. These challenges require customised optimisations which consider RDF as a first class citizen and scale the processof continuous graph pattern matching. To gain insights into these problems, this thesis focuses on developing scalable RDF graph stream processing, and semantically-enabled CEP systems (i.e., Semantic Complex Event Processing, SCEP). In addition to our optimised algorithmic and data structure methodologies, we also contribute to the design of a new query language for SCEP. Our contributions in these two fields are as follows: • RDF Graph Stream Processing. We first propose an RDF graph stream model, where each data item/event within streams is comprised of an RDF graph (a set of RDF triples). Second, we implement customised indexing techniques and data structures to continuously process RDF graph streams in an incremental manner. • Semantic Complex Event Processing. We extend the idea of RDF graph stream processing to enable SCEP over such RDF graph streams, i.e., temporalpattern matching. Our first contribution in this context is to provide a new querylanguage that encompasses the RDF graph stream model and employs a set of expressive temporal operators such as sequencing, kleene-+, negation, optional,conjunction, disjunction and event selection strategies. Based on this, we implement a scalable system that employs a non-deterministic finite automata model to evaluate these operators in an optimised manner. We leverage techniques from diverse fields, such as relational query optimisations, incremental query processing, sensor and social networks in order to solve real-world problems. We have applied our proposed techniques to a wide range of real-world and synthetic datasets to extract the knowledge from RDF structured data in motion. Our experimental evaluations confirm our theoretical insights, and demonstrate the viability of our proposed methods
169

Automatic key discovery for Data Linking / Découverte des clés pour le Liage de Données

Symeonidou, Danai 09 October 2014 (has links)
Dans les dernières années, le Web de données a connu une croissance fulgurante arrivant à un grand nombre des triples RDF. Un des objectifs les plus importants des applications RDF est l’intégration de données décrites dans les différents jeux de données RDF et la création des liens sémantiques entre eux. Ces liens expriment des correspondances sémantiques entre les entités d’ontologies ou entre les données. Parmi les différents types de liens sémantiques qui peuvent être établis, les liens d’identité expriment le fait que différentes ressources réfèrent au même objet du monde réel. Le nombre de liens d’identité déclaré reste souvent faible si on le compare au volume des données disponibles. Plusieurs approches de liage de données déduisent des liens d’identité en utilisant des clés. Une clé représente un ensemble de propriétés qui identifie de façon unique chaque ressource décrite par les données. Néanmoins, dans la plupart des jeux de données publiés sur le Web, les clés ne sont pas disponibles et leur déclaration peut être difficile, même pour un expert.L’objectif de cette thèse est d’étudier le problème de la découverte automatique de clés dans des sources de données RDF et de proposer de nouvelles approches efficaces pour résoudre ce problème. Les données publiées sur le Web sont général volumineuses, incomplètes, et peuvent contenir des informations erronées ou des doublons. Aussi, nous nous sommes focalisés sur la définition d’approches capables de découvrir des clés dans de tels jeux de données. Par conséquent, nous nous focalisons sur le développement d’approches de découverte de clés capables de gérer des jeux de données contenant des informations nombreuses, incomplètes ou erronées. Notre objectif est de découvrir autant de clés que possible, même celles qui sont valides uniquement dans des sous-ensembles de données.Nous introduisons tout d’abord KD2R, une approche qui permet la découverte automatique de clés composites dans des jeux de données RDF pour lesquels l’hypothèse du nom Unique est respectée. Ces données peuvent être conformées à des ontologies différentes. Pour faire face à l’incomplétude des données, KD2R propose deux heuristiques qui per- mettent de faire des hypothèses différentes sur les informations éventuellement absentes. Cependant, cette approche est difficilement applicable pour des sources de données de grande taille. Aussi, nous avons développé une seconde approche, SAKey, qui exploite différentes techniques de filtrage et d’élagage. De plus, SAKey permet à l’utilisateur de découvrir des clés dans des jeux de données qui contiennent des données erronées ou des doublons. Plus précisément, SAKey découvre des clés, appelées "almost keys", pour lesquelles un nombre d’exceptions est toléré. / In the recent years, the Web of Data has increased significantly, containing a huge number of RDF triples. Integrating data described in different RDF datasets and creating semantic links among them, has become one of the most important goals of RDF applications. These links express semantic correspondences between ontology entities or data. Among the different kinds of semantic links that can be established, identity links express that different resources refer to the same real world entity. By comparing the number of resources published on the Web with the number of identity links, one can observe that the goal of building a Web of data is still not accomplished. Several data linking approaches infer identity links using keys. Nevertheless, in most datasets published on the Web, the keys are not available and it can be difficult, even for an expert, to declare them.The aim of this thesis is to study the problem of automatic key discovery in RDF data and to propose new efficient approaches to tackle this problem. Data published on the Web are usually created automatically, thus may contain erroneous information, duplicates or may be incomplete. Therefore, we focus on developing key discovery approaches that can handle datasets with numerous, incomplete or erroneous information. Our objective is to discover as many keys as possible, even ones that are valid in subparts of the data.We first introduce KD2R, an approach that allows the automatic discovery of composite keys in RDF datasets that may conform to different schemas. KD2R is able to treat datasets that may be incomplete and for which the Unique Name Assumption is fulfilled. To deal with the incompleteness of data, KD2R proposes two heuristics that offer different interpretations for the absence of data. KD2R uses pruning techniques to reduce the search space. However, this approach is overwhelmed by the huge amount of data found on the Web. Thus, we present our second approach, SAKey, which is able to scale in very large datasets by using effective filtering and pruning techniques. Moreover, SAKey is capable of discovering keys in datasets where erroneous data or duplicates may exist. More precisely, the notion of almost keys is proposed to describe sets of properties that are not keys due to few exceptions.
170

Techniques d'optimisation pour des données semi-structurées du web sémantique / Database techniques for semantics-rich semi-structured Web data

Leblay, Julien 27 September 2013 (has links)
RDF et SPARQL se sont imposés comme modèle de données et langage de requêtes standard pour décrire et interroger les données sur la Toile. D’importantes quantités de données RDF sont désormais disponibles, sous forme de jeux de données ou de méta-données pour des documents semi-structurés, en particulier XML. La coexistence et l’interdépendance grandissantes entre RDF et XML rendent de plus en plus pressant le besoin de représenter et interroger ces données conjointement. Bien que de nombreux travaux couvrent la production et la publication, manuelles ou automatiques, d’annotations pour données semi-structurées, peu de recherches ont été consacrées à l’exploitation de telles données. Cette thèse pose les bases de la gestion de données hybrides XML-RDF. Nous présentons XR, un modèle de données accommodant l’aspect structurel d’XML et la sémantique de RDF. Le modèle est suffisamment général pour représenter des données indépendantes ou interconnectées, pour lesquelles chaque nœud XML est potentiellement une ressource RDF. Nous introduisons le langage XRQ, qui combine les principales caractéristiques des langages XQuery et SPARQL. Le langage permet d’interroger la structure des documents ainsi que la sémantique de leurs annotations, mais aussi de produire des données semi-structurées annotées. Nous introduisons le problème de composition de requêtes dans le langage XRQ et étudions de manière exhaustive les techniques d’évaluation de requêtes possibles. Nous avons développé la plateforme XRP, implantant les algorithmes d’évaluation de requêtes dont nous comparons les performances expérimentalement. Nous présentons une application reposant sur cette plateforme pour l’annotation automatique et manuelle de pages trouvées sur la Toile. Enfin, nous présentons une technique pour l’inférence RDFS dans les systèmes de gestion de données RDF (et par extension XR). / Since the beginning of the Semantic Web, RDF and SPARQL have become the standard data model and query language to describe resources on the Web. Large amounts of RDF data are now available either as stand-alone datasets or as metadata over semi-structured documents, typically XML. The ability to apply RDF annotations over XML data emphasizes the need to represent and query data and metadata simultaneously. While significant efforts have been invested into producing and publishing annotations manually or automatically, little attention has been devoted to exploiting such data. This thesis aims at setting database foundations for the management of hybrid XML-RDF data. We present a data model capturing the structural aspects of XML data and the semantics of RDF. Our model is general enough to describe pure XML or RDF datasets, as well as RDF-annotated XML data, where any XML node can act as a resource. We also introduce the XRQ query language that combines features of both XQuery and SPARQL. XRQ not only allows querying the structure of documents and the semantics of their annotations, but also producing annotated semi-structured data on-the-fly. We introduce the problem of query composition in XRQ, and exhaustively study query evaluation techniques for XR data to demonstrate the feasibility of this data management setting. We have developed an XR platform on top of well-known data management systems for XML and RDF. The platform features several query processing algorithms, whose performance is experimentally compared. We present an application built on top of the XR platform. The application provides manual and automatic annotation tools, and an interface to query annotated Web page and publicly available XML and RDF datasets concurrently. As a generalization of RDF and SPARQL, XR and XRQ enables RDFS-type of query answering. In this respect, we present a technique to support RDFS-entailments in RDF (and by extension XR) data management systems.

Page generated in 0.0764 seconds