Spelling suggestions: "subject:"ddf(s)"" "subject:"fdf(s)""
1 |
Découverte de schéma pour les données du Web sémantique / Schema Discovery in Semantic Web Data SourcesKellou-Menouer, Kenza 09 October 2017 (has links)
Un nombre croissant de sources de données interconnectées sont publiées sur le Web. Cependant, leur schéma peut êtreincomplet ou absent. De plus, les données ne sont pas nécessairement conformes au schéma déclaré. Ce qui rend leur exploitation complexe. Dans cette thèse, nous proposons une approche d’extraction automatique et incrémentale du schéma d’une source à partir de la structure implicite de ses données. Afin decompléter la description des types découverts, nous proposons également une approche de découverte des patterns structurels d’un type. L’approche procède en ligne sans avoir à télécharger ou à parcourir la source. Ce quipeut être coûteux voire impossible car les sources sont interrogées à distance et peuvent imposer des contraintes d’accès, notamment en termes de temps ou de nombre de requêtes. Nous avons abordé le problème de l’annotationafin de trouver pour chaque type un ensemble de labels permettant de rendre compte de sonsens. Nous avons proposé des algorithmes d’annotation qui retrouvent le sens d’un type en utilisant des sources de données de références. Cette approche s’applique aussi bien pour trouver des noms pertinents pour les typesdécouverts que pour enrichir la description des types existants. Enfin, nous nous sommes intéressés à caractériser la conformité entre les données d’une source et le schéma qui les décrit. Nous avons proposé une approche pour l'analyse et l'amélioration de cette conformité et nous avons proposé des facteurs de qualité, les métriques associées, ainsi qu'une extension du schéma permettant de refléter l'hétérogénéité entre les instances d'un type. / An increasing number of linked data sources are published on the Web. However, their schema may be incomplete or missing. In addition, data do not necessarily follow their schema. This flexibility for describing the data eases their evolution, but makes their exploitation more complex. In our work, we have proposed an automatic and incremental approach enabling schema discovery from the implicit structure of the data. To complement the description of the types in a schema, we have also proposed an approach for finding the possible versions (patterns) for each of them. It proceeds online without having to download or browse the source. This can be expensive or even impossible because the sources may have some access limitations, either on the query execution time, or on the number of queries.We have also addressed the problem of annotating the types in a schema, which consists in finding a set of labels capturing their meaning. We have proposed annotation algorithms which provide meaningful labels using external knowledge bases. Our approach can be used to find meaningful type labels during schema discovery, and also to enrichthe description of existing types.Finally, we have proposed an approach to evaluate the gap between a data source and itsschema. To this end, we have proposed a setof quality factors and the associated metrics, aswell as a schema extension allowing to reflect the heterogeneity among instances of the sametype. Both factors and schema extension are used to analyze and improve the conformity between a schema and the instances it describes
|
2 |
Exploration et interrogation de données RDF intégrant de la connaissance métier / Integrating domain knowledge for RDF dataset exploration and interrogationOuksili, Hanane 21 October 2016 (has links)
Un nombre croissant de sources de données est publié sur le Web, décrites dans les langages proposés par le W3C tels que RDF, RDF(S) et OWL. Une quantité de données sans précédent est ainsi disponible pour les utilisateurs et les applications, mais l'exploitation pertinente de ces sources constitue encore un défi : l'interrogation des sources est en effet limitée d'abord car elle suppose la maîtrise d'un langage de requêtes tel que SPARQL, mais surtout car elle suppose une certaine connaissance de la source de données qui permet de cibler les ressources et les propriétés pertinentes pour les besoins spécifiques des applications. Le travail présenté ici s'intéresse à l'exploration de sources de données RDF, et ce selon deux axes complémentaires : découvrir d'une part les thèmes sur lesquels porte la source de données, fournir d'autre part un support pour l'interrogation d'une source sans l'utilisation de langage de requêtes, mais au moyen de mots clés. L'approche d'exploration proposée se compose ainsi de deux stratégies complémentaires : l'exploration thématique et la recherche par mots clés. La découverte de thèmes dans une source de données RDF consiste à identifier un ensemble de sous-graphes, non nécessairement disjoints, chacun représentant un ensemble cohérent de ressources sémantiquement liées et définissant un thème selon le point de vue de l'utilisateur. Ces thèmes peuvent être utilisés pour permettre une exploration thématique de la source, où les utilisateurs pourront cibler les thèmes pertinents pour leurs besoins et limiter l'exploration aux seules ressources composant les thèmes sélectionnés. La recherche par mots clés est une façon simple et intuitive d'interroger les sources de données. Dans le cas des sources de données RDF, cette recherche pose un certain nombre de problèmes, comme l'indexation des éléments du graphe, l'identification des fragments du graphe pertinents pour une requête spécifique, l'agrégation de ces fragments pour former un résultat, et le classement des résultats obtenus. Nous abordons dans cette thèse ces différents problèmes, et nous proposons une approche qui permet, en réponse à une requête mots clés, de construire une liste de sous-graphes et de les classer, chaque sous-graphe correspondant à un résultat pertinent pour la requête. Pour chacune des deux stratégies d'exploration d'une source RDF, nous nous sommes intéressés à prendre en compte de la connaissance externe, permettant de mieux répondre aux besoins des utilisateurs. Cette connaissance externe peut représenter des connaissances du domaine, qui permettent de préciser le besoin exprimé dans le cas d'une requête, ou de prendre en compte des connaissances permettant d'affiner la définition des thèmes. Dans notre travail, nous nous sommes intéressés à formaliser cette connaissance externe et nous avons pour cela introduit la notion de pattern. Ces patterns représentent des équivalences de propriétés et de chemins dans le graphe représentant la source. Ils sont évalués et intégrés dans le processus d'exploration pour améliorer la qualité des résultats. / An increasing number of datasets is published on the Web, expressed in languages proposed by the W3C to describe Web data such as RDF, RDF(S) and OWL. The Web has become a unprecedented source of information available for users and applications, but the meaningful usage of this information source is still a challenge. Querying these data sources requires the knowledge of a formal query language such as SPARQL, but it mainly suffers from the lack of knowledge about the source itself, which is required in order to target the resources and properties relevant for the specific needs of the application. The work described in this thesis addresses the exploration of RDF data sources. This exploration is done according to two complementary ways: discovering the themes or topics representing the content of the data source, and providing a support for an alternative way of querying the data sources by using keywords instead of a query formulated in SPARQL. The proposed exploration approach combines two complementary strategies: thematic-based exploration and keyword search. Theme discovery from an RDF dataset consists in identifying a set of sub-graphs which are not necessarily disjoints, and such that each one represents a set of semantically related resources representing a theme according to the point of view of the user. These themes can be used to enable a thematic exploration of the data source where users can target the relevant theme and limit their exploration to the resources composing this theme. Keyword search is a simple and intuitive way of querying data sources. In the case of RDF datasets, this search raises several problems, such as indexing graph elements, identifying the relevant graph fragments for a specific query, aggregating these relevant fragments to build the query results, and the ranking of these results. In our work, we address these different problems and we propose an approach which takes as input a keyword query and provides a list of sub-graphs, each one representing a candidate result for the query. These sub-graphs are ordered according to their relevance to the query. For both keyword search and theme identification in RDF data sources, we have taken into account some external knowledge in order to capture the users needs, or to bridge the gap between the concepts invoked in a query and the ones of the data source. This external knowledge could be domain knowledge allowing to refine the user's need expressed by a query, or to refine the definition of themes. In our work, we have proposed a formalization to this external knowledge and we have introduced the notion of pattern to this end. These patterns represent equivalences between properties and paths in the dataset. They are evaluated and integrated in the exploration process to improve the quality of the result.
|
3 |
Construction d'un Web sémantique multi-points de vueBach thanh, Lê 10 1900 (has links) (PDF)
Dans cette thèse, nous étudions les problèmes de l'hétérogénéité et du consensus dans un Web sémantique d'entreprise. Dans le Web sémantique, une extension du Web actuel, la sémantique des ressources est rendue explicite pour que les machines et les agents puissent les « comprendre » et les traiter automatiquement, afin de faciliter les tâches des utilisateurs finaux. Un Web sémantique d'entreprise est un tel web sémantique dédié à une entreprise, une organisation. L'objectif de cette thèse est de permettre la construction et l'exploitation d'un tel Web sémantique, dans une organisation hétérogène comportant différentes sources de connaissances et différentes catégories d'utilisateurs, sans éliminer l'hétérogénéité mais en faisant cohabiter entre l'hétérogénéité et le consensus dans l'organisation tout entière. Dans la première partie, nous approfondissons le problème de l'hétérogénéité des ontologies. L'ontologie est un des éléments fondamentaux dans le Web sémantique. Plusieurs ontologies différentes peuvent co-exister dans une organisation hétérogène. Pour faciliter l'échange des informations et des connaissances encodées dans différentes ontologies, nous étudions des algorithmes permettant d'aligner des ontologies déjà existantes. Les algorithmes proposés permettent de mettre en correspondance les ontologies représentées dans les langages RDF(S) et OWL recommandés par le W3C pour le Web sémantique. Ces algorithmes sont évalués grâce à des campagnes d'évaluation des outils d'alignement d'ontologies. Dans la deuxième partie, nous nous intéressons au problème de la construction de nouvelles ontologies dans une organisation hétérogène mais en prenant en compte différents points de vue, différentes terminologies des personnes, des groupes voire des communautés diverses au sein de cette organisation. Une telle ontologie, appelée ontologie multi-points de vue, permet de faire cohabiter à la fois l'hétérogénéité et le consensus dans une organisation hétérogène. Nous proposons un modèle de représentation des connaissances multi-points de vue, appelé MVP, et un langage d'ontologie multi-points de vue, qui est une extension du langage d'ontologie OWL, appelé MVP-OWL, pour permettre de construire et d'exploiter des ontologies multi-points de vue dans un Web sémantique d'entreprise.
|
4 |
Exploitation du web sémantique pour la veille technologiqueCao, Tuan Dung 29 November 2006 (has links) (PDF)
L'essor d'Internet et du Web a favorisé la mise en ligne de nombreuses informations disponibles, potentiellement utiles pour la veille technologique et scientifique d'une entreprise. Différentes techniques de recherche d¤information sur le Web ont été proposées afin de construire des outils permettant d'affiner la recherche pour obtenir des résultats pertinents. Cependant, dans le contexte du Web actuel, malgré de grandes avancées dans le champ de la recherche d'information, ces outils ont montré leurs limites en termes de précision et de rappel. L'application des technologies du Web Sémantique, en particulier des ontologies, semble donc intéressante pour améliorer les performances de la tâche de veille technologique et scientifique sur le Web. Les travaux de cette thèse se sont déroulés dans le cadre d'une coopération entre le Centre Scientifique et Technique du Bâtiment (CSTB) et l'équipe ACACIA de l'INRIA Sophia Antipolis. L'objectif principal est d'exploiter les technologies du Web Sémantique pour développer un système de veille (OntoWatch), guidé par des ontologies, pour collecter, capturer, filtrer, classer et structurer le contenu du Web en provenance de plusieurs sources d¤information dans un scénario d'aide à la veille technologique et scientifique. Dans une première partie, nous modélisons le processus de veille technologique et scientifique du CSTB reposant sur le modèle général de veille proposé par Lesca. Puis nous identifions les apports potentiels de l¤ontologie dans les différentes étapes et nous construisons une ontologie dédiée au système de veille. Cette ontologie intègre une partie d'une ontologie existante et des vocabulaires offerts dans des thésaurus du domaine du CSTB. Ensuite, nous proposons des algorithmes utilisant une ontologie pour améliorer la recherche des documents sur le Web, puis générer automatiquement les annotations sémantiques (représentées dans le langage RDF) sur ces documents. Ces annotations alimentent dans le système les bases d'annotations, sur lesquelles repose la recherche sémantique d'informations. <br />Enfin, nous proposons une architecture multi-agents pour l'implémentation du système OntoWatch. Nous nous focalisons en particulier sur la conception des sous-sociétés d'agents dédiées à la recherche et à l'annotation automatique des documents sur le Web.
|
5 |
Interroger RDF(S) avec des expressions régulièresAlkhateeb, Faisal 30 June 2008 (has links) (PDF)
RDF est un langage de représentation des connaissances dédié à l'annotation des ressources dans le Web Sémantique. Bien que RDF peut être lui-même utilisé comme un langage de requêtes pour interroger une base de connaissances RDF (utilisant la conséquence RDF), la nécessité d'ajouter plus d'expressivité dans les requêtes a conduit à définir le langage de requêtes SPARQL. Les requêtes SPARQL sont définies à partir des patrons de graphes qui sont fondamentalement des graphes RDF avec des variables. Les requêtes SPARQL restent limitées car elles ne permettent pas d'exprimer des requêtes avec une séquence non-bornée de relations (par exemple, Existe-t-il un itinéraire d'une ville A à une ville B qui n'utilise que les trains ou les bus?"). Nous montrons qu'il est possible d'étendre la syntaxe et la sémantique de RDF, définissant le langage PRDF (pour Path RDF) afin que SPARQL puisse surmonter cette limitation en remplaçant simplement les patrons de graphes basiques par des graphes PRDF. Nous étendons aussi PRDF à CPRDF (pour Constrained Path RDF) permettant d'exprimer des contraintes sur les sommets des chemins traversés (par exemple, "En outre, l'une des correspondances doit fournir une connexion sans fil."). Nous avons fourni des algorithmes corrects et complets pour répondre aux requêtes (la requête est un graphe PRDF ou CPRDF, la base de connaissances est un graphe RDF) basés sur un homomorphisme particulier, ainsi qu'une analyse détaillée de la complexité. Enfin, nous utilisons les graphes PRDF ou CPRDF pour généraliser les requêtes SPARQL, définissant les extensions PSPARQL et CPSPARQL, et fournissons des tests expérimentaux en utilisant une implémentation complète de ces deux langages.
|
6 |
Gestion de l'évolution d'un Web sémantique d'entrepriseLuong, Phuc Hiep 14 December 2007 (has links) (PDF)
Le Web Sémantique d'Entreprise (WSE) est une approche particulière de la Gestion des Connaissances d'une entreprise pour la prochaine génération du Web Sémantique. Dans la réalité, les organisations vivent dans un environnement hétérogène, dynamique et en cours d'évolution qui mène souvent à des changements externes et internes requérant l'évolution de leur système de gestion des connaissances. Peu de recherches actuelles font face aux changements du système de gestion des connaissances. L'objectif de cette thèse est de contribuer à lever cette limitation. Dans ce manuscrit, nous présentons une nouvelle approche de la gestion de l'évolution du WSE. Nous nous focalisons en particulier sur l'évolution de l'ontologie et de l'annotation sémantique qui sont deux composants importants du WSE. Nous nous intéressons à deux scénarios d'évolution de l'ontologie : (i) avec trace et (ii) sans trace de changements ontologiques effectués. Ces deux scénarios sont fréquents dans les situations réelles et ils peuvent entraîner des inconsistances au niveau des annotations sémantiques reposant sur cette ontologie modifiée. Pour chacun des contextes d'évolution, nous développons des approches équivalentes : une approche procédurale et une approche basée sur des règles en vue de gérer l'évolution des annotations sémantiques et de détecter et de corriger les annotations sémantiques inconsistantes. Ces propositions ont été implémentées et validées dans le système CoSWEM qui facilite la gestion de l'évolution du WSE. Ce système a été expérimenté dans le cadre des projets PALETTE et E-WOK_HUB sur un ensemble de données réelles et évolutives provenant de ces projets.
|
Page generated in 0.0434 seconds