Return to search

Découverte de schéma pour les données du Web sémantique / Schema Discovery in Semantic Web Data Sources

Un nombre croissant de sources de données interconnectées sont publiées sur le Web. Cependant, leur schéma peut êtreincomplet ou absent. De plus, les données ne sont pas nécessairement conformes au schéma déclaré. Ce qui rend leur exploitation complexe. Dans cette thèse, nous proposons une approche d’extraction automatique et incrémentale du schéma d’une source à partir de la structure implicite de ses données. Afin decompléter la description des types découverts, nous proposons également une approche de découverte des patterns structurels d’un type. L’approche procède en ligne sans avoir à télécharger ou à parcourir la source. Ce quipeut être coûteux voire impossible car les sources sont interrogées à distance et peuvent imposer des contraintes d’accès, notamment en termes de temps ou de nombre de requêtes. Nous avons abordé le problème de l’annotationafin de trouver pour chaque type un ensemble de labels permettant de rendre compte de sonsens. Nous avons proposé des algorithmes d’annotation qui retrouvent le sens d’un type en utilisant des sources de données de références. Cette approche s’applique aussi bien pour trouver des noms pertinents pour les typesdécouverts que pour enrichir la description des types existants. Enfin, nous nous sommes intéressés à caractériser la conformité entre les données d’une source et le schéma qui les décrit. Nous avons proposé une approche pour l'analyse et l'amélioration de cette conformité et nous avons proposé des facteurs de qualité, les métriques associées, ainsi qu'une extension du schéma permettant de refléter l'hétérogénéité entre les instances d'un type. / An increasing number of linked data sources are published on the Web. However, their schema may be incomplete or missing. In addition, data do not necessarily follow their schema. This flexibility for describing the data eases their evolution, but makes their exploitation more complex. In our work, we have proposed an automatic and incremental approach enabling schema discovery from the implicit structure of the data. To complement the description of the types in a schema, we have also proposed an approach for finding the possible versions (patterns) for each of them. It proceeds online without having to download or browse the source. This can be expensive or even impossible because the sources may have some access limitations, either on the query execution time, or on the number of queries.We have also addressed the problem of annotating the types in a schema, which consists in finding a set of labels capturing their meaning. We have proposed annotation algorithms which provide meaningful labels using external knowledge bases. Our approach can be used to find meaningful type labels during schema discovery, and also to enrichthe description of existing types.Finally, we have proposed an approach to evaluate the gap between a data source and itsschema. To this end, we have proposed a setof quality factors and the associated metrics, aswell as a schema extension allowing to reflect the heterogeneity among instances of the sametype. Both factors and schema extension are used to analyze and improve the conformity between a schema and the instances it describes

Identiferoai:union.ndltd.org:theses.fr/2017SACLV047
Date09 October 2017
CreatorsKellou-Menouer, Kenza
ContributorsUniversité Paris-Saclay (ComUE), Kedad, Zoubida
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.1117 seconds