Return to search

Ontologiemetriken zur Datenqualitätsverbesserung

Die Datenqualität ist ein weitreichendes Thema. Bei vielen Anwendungen und Verfahren spielt sie eine große Rolle. Semantic Web ist da keine Ausnahme. Die Vollständigkeit, Fehlerfreiheit und Genauigkeit der Daten ist maßgebend für die Qualität des Ergebnisses. Im Semantic Web sind Ontologien die wichtigsten Datenquellen. Deswegen ist es wesentlich, diese auf ihre Datenqualität untersuchen zu können. In dieser Arbeit stellen wir ein Verfahren vor, um die Datenqualität einer Ontologie zu überprüfen und potentielle Fehler zu erkennen. Als erstes zeigen wir, wie aus einer Startmenge an fehlerhaften Daten (Goldstandard) andere Fehlerquellen gefunden werden können. Mit Hilfe von Clustern erweitern wir einen Goldstandard, um neue Fehler zu finden. Mit Hilfe dieser Verfahren konnten fehlerhafte Daten in DBpedia wiedergefunden werden.
Da ein solcher Goldstandard nicht immer existiert, zeigen wir Methoden, um Fehlerquellen ohne ihn zu finden. Die verschiedenen Verfahren liefern eine Menge an potentiell fehlerhaften Daten. Diese Daten sollen per Hand evaluiert werden und daraus die nötigen Regeln oder Tests abgeleitet werden. Mit diesen Verfahren konnte ein hoher Recall an fehlerhaften Daten erzielt werden. Außerdem zeigen wir Fälle, die von anderen Verfahren unter anderem Databugger, nicht erkannt werden.

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:17218
Date26 February 2018
CreatorsCherix, Didier
ContributorsFähnrich, Klaus-Peter, Universität Leipzig
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageGerman
Detected LanguageGerman
Typeinfo:eu-repo/semantics/publishedVersion, doc-type:masterThesis, info:eu-repo/semantics/masterThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess
Relationurn:nbn:de:bsz:15-qucosa2-163403, qucosa:16340

Page generated in 0.0023 seconds