Die Datenqualität ist ein weitreichendes Thema. Bei vielen Anwendungen und Verfahren spielt sie eine große Rolle. Semantic Web ist da keine Ausnahme. Die Vollständigkeit, Fehlerfreiheit und Genauigkeit der Daten ist maßgebend für die Qualität des Ergebnisses. Im Semantic Web sind Ontologien die wichtigsten Datenquellen. Deswegen ist es wesentlich, diese auf ihre Datenqualität untersuchen zu können. In dieser Arbeit stellen wir ein Verfahren vor, um die Datenqualität einer Ontologie zu überprüfen und potentielle Fehler zu erkennen. Als erstes zeigen wir, wie aus einer Startmenge an fehlerhaften Daten (Goldstandard) andere Fehlerquellen gefunden werden können. Mit Hilfe von Clustern erweitern wir einen Goldstandard, um neue Fehler zu finden. Mit Hilfe dieser Verfahren konnten fehlerhafte Daten in DBpedia wiedergefunden werden.
Da ein solcher Goldstandard nicht immer existiert, zeigen wir Methoden, um Fehlerquellen ohne ihn zu finden. Die verschiedenen Verfahren liefern eine Menge an potentiell fehlerhaften Daten. Diese Daten sollen per Hand evaluiert werden und daraus die nötigen Regeln oder Tests abgeleitet werden. Mit diesen Verfahren konnte ein hoher Recall an fehlerhaften Daten erzielt werden. Außerdem zeigen wir Fälle, die von anderen Verfahren unter anderem Databugger, nicht erkannt werden.
Identifer | oai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:17218 |
Date | 26 February 2018 |
Creators | Cherix, Didier |
Contributors | Fähnrich, Klaus-Peter, Universität Leipzig |
Source Sets | Hochschulschriftenserver (HSSS) der SLUB Dresden |
Language | German |
Detected Language | German |
Type | info:eu-repo/semantics/publishedVersion, doc-type:masterThesis, info:eu-repo/semantics/masterThesis, doc-type:Text |
Rights | info:eu-repo/semantics/openAccess |
Relation | urn:nbn:de:bsz:15-qucosa2-163403, qucosa:16340 |
Page generated in 0.0023 seconds