Global ETD Search

Return to search

Implementierung von Software-Frameworks am Beispiel von Apache Spark in das DBpediaExtraction Framework

Das DBpedia-Projekt extrahiert zweimal pro Jahr RDF-Datensätze aus den semi-\\strukturierten Datensätzen Wikipedias. DBpedia soll nun auf ein Release-Modell umgestellt werden welches einen Release-Zyklus mit bis zu zwei vollständigen DBpedia Datensätzen pro Monat unterstützt. Dies ist mit der momentanen Geschwindigkeit des Extraktionsprozesses nicht möglich. Eine Verbesserung soll durch eine Parallelisierung mithilfe von Apache Spark erreicht werden. Der Fokus dieser Arbeit liegt auf der effizienten lokalen Nutzung Apache Sparks zur parallelen Verarbeitung von großen, semi-strukturierten Datensätzen. Dabei wird eine Implementierung der Apache Spark gestützten Extraktion vorgestellt, welche eine ausreichende Verringerung der Laufzeit erzielt. Dazu wurden grundlegende Methoden der komponentenbasierten Softwareentwicklung angewendet, Apache Sparks Nutzen für das Extraction-Framework analysiert und ein Überblick über die notwendigen Änderungen am Extraction-Framework präsentiert.

Identifer	oai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:31355
Date	28 August 2018
Creators	Bielinski, Robert
Contributors	Freudenberg, Markus, Knuth, Magnus, Hellmann, Sebastian, Robert Bielinski, Universität Leipzig
Source Sets	Hochschulschriftenserver (HSSS) der SLUB Dresden
Language	German
Detected Language	German
Type	info:eu-repo/semantics/publishedVersion, doc-type:bachelorThesis, info:eu-repo/semantics/bachelorThesis, doc-type:Text
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0015 seconds

Implementierung von Software-Frameworks am Beispiel von Apache Spark in das DBpediaExtraction Framework

Description

Links & Downloads

Tags

Additional Fields