Digital gespeicherte Daten erfreuen sich einer stetig steigenden Verwendung. Eine manuelle Konsolidierung dieser Daten ist im kommerziellen Bereich aus Kostenund Zeitgründen praktisch nicht mehr durchführbar. Ein Verzicht auf Dublettenerkennung ist aber ebenso wenig eine Alternative. Es existieren bereits viele Ansätze um Objekt-Matching voll- bzw. zumindest semi-automatisch durchzuführen, aber insbesondere Datenbasen, welche aus Webdaten gewonnen werden, weisen eine derart hohe Heterogenität auf, dass bestehende Ansätze an ihre Grenzen stoßen. Insbesondere Produkt-Matching ist hiervon betroffen. Um Produkt-Matching-Verfahren zu unterstützen, werden hier Möglichkeiten der Vorverarbeitung vorgestellt. Es wird speziell eine Strategie entwickelt, mit der es möglich ist, gezielt Produktcodes in Textattributen zuerkennen und zu extrahieren. Diese und weitere Strategien wurden implementiert und indas bestehende Framework des WDI-Lab integriert.
Identifer | oai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:17199 |
Date | 19 February 2018 |
Creators | Thomas, Stefan |
Contributors | Rahm, Erhard, Universität Leipzig |
Source Sets | Hochschulschriftenserver (HSSS) der SLUB Dresden |
Language | German |
Detected Language | German |
Type | info:eu-repo/semantics/publishedVersion, doc-type:bachelorThesis, info:eu-repo/semantics/bachelorThesis, doc-type:Text |
Rights | info:eu-repo/semantics/openAccess |
Relation | urn:nbn:de:bsz:15-qucosa2-163403, qucosa:16340 |
Page generated in 0.0012 seconds