Return to search

Entwurf eines konfigurierbaren Web-Crawler-Frameworks zur weiteren Verwendung fur Single-Hosted Media Retrieval

Diese Arbeit beschreibt ein Webcrawler-Framework für die Professur Medieninformatik der Technischen Universität Chemnitz und dessen
Kernimplementierung. Der Crawler traversiert den WWW-Graph. Jedes Dokument durchläuft dabei verschiedene Module
des Frameworks. Ein Schedulingmodul entscheidet über die Reihenfolge der Traversierung. Schwerpunkt dieser Entwicklung
ist die Erweiterungsmöglichkeit für unterschiedliche Variationen des Datensammlers. Es wird gezeigt, welche Informationen
ein Dokument für wesentliche Entscheidungen begleiten müssen. Hierzu zählen Wiedererkennung von Dokumenten,
Schedulingkriterien und URL-Indexpflege. Der Framework ist konfigurierbar. Das heißt, im Kern bezieht sich die Funktion
auf Crawling. Zusätzlich sind Schnittstellen für Filter- und Speicherkomponenten vorgesehen.
Der Crawler verfügt über eine Administrationsschnittstelle, mit Hilfe derer er gesteuert werden kann. Weiterhin sind Status und Statistiken
über Ereignisse und Fortschritte vorgesehen. Außerdem werden Testkriterien aufgezeigt und Probleme diskutiert.

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:18977
Date18 July 2008
CreatorsZemlin, Toralf
ContributorsEibl, Maximilian, Knauf, Robert, Technische Universität Chemnitz
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageGerman
Detected LanguageGerman
Typedoc-type:masterThesis, info:eu-repo/semantics/masterThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds