Global ETD Search

Return to search

Entwurf eines konfigurierbaren Web-Crawler-Frameworks zur weiteren Verwendung fur Single-Hosted Media Retrieval

Diese Arbeit beschreibt ein Webcrawler-Framework für die Professur Medieninformatik der Technischen Universität Chemnitz und dessen
Kernimplementierung. Der Crawler traversiert den WWW-Graph. Jedes Dokument durchläuft dabei verschiedene Module
des Frameworks. Ein Schedulingmodul entscheidet über die Reihenfolge der Traversierung. Schwerpunkt dieser Entwicklung
ist die Erweiterungsmöglichkeit für unterschiedliche Variationen des Datensammlers. Es wird gezeigt, welche Informationen
ein Dokument für wesentliche Entscheidungen begleiten müssen. Hierzu zählen Wiedererkennung von Dokumenten,
Schedulingkriterien und URL-Indexpflege. Der Framework ist konfigurierbar. Das heißt, im Kern bezieht sich die Funktion
auf Crawling. Zusätzlich sind Schnittstellen für Filter- und Speicherkomponenten vorgesehen.
Der Crawler verfügt über eine Administrationsschnittstelle, mit Hilfe derer er gesteuert werden kann. Weiterhin sind Status und Statistiken
über Ereignisse und Fortschritte vorgesehen. Außerdem werden Testkriterien aufgezeigt und Probleme diskutiert.

Framework <Informatik>

Suchmaschine

Identifer	oai:union.ndltd.org:DRESDEN/oai:qucosa.de:bsz:ch1-200801338
Date	02 October 2008
Creators	Zemlin, Toralf
Contributors	TU Chemnitz, Fakultät für Informatik, Prof. Dr. Maximilian Eibl, Robert Knauf, Prof. Dr. Maximilian Eibl, Robert Knauf
Publisher	Universitätsbibliothek Chemnitz
Source Sets	Hochschulschriftenserver (HSSS) der SLUB Dresden
Language	deu
Detected Language	German
Type	doc-type:masterThesis
Format	application/pdf, text/plain, application/zip

Page generated in 0.002 seconds

Entwurf eines konfigurierbaren Web-Crawler-Frameworks zur weiteren Verwendung fur Single-Hosted Media Retrieval

Description

Links & Downloads

Tags

Additional Fields