Return to search

Entwurf eines konfigurierbaren Web-Crawler-Frameworks zur weiteren Verwendung fur Single-Hosted Media Retrieval

Diese Arbeit beschreibt ein Webcrawler-Framework für die Professur Medieninformatik der Technischen Universität Chemnitz und dessen
Kernimplementierung. Der Crawler traversiert den WWW-Graph. Jedes Dokument durchläuft dabei verschiedene Module
des Frameworks. Ein Schedulingmodul entscheidet über die Reihenfolge der Traversierung. Schwerpunkt dieser Entwicklung
ist die Erweiterungsmöglichkeit für unterschiedliche Variationen des Datensammlers. Es wird gezeigt, welche Informationen
ein Dokument für wesentliche Entscheidungen begleiten müssen. Hierzu zählen Wiedererkennung von Dokumenten,
Schedulingkriterien und URL-Indexpflege. Der Framework ist konfigurierbar. Das heißt, im Kern bezieht sich die Funktion
auf Crawling. Zusätzlich sind Schnittstellen für Filter- und Speicherkomponenten vorgesehen.
Der Crawler verfügt über eine Administrationsschnittstelle, mit Hilfe derer er gesteuert werden kann. Weiterhin sind Status und Statistiken
über Ereignisse und Fortschritte vorgesehen. Außerdem werden Testkriterien aufgezeigt und Probleme diskutiert.

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa.de:bsz:ch1-200801338
Date02 October 2008
CreatorsZemlin, Toralf
ContributorsTU Chemnitz, Fakultät für Informatik, Prof. Dr. Maximilian Eibl, Robert Knauf, Prof. Dr. Maximilian Eibl, Robert Knauf
PublisherUniversitätsbibliothek Chemnitz
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
Languagedeu
Detected LanguageGerman
Typedoc-type:masterThesis
Formatapplication/pdf, text/plain, application/zip

Page generated in 0.002 seconds