Global ETD Search

Return to search

Entwurf eines konfigurierbaren Web-Crawler-Frameworks zur weiteren Verwendung fur Single-Hosted Media Retrieval

Diese Arbeit beschreibt ein Webcrawler-Framework für die Professur Medieninformatik der Technischen Universität Chemnitz und dessen
Kernimplementierung. Der Crawler traversiert den WWW-Graph. Jedes Dokument durchläuft dabei verschiedene Module
des Frameworks. Ein Schedulingmodul entscheidet über die Reihenfolge der Traversierung. Schwerpunkt dieser Entwicklung
ist die Erweiterungsmöglichkeit für unterschiedliche Variationen des Datensammlers. Es wird gezeigt, welche Informationen
ein Dokument für wesentliche Entscheidungen begleiten müssen. Hierzu zählen Wiedererkennung von Dokumenten,
Schedulingkriterien und URL-Indexpflege. Der Framework ist konfigurierbar. Das heißt, im Kern bezieht sich die Funktion
auf Crawling. Zusätzlich sind Schnittstellen für Filter- und Speicherkomponenten vorgesehen.
Der Crawler verfügt über eine Administrationsschnittstelle, mit Hilfe derer er gesteuert werden kann. Weiterhin sind Status und Statistiken
über Ereignisse und Fortschritte vorgesehen. Außerdem werden Testkriterien aufgezeigt und Probleme diskutiert.

info:eu-repo/classification/ddc/000

ddc:000

Framework <Informatik>

Identifer	oai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:18977
Date	18 July 2008
Creators	Zemlin, Toralf
Contributors	Eibl, Maximilian, Knauf, Robert, Technische Universität Chemnitz
Source Sets	Hochschulschriftenserver (HSSS) der SLUB Dresden
Language	German
Detected Language	German
Type	doc-type:masterThesis, info:eu-repo/semantics/masterThesis, doc-type:Text
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds

Entwurf eines konfigurierbaren Web-Crawler-Frameworks zur weiteren Verwendung fur Single-Hosted Media Retrieval

Description

Links & Downloads

Tags

Additional Fields