Global ETD Search

Return to search

Separierung mit FindLinks gecrawlter Texte nach Sprachen

In dieser Arbeit wird ein Programm zur Sprachidentifikation von Web-Dokumenten vorgestellt. Das Verfahren nutzt Worthäufigkeitslisten als Trainingsdaten, um anhand dieser Dokumentenklassifikation in Sprachen vorzunehmen. Somit gehört dieses Werkzeug zu den supervised-learning-Systemen. Die zu klassifizierenden Web-Dokumente wurden mittels des von der Abteilung fur Automatische Sprachverarbeitung entwickelten Tools 'FindLinks' heruntergeladen. Das Programm ist somit in die Nachverarbeitung bestehender Rohdaten einzuordnen. / This BSc Thesis presents a program for automatic language identification of web-documents called LangSepa. The procedure uses training-data which is based on word-frequency-tables of over 350 natural languages. Thus this tool can be subsumed under supervised learning systems. The documents for the classification-task were crawled by an information-retrieval system called FindLinks, which is developed at the Natural Language Processing group at the University of Leipzig. Therefore the presented program will be employed for the postprocessing of existent raw data.

info:eu-repo/classification/ddc/000

ddc:000

Identifer	oai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:17170
Date	13 February 2018
Creators	Pollmächer, Johannes
Contributors	Quasthoff, Uwe, Universität Leipzig
Source Sets	Hochschulschriftenserver (HSSS) der SLUB Dresden
Language	German
Detected Language	English
Type	info:eu-repo/semantics/publishedVersion, doc-type:bachelorThesis, info:eu-repo/semantics/bachelorThesis, doc-type:Text
Rights	info:eu-repo/semantics/openAccess
Relation	urn:nbn:de:bsz:15-qucosa2-163403, qucosa:16340

Page generated in 0.0373 seconds

Separierung mit FindLinks gecrawlter Texte nach Sprachen

Description

Links & Downloads

Tags

Additional Fields