Return to search

Separierung mit FindLinks gecrawlter Texte nach Sprachen

In dieser Arbeit wird ein Programm zur Sprachidentifikation von Web-Dokumenten vorgestellt. Das Verfahren nutzt Worthäufigkeitslisten als Trainingsdaten, um anhand dieser Dokumentenklassifikation in Sprachen vorzunehmen. Somit gehört dieses Werkzeug zu den supervised-learning-Systemen. Die zu klassifizierenden Web-Dokumente wurden mittels des von der Abteilung fur Automatische Sprachverarbeitung entwickelten Tools 'FindLinks' heruntergeladen. Das Programm ist somit in die Nachverarbeitung bestehender Rohdaten einzuordnen. / This BSc Thesis presents a program for automatic language identification of web-documents called LangSepa. The procedure uses training-data which is based on word-frequency-tables of over 350 natural languages. Thus this tool can be subsumed under supervised learning systems. The documents for the classification-task were crawled by an information-retrieval system called FindLinks, which is developed at the Natural Language Processing group at the University of Leipzig. Therefore the presented program will be employed for the postprocessing of existent raw data.

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:17170
Date13 February 2018
CreatorsPollmächer, Johannes
ContributorsQuasthoff, Uwe, Universität Leipzig
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageGerman
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, doc-type:bachelorThesis, info:eu-repo/semantics/bachelorThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess
Relationurn:nbn:de:bsz:15-qucosa2-163403, qucosa:16340

Page generated in 0.0105 seconds