In dieser Arbeit wird ein Programm zur Sprachidentifikation von Web-Dokumenten vorgestellt. Das Verfahren nutzt Worthäufigkeitslisten als Trainingsdaten, um anhand dieser Dokumentenklassifikation in Sprachen vorzunehmen. Somit gehört dieses Werkzeug zu den supervised-learning-Systemen. Die zu klassifizierenden Web-Dokumente wurden mittels des von der Abteilung fur Automatische Sprachverarbeitung entwickelten Tools 'FindLinks' heruntergeladen. Das Programm ist somit in die Nachverarbeitung bestehender Rohdaten einzuordnen. / This BSc Thesis presents a program for automatic language identification of web-documents called LangSepa. The procedure uses training-data which is based on word-frequency-tables of over 350 natural languages. Thus this tool can be subsumed under supervised learning systems. The documents for the classification-task were crawled by an information-retrieval system called FindLinks, which is developed at the Natural Language Processing group at the University of Leipzig. Therefore the presented program will be employed for the postprocessing of existent raw data.
Identifer | oai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:17170 |
Date | 13 February 2018 |
Creators | Pollmächer, Johannes |
Contributors | Quasthoff, Uwe, Universität Leipzig |
Source Sets | Hochschulschriftenserver (HSSS) der SLUB Dresden |
Language | German |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, doc-type:bachelorThesis, info:eu-repo/semantics/bachelorThesis, doc-type:Text |
Rights | info:eu-repo/semantics/openAccess |
Relation | urn:nbn:de:bsz:15-qucosa2-163403, qucosa:16340 |
Page generated in 0.0105 seconds