Diese Arbeit zeigt ausgehend von einer Darstellung der theoretischen Grundlagen automatischer Textklassifikation, dass die aus der Statistical Learning Theory stammenden Support Vector Machines geeignet sind, zu einer präziseren Erkennung unerwünschter E-Mail-Werbung beizutragen. In einer Testumgebung mit einem Corpus von 20 000 E-Mails wurden Testläufe verschiedene Parameter der Vorverarbeitung und der Support Vector Machine automatisch evaluiert und grafisch visualisiert. Aufbauend darauf wird eine Erweiterung für die Open-Source-Software SpamAssassin beschrieben, die die vorhandenen Klassifikationsmechanismen um eine Klassifikation per Support Vector Machine erweitert.
Identifer | oai:union.ndltd.org:DRESDEN/oai:qucosa.de:swb:ch1-200500580 |
Date | 22 June 2005 |
Creators | Möller, Manuel |
Contributors | TU Chemnitz, Fakultät für Informatik |
Publisher | Universitätsbibliothek Chemnitz |
Source Sets | Hochschulschriftenserver (HSSS) der SLUB Dresden |
Language | deu |
Detected Language | German |
Type | doc-type:StudyThesis |
Format | application/pdf, application/postscript, text/plain, application/zip |
Page generated in 0.0019 seconds