Šiame darbe pasiūlytas algoritmas, gebantis spręsti dviejų klasių problemą bei pasitelkiant tik tekstinį turinį skirtas analizuoti ir klasifikuoti tokius daugialypės terpės dokumentus kaip HTML puslapiai. Taip pat Mozilla Firefox įskiepio pagrindu sukurtas turinio filtras, klasifikuojantis pagal darbe pasiūlytą klasifikavimo algoritmą. Klasifikatoriui apmokyti pasitelktas PHP programavimo kalba realizuotas tiesinis atraminių vektorių algoritmas (SVM). Pagrindinės realizuoto turinio filtro savybės, išskiriančios jį iš daugumos rinkoje esančių analogiškų įrankių, tai galimybė klasifikuoti dar algoritmui nežinomus interneto puslapius bei priklausomai nuo parametrų blokuoti tik dalį arba visą internetinį dokumentą. / An algorithm, able to solve two class problem, designed to analyse and classify multimedia documents such as HTML pages by using textual content, is suggested in the paper. Moreover, content filter based on Mozilla Firefox extension was developed to classify web pages according to the algorithm. Linear support vector machine (SVM) was developed using PHP programming language in order to train the classifier. The main advantage of the content filter we developed which distinguishes it from other analogical tools existing in the market is its ability to classify web pages unfamiliar to the algorithm and to block a part or entire web document depending on setup.
Identifer | oai:union.ndltd.org:LABT_ETD/oai:elaba.lt:LT-eLABa-0001:E.02~2012~D_20140704_174441-62588 |
Date | 04 July 2014 |
Creators | Mečkauskas, Edgaras |
Contributors | Bukauskas, Linas, Vilnius University |
Publisher | Lithuanian Academic Libraries Network (LABT), Vilnius University |
Source Sets | Lithuanian ETD submission system |
Language | Lithuanian |
Detected Language | Unknown |
Type | Master thesis |
Format | application/pdf |
Source | http://vddb.library.lt/obj/LT-eLABa-0001:E.02~2012~D_20140704_174441-62588 |
Rights | Unrestricted |
Page generated in 0.0018 seconds