Return to search

Turinio filtras, paremtas daugialypės terpės failų klasifikavimu / Content filter based on classification of multimedia documents

Šiame darbe pasiūlytas algoritmas, gebantis spręsti dviejų klasių problemą bei pasitelkiant tik tekstinį turinį skirtas analizuoti ir klasifikuoti tokius daugialypės terpės dokumentus kaip HTML puslapiai. Taip pat Mozilla Firefox įskiepio pagrindu sukurtas turinio filtras, klasifikuojantis pagal darbe pasiūlytą klasifikavimo algoritmą. Klasifikatoriui apmokyti pasitelktas PHP programavimo kalba realizuotas tiesinis atraminių vektorių algoritmas (SVM). Pagrindinės realizuoto turinio filtro savybės, išskiriančios jį iš daugumos rinkoje esančių analogiškų įrankių, tai galimybė klasifikuoti dar algoritmui nežinomus interneto puslapius bei priklausomai nuo parametrų blokuoti tik dalį arba visą internetinį dokumentą. / An algorithm, able to solve two class problem, designed to analyse and classify multimedia documents such as HTML pages by using textual content, is suggested in the paper. Moreover, content filter based on Mozilla Firefox extension was developed to classify web pages according to the algorithm. Linear support vector machine (SVM) was developed using PHP programming language in order to train the classifier. The main advantage of the content filter we developed which distinguishes it from other analogical tools existing in the market is its ability to classify web pages unfamiliar to the algorithm and to block a part or entire web document depending on setup.

Identiferoai:union.ndltd.org:LABT_ETD/oai:elaba.lt:LT-eLABa-0001:E.02~2012~D_20140704_174441-62588
Date04 July 2014
CreatorsMečkauskas, Edgaras
ContributorsBukauskas, Linas, Vilnius University
PublisherLithuanian Academic Libraries Network (LABT), Vilnius University
Source SetsLithuanian ETD submission system
LanguageLithuanian
Detected LanguageUnknown
TypeMaster thesis
Formatapplication/pdf
Sourcehttp://vddb.library.lt/obj/LT-eLABa-0001:E.02~2012~D_20140704_174441-62588
RightsUnrestricted

Page generated in 0.0018 seconds