Global ETD Search

1	Turinio filtras, paremtas daugialypės terpės failų klasifikavimu / Content filter based on classification of multimedia documents Mečkauskas, Edgaras 04 July 2014 (has links) Šiame darbe pasiūlytas algoritmas, gebantis spręsti dviejų klasių problemą bei pasitelkiant tik tekstinį turinį skirtas analizuoti ir klasifikuoti tokius daugialypės terpės dokumentus kaip HTML puslapiai. Taip pat Mozilla Firefox įskiepio pagrindu sukurtas turinio filtras, klasifikuojantis pagal darbe pasiūlytą klasifikavimo algoritmą. Klasifikatoriui apmokyti pasitelktas PHP programavimo kalba realizuotas tiesinis atraminių vektorių algoritmas (SVM). Pagrindinės realizuoto turinio filtro savybės, išskiriančios jį iš daugumos rinkoje esančių analogiškų įrankių, tai galimybė klasifikuoti dar algoritmui nežinomus interneto puslapius bei priklausomai nuo parametrų blokuoti tik dalį arba visą internetinį dokumentą. / An algorithm, able to solve two class problem, designed to analyse and classify multimedia documents such as HTML pages by using textual content, is suggested in the paper. Moreover, content filter based on Mozilla Firefox extension was developed to classify web pages according to the algorithm. Linear support vector machine (SVM) was developed using PHP programming language in order to train the classifier. The main advantage of the content filter we developed which distinguishes it from other analogical tools existing in the market is its ability to classify web pages unfamiliar to the algorithm and to block a part or entire web document depending on setup. HTML dokumentas Daugialypė terpė Požymių išskyrimas Požymių atranka Dokumentų indeksavimas Internetinio turinio klasifikavimas Turinio filtras
2	Feature extraction via dependence structure optimization / Požymių išskyrimas optimizuojant priklausomumo struktūrą Daniušis, Povilas 01 October 2012 (has links) In many important real world applications the initial representation of the data is inconvenient, or even prohibitive for further analysis. For example, in image analysis, text analysis and computational genetics high-dimensional, massive, structural, incomplete, and noisy data sets are common. Therefore, feature extraction, or revelation of informative features from the raw data is one of fundamental machine learning problems. Efficient feature extraction helps to understand data and the process that generates it, reduce costs for future measurements and data analysis. The representation of the structured data as a compact set of informative numeric features allows applying well studied machine learning techniques instead of developing new ones.. The dissertation focuses on supervised and semi-supervised feature extraction methods, which optimize the dependence structure of features. The dependence is measured using the kernel estimator of Hilbert-Schmidt norm of covariance operator (HSIC measure). Two dependence structures are investigated: in the first case we seek features which maximize the dependence on the dependent variable, and in the second one, we additionally minimize the mutual dependence of features. Linear and kernel formulations of HBFE and HSCA are provided. Using Laplacian regularization framework we construct semi-supervised variants of HBFE and HSCA. Suggested algorithms were investigated experimentally using conventional and multilabel classification data... [to full text] / Daugelis praktiškai reikšmingu sistemu mokymo uždaviniu reikalauja gebeti panaudoti didelio matavimo, strukturizuotus, netiesinius duomenis. Vaizdu, teksto, socialiniu bei verslo ryšiu analize, ivairus bioinformatikos uždaviniai galetu buti tokiu uždaviniu pavyzdžiais. Todel požymiu išskyrimas dažnai yra pirmasis žingsnis, kuriuo pradedama duomenu analize ir nuo kurio priklauso galutinio rezultato sekme. Šio disertacinio darbo tyrimo objektas yra požymiu išskyrimo algoritmai, besiremiantys priklausomumo savoka. Darbe nagrinejamas priklausomumas, nusakytas kovariacinio operatoriaus Hilberto-Šmidto normos (HSIC mato) branduoliniu ivertiniu. Pasiulyti šiuo ivertiniu besiremiantys HBFE ir HSCA algoritmai leidžia dirbti su bet kokios strukturos duomenimis, bei yra formuluojami tikriniu vektoriu terminais (tai leidžia optimizavimui naudoti standartinius paketus), bei taikytini ne tik prižiurimo, bet ir dalinai prižiurimo mokymo imtims. Pastaruoju atveju HBFE ir HSCA modifikacijos remiasi Laplaso reguliarizacija. Eksperimentais su klasifikavimo bei daugiažymio klasifikavimo duomenimis parodyta, jog pasiulyti algoritmai leidžia pagerinti klasifikavimo efektyvuma lyginant su PCA ar LDA. Informatics Feature extraction Dimensionality reduction Dependence maximization Dependence optimization HSIC Požymių išskyrimas Dimensijos mažinimas Priklausomumo maksimizavimas Priklausomumo optimizavimas HSIC
3	Požymių išskyrimas optimizuojant priklausomumo struktūrą / Feature extraction via dependence structure optimization Daniušis, Povilas 01 October 2012 (has links) Daugelis praktiškai reikšmingu sistemu mokymo uždaviniu reikalauja gebeti panaudoti didelio matavimo, strukturizuotus, netiesinius duomenis. Vaizdu, teksto, socialiniu bei verslo ryšiu analize, ivairus bioinformatikos uždaviniai galetu buti tokiu uždaviniu pavyzdžiais. Todel požymiu išskyrimas dažnai yra pirmasis žingsnis, kuriuo pradedama duomenu analize ir nuo kurio priklauso galutinio rezultato sekme. Šio disertacinio darbo tyrimo objektas yra požymiu išskyrimo algoritmai, besiremiantys priklausomumo savoka. Darbe nagrinejamas priklausomumas, nusakytas kovariacinio operatoriaus Hilberto-Šmidto normos (HSIC mato) branduoliniu ivertiniu. Pasiulyti šiuo ivertiniu besiremiantys HBFE ir HSCA algoritmai leidžia dirbti su bet kokios strukturos duomenimis, bei yra formuluojami tikriniu vektoriu terminais (tai leidžia optimizavimui naudoti standartinius paketus), bei taikytini ne tik prižiurimo, bet ir dalinai prižiurimo mokymo imtims. Pastaruoju atveju HBFE ir HSCA modifikacijos remiasi Laplaso reguliarizacija. Eksperimentais su klasifikavimo bei daugiažymio klasifikavimo duomenimis parodyta, jog pasiulyti algoritmai leidžia pagerinti klasifikavimo efektyvuma lyginant su PCA ar LDA. / In many important real world applications the initial representation of the data is inconvenient, or even prohibitive for further analysis. For example, in image analysis, text analysis and computational genetics high-dimensional, massive, structural, incomplete, and noisy data sets are common. Therefore, feature extraction, or revelation of informative features from the raw data is one of fundamental machine learning problems. Efficient feature extraction helps to understand data and the process that generates it, reduce costs for future measurements and data analysis. The representation of the structured data as a compact set of informative numeric features allows applying well studied machine learning techniques instead of developing new ones.. The dissertation focuses on supervised and semi-supervised feature extraction methods, which optimize the dependence structure of features. The dependence is measured using the kernel estimator of Hilbert-Schmidt norm of covariance operator (HSIC measure). Two dependence structures are investigated: in the first case we seek features which maximize the dependence on the dependent variable, and in the second one, we additionally minimize the mutual dependence of features. Linear and kernel formulations of HBFE and HSCA are provided. Using Laplacian regularization framework we construct semi-supervised variants of HBFE and HSCA. Suggested algorithms were investigated experimentally using conventional and multilabel classification data... [to full text] Informatics Požymių išskyrimas Dimensijos mažinimas Priklausomumo maksimizavimas Priklausomumo optimizavimas HSIC Feature extraction Dimensionality reduction Dependence maximization Dependence optimization HSIC

1

Page generated in 0.0594 seconds