Spelling suggestions: "subject:"klasifikavimas"" "subject:"charakterizavimas""
1 |
Individualiai klasifikuotų dokumentų klasterizavimo metodas / Clustering Method for Personally Classified DocumentsŽalinauskas, Marius 22 May 2006 (has links)
Traditional clustering methods, where documents are represented by term frequency vectors, are not very suitable for Lithuanian document clustering as there is no any freely available morphological analyzer or stemmer to make compact term dictionaries. It is still possible though to cluster Lithuanian documents using loose term dictionaries, but as Lithuanian is a highly synthetic language significant increase in resources and possibly inaccurate or distorted results must be taken into account. In this master thesis a clustering method for personally classified documents is developed to overcome shortcomings of traditional document clustering stated above. In a new method documents are represented by tag frequency vectors, pair-wise similarities are measured by cosine coefficient and clustering itself is performed using experimentally selected bisecting K‑means algorithm. Experiments comparing developed method with traditional document clustering using loose term dictionary showed that former copes better with large document collections and/or large cluster number. At the same time subjective clustering estimation showed that even when new method demonstrates larger entropy and lower purity values, it still overcomes traditional method by clustering sense.
|
2 |
LRS Seimo narių grupavimas pagal balsavimą ir balsavimo kitimo aptikimas / Lithuanian Parliament members grouping by their voting behavior and it’s change detectionBytautas, Kęstutis 20 June 2012 (has links)
Politikai įvairiai deklaruoja savo elgesį, todėl vienintelis būdas juos kontroliuoti –
stebėjimas. Šiame darbe yra analizuojamas LRS darbas, susijęs su balsavimais. Stengiamasi atsakyti
į klausimą: ar informacinių technologijų įrankiai gali leisti nustatyti ar Seimo narių priklausomybė
partijai (frakcijai) ar pozicijai (opozicijai) lemia jų balsavimą? Pagrindiniai darbo tikslai – Seimo
narių grupavimas ir balsavimo kitimo aptikimas. Apžvelgiama 2008-2012 metų Seimo kadencijos
veikla, atlikta balsavimų statistinė analizė, taip pat apžvelgti kiti tyrimai, susiję su parlamentinėmis
veiklomis. Seimo narių grupavimui taikome klasterizavimo metodus. Klasterizavimas gali būti
apibrėžiamas kaip objektų suskirstymas į grupes (klasterius), kuriose objektų skirtumai yra kuo
mažesni, o tarp grupių skirtumai - kuo didesni. Darbe apžvelgiami įvairūs klasterizavimo metodai,
jų veikimo principai, aprašomi atstumų tarp objektų skaičiavimo metodai, kokybės įvertinimo
kriterijai. Balsavimų duomenys saugomi MySQL duomenų bazėje, todėl sukurtas įrankis duomenų
apdorojimui. Aprašomi visi darbo etapai: naudoti įrankiai, balsavimo kodavimas, balsavimų
skaidymas į periodus.
Tyrimams atlikti pasirinkti k-Means, hierarchiniai tolimiausio kaimyno, vidutinių atstumų,
artimiausio kaimyno klasterizavimo metodai. Objektų panašumams įvertinti naudojami Euklido
(ang. Euclidean) ir Manheteno (angl. Manhattan) atstumų skaičiavimo metodai. Klasterizavimo
kokybės įvertinimui naudojame PURITY, RAND, NMI metodus... [toliau žr. visą tekstą] / Politicians declare their behavior in different ways, so the only way to control it -
monitoring. In this thesis tools for Lithuanian Parliament Members voting behavior are analyzed.
The question is following: can Information technologies tool help to determine how membership in
a faction or the position (opposition) is related with voting behavior? The main objectives of this
work are Lithuanian Parliament members grouping by their voting behavior and its' change
detection.
In the thesis the 2008-2012 of the Parliament activities are analysed using statistical voting
analysis. We use clustering for grouping members of the Parliament. A loose definition of
clustering could be the process of organizing objects into groups whose members are similar in
some way.
A cluster (group) is a collection of objects which are similar between them and are dissimilar
to the objects belonging to other clusters. We overviewed different clustering methods and their
principles of operation, described the distance between the objects of calculation methods, quality
evaluation criteria in this work. Voting data is stored in MySQL database, hence a tool was created
for data processing. We describe all the stages of the work: the use of tools, coding of the votes,
division of the votes into the periods. The following techniques were chosen: K-Means,
Hierarchical Clustering with Complete (furthest neighbor), Average, Single (nearest neighbor)
linkage. We use Euclidean and Manhattan methods for... [to full text]
|
3 |
Interneto aukcionų valdymo agentas / Internet auction agentBalčius, Evaldas 23 June 2014 (has links)
Šiuo metu internetiniai aukcionai valdo didelius informacijos srautus, tačiau visa turima informacija yra panaudojama nevisiškai efektyviai arba nepakanka laiko priimti reikiamus sprendimus realiu laiku, taikant turimas technologijas. Problema atsiranda todėl, kad turima informacija nėra tinkamai analizuojama aukciono pirkėjo agento, tai yra visiškai neįvertinama skirtingų vartotojų aplinka ir jų specifinė elgsena, kuri formuoja visiškai kitokius poreikius Interneto aukciono vartotojo aplinkai. Darbe yra pateikiamas aukciono pirkėjo agento modelis formuojantis aukciono dalyvio grafinę sąsaja pagal jo elgsenos modelį. Modelis suformuotas, pritaikant neuroninių tinklų (Kohoneno žemėlapius) ir agentinių sistemų technologijas. / Nowadays internet auctions manage massive data flow, however, all available data is not being used efficiently or there is not enough time to make needed decisions applying available technology. The problems occur because available data is not analysed properly, that is graphic users’ interface and their specific behaviour, which form different user‘s needs for internet auction interface, are not asessed. In order to improve internet auction efficiency and to optimizme its operation, the auction buyer agent is applied in a way that GUI satisfy user‘s (auction participant‘s) demands. This technique considers user‘s demands accourding to specific criteria such as user‘s nationality , his/her loyality to particular auction system, the statistics of successful auctions using the clustering method, which present GUI in a user friendly way. This technique would increase both auction buyer agent and auction seller agent‘s efficiency.
|
4 |
Daugiamačių Gauso skirstinių mišinio statistinė analizė, taikant duomenų projektavimą / The Projection-based Statistical Analysis of the Multivariate Gaussian Distribution MixtureKavaliauskas, Mindaugas 21 January 2005 (has links)
Problem of the dissertation. The Gaussian random values are very common in practice, because if a random value depends on many additive factors, according to the Central Limit Theorem (if particular conditions are satisfied), the sum is approximately from Gaussian distribution. If the observed random value belongs to one of the several classes, it is from the Gaussian distribution mixture model. The mixtures of the Gaussian distributions are common in various fields: biology, medicine, astronomy, military science and many others. The most important statistical problems are problems of mixture identification and data clustering. In case of high data dimension, these tasks are not completely solved. The new parameter estimation of the multivariate Gaussian distribution mixture model and data clustering methods are proposed and analysed in the dissertation. Since it is much easier to solve these problems in univariate case, the projection-based approach is used. The aim of the dissertation. The aim of this work is the development of constructive algorithms for distribution analysis and clustering of data from the mixture model of the Gaussian distributions.
|
5 |
Daugiamačiu Gauso skirstinių mišinio statistinė analizė, taikant duomenų projektavimą / The Projection-based Statistical Analysis of the Multivariate Gaussian Distribution MixtureKavaliauskas, Mindaugas 21 January 2005 (has links)
Problem of the dissertation. The Gaussian random values are very common in practice, because if a random value depends on many additive factors, according to the Central Limit Theorem (if particular conditions are satisfied), the sum is approximately from Gaussian distribution. If the observed random value belongs to one of the several classes, it is from the Gaussian distribution mixture model. The mixtures of the Gaussian distributions are common in various fields: biology, medicine, astronomy, military science and many others. The most important statistical problems are problems of mixture identification and data clustering. In case of high data dimension, these tasks are not completely solved. The new parameter estimation of the multivariate Gaussian distribution mixture model and data clustering methods are proposed and analysed in the dissertation. Since it is much easier to solve these problems in univariate case, the projection-based approach is used. The aim of the dissertation. The aim of this work is the development of constructive algorithms for distribution analysis and clustering of data from the mixture model of the Gaussian distributions.
|
6 |
Daugiamačio pasiskirstymo tankio neparametrinis įvertinimas naudojant stebėjimų klasterizavimą / The nonparametric estimation of multivariate distribution density applying clustering proceduresRuzgas, Tomas 14 March 2007 (has links)
The paper is devoted to statistical nonparametric estimation of multivariate distribution density. The influence of data pre-clustering on the estimation accuracy of multimodal density is analysed by means of the Monte-Carlo method.
|
7 |
Daugiamačio pasiskirstymo tankio neparametrinis įvertinimas naudojant stebėjimų klasterizavimą / The nonparametric estimation of multivariate distribution density applying clustering proceduresRuzgas, Tomas 15 March 2007 (has links)
The paper is devoted to statistical nonparametric estimation of multivariate distribution density. The influence of data pre-clustering on the estimation accuracy of multimodal density is analysed by means of the Monte-Carlo method.
|
8 |
Klasterinės ir diskriminantinės analizės taikymai mokinių pasiekimų tyrimui / The application of Cluster and Discriminant analysis in students achievements researchLazdauskaitė, Sandra 16 August 2007 (has links)
Nacionalinių mokinių pasiekimų tyrimo metodologija yra nuolat plėtojama. Pasitarus su Švietimo plėtotės centro tyrimo skyriaus darbuotojais, buvo nuspręsta įsigilinti į klasterinės ir diskriminantinės analizės metodus, jų pritaikomumą nacionalinių tyrimų rezultatų analizei. Tai įtakojo šio darbo pasirinkimą ir tikslą - susipažinti su Klasterinės ir Diskriminantinės analizės metodais, pateikti ir aptarti jų taikymo pavyzdžius. Darbe išnagrinėti du daugiamačiai statistiniai metodai: klasterinė ir diskriminantinė analizė. Yra aptarti šių metodų teoriniai aspektai bei pateikti originalūs šių metodų pritaikymo mokinių pasiekimų tyrimams pavyzdžiai. Padarytos išvados apie šių metodų pritaikomumą nacionalinių mokinių pasiekimų tyrimo analizei atlikti. / National research of student marches are continually evolving. With Educational evolve center’s help I decided to analyse Cluster and Disckriminant analysis methods and how they can be used in National research analysis. This was a reason of my work purpose - to have a look at Cluster and Disckriminant analysis methods, to offer examples of practical use. There are two statistical multidimensional methods discussed in this work (Cluster and Disckriminant analysis). There are discussed theoretical side of these methods, also you can find original examples of practical use. In conclusion I discuss about practical use of these methods in national research of student marches.
|
9 |
Vaizdų klasterizavimas / Image clusteringMartišiūtė, Dalia 08 September 2009 (has links)
Objektų klasterizavimas – tai viena iš duomenų gavybos (angl. data mining) sričių. Šių algoritmų pagrindinis privalumas – gebėjimas atpažinti grupavimo struktūrą be jokios išankstinės informacijos. Magistriniame darbe yra pristatomas vaizdų klasterizavimo algoritmas, naudojantis savaime susitvarkančius neuroninius tinklus (angl. Self-Organizing Map). Darbe analizuojami vaizdų apdorojimo, ypatingųjų taškų radimo bei palyginimo metodai. Nustatyta, kad SIFT (angl. Scale Invariant Feature Transform) ypatingųjų taškų radimas bei aprašymas veikia patikimiausiai, todėl būtent SIFT taškiniai požymiai yra naudojami klasterizavime. Darbe taip pat analizuojamas atstumo tarp paveikslėlių radimo algoritmas, tiriami skirtingi jo parametrai. Algoritmų palyginimui yra naudojamos ROC (angl. Receiver Operating Characteristic) kreivės ir EER (angl. Equal Error Rate) rodiklis. Vaizdų klasterizavimui yra naudojamas ESOM (Emergent Self-Organizing Map) neuroninis tinklas, jis vizualizuojamas U-Matrix (angl. Unified distance Matrix) pagalba ir tinklo neuronai skirstomi į klasterius vandenskyros algoritmu su skirtingu aukščio parinkimu. Magistriniame darbe demonstruojami klasterizavimo rezultatai su pavyzdinėmis paveikslėlių duomenų bazėmis bei realiais gyvenimiškais vaizdais. / Clustering algorithms – a field of data mining – aims at finding a grouping structure in the input data without any a-priori information. The master thesis is dedicated for image processing and clustering algorithms. There are point-feature detection, description and comparison methods analyzed in this paper. The SIFT (Scale Invariant Feature Transform) by D. Lowe has been shown to behave better than the other ones; hence it has been used for image to image distance calculation and undirectly in clustering phase. Finding distances between images is not a trivial task and it also has been analysed in this thesis. Several methods have been compared using ROC (Receiver Operating Curve) and EER measurements. Image clustering process is described as: (1) training of ESOM (Emergent Self-Organizing Map), (2) its visualization in U-Matrix, (3) neuron clustering using waterflood algorithm, and (4) image grouping according to their best-matching unit neurons. The paper demonstrates the image clustering algorithm on public object image databases and real life images from the Internet as well.
|
10 |
Netiesinių statistikų taikymas atsitiktinių vektorių pasiskirstymo tankių vertinime / Application of nonlinear statistics for distribution density estimation of random vectorsŠmidtaitė, Rasa 11 August 2008 (has links)
Statistikoje ir jos taikyme vienas dažniausiai sprendžiamų uždavinių yra daugiamačių tankių vertinimas.Tankių vertinimas skirstomas į parametrinį ir neparametrinį vertinimą. Parametriniame vertinime daroma prielaida, kad tankio funkcija f, apibūdinanti duomenis yi, kai i kinta nuo 1 iki n, priklauso tam tikrai gan siaurai funkcijų šeimai f(•;θ), kuri priklauso nuo nedidelio kiekio parametrų θ=(θ1, θ2, …, θk). Tankis, apskaičiuojamas pagal parametrinį vertinimą, gaunamas iš pradžių apskaičiavus parametro θ įvertį θ0 ir f0=f(•;θ). Toks traktavimas statistiniu požiūriu yra labai efektyvus, tačiau jeigu nei vienas šeimos f(•;θ) narys nėra artimas funkcijai f, rezultatai gali būti gauti labai netikslūs.
Neparametriniam tankio vertinimui jokios parametrinės prielaidos apie f nėra reikalingos, tačiau vietoj to daromos kitos prielaidos, pavyzdžiui, apie funkcijos f tolydumą arba, kad f yra integruojama. Tankio funkcijos forma yra nustatoma iš turimų duomenų.Turint dideles imtis, tankis f gali būti apskaičiuotas pakankamai tiksliai.
Šiuolaikinėje duomenų analizėje naudojama daugybė neparametrinių metodų, skirtų daugiamačių atsitiktinių dydžių pasiskirstymo tankio statistiniam vertinimui. Ypač plačiai paplitę branduoliniai įvertiniai, populiarūs ir splaininiai bei pusiau parametriniai algoritmai. Taikant daugumą populiarių neparametrinio įvertinimo procedūrų praktikoje susiduriama su jų parametrų optimalaus parinkimo problema. Branduolinių įvertinių konstrukcijos svarbiausiu... [toliau žr. visą tekstą] / Most algorithms work properly if the probability densities of the multivariate vectors are known. Unfortunately, in reality these densities are usually not available, and parametric or non-parametric estimation of the densities becomes critically needed.
In parametric estimation one assumes that the density f underlying the data yi where i varies from 1 to n, belongs to some rather restricted family of functions f(•;θ) indexed by a small number of parameters θ=(θ1, θ2, …, θk). An example is the family of multivariate normal densities which is parameterized by the mean vector and the covariance matrix. A density estimate in the parametric approach is obtained by computing from the data an estimate θ0 of θ and setting f0=f(•;θ). Such an approach is statistically and computationally very efficient but can lead poor results if none of the family members f(•;θ) is close to f.
In nonparametric density estimation no parametric assumptions about f are made and one assumes instead that f, for example, has some smoothness properties (e.g. two continuous derivatives) or that it is square integrable. The shape of the density estimate is determined by the data and, in principle, given enough data, arbitrary densities f can be estimated accurately. Most popular methods are the kernel estimator based on local smoothing of the data. Quite popular are histospline, semiparametric and projection pursuit algorithms. While constructing various probability density estimation methods the most... [to full text]
|
Page generated in 0.0923 seconds