Šio magistro darbo tikslas yra ištirti daugdarų dimensijos atpažinimo daugiamačiuose duomenyse metodus. Darbe buvo išnagrinėti 3 lokalūs dimensijos vertinimo metodai, koreliacinis, artimiausių kaimynų ir didžiausio tikėtinumo, ir su įvairių matmenų duomenimis atlikti tyrimai. Atstumai tarp kaimyninių taškų buvo skaičiuojami dviem būdais: Euklido ir geodeziniu. Atlikus tyrimus buvo padarytos tokios išvados: • Maksimalaus tikėtinumo vertinimo metodas tiksliausiai vertina vidinį matmenų skaičių dirbtiniams duomenims, taip pat realiems duomenims, kai tarp kaimynų skaičiuojami geodeziniai atstumai. • Koreliacinis vertinimo metodas dirbtiniams duomenims, ir realiems duomenims, kai tarp kaimynų skaičiuojami geodeziniai atstumai, vidinį matmenų skaičių nustato gerai, kai tarp kaimynų skaičiuojami Euklido atstumai, vidinį matmenų skaičių nustato labai blogai. • Koreliacinis metodas nėra geras, nes yra sunku parinkti tinkamus parametrus – spindulius. • Artimiausių kaimynų vertinimo metodas vidinį matmenų skaičių nustato gerai tik realiems duomenims, kai tarp kaimynų skaičiuojami geodeziniai atstumai, visais kitais nagrinėjamais atvejais – blogai. • Artimiausių kaimynų metodas vidinį matmenų skaičių nustato blogiausiai iš visų trijų nagrinėjamų metodų. / The objective of this master thesis is to explore different techniques of dataset intrinsic dimensionality estimation. The purpose was to examine three local estimators for intrinsic dimensionality: the correlation dimension estimator, the nearest neighbor dimension estimator, and the maximum likelihood estimator. Data with various intrinsic dimensionalities were examined. The distances between neighboring points were calculated using two metrics: Euclidean and Geodesic. The investigation revealed the following conclusions: • The results by maximum likelihood estimation method were closest to the real intrinsic dimensionality of an artificial data, as well as real data, in cases when distances between neighbors were calculated using Geodesic metrics. • The correlation dimension estimator showed good results for artificial and real data when distances between neighbors were estimated using Geodesic metrics. When distances between neighbors were calculated by Euclidean metrics, the intrinsic dimension estimation results were very bad. • Correlation dimension estimator is not a good method because it is difficult to select proper settings – radiuses. • The nearest neighbor estimation method works well only when determining intrinsic dimension of real data when distances between neighbors are estimated using Geodesic metrics. In all other cases it is almost useless. • The nearest neighbor method is the worst method amongst all.
Identifer | oai:union.ndltd.org:LABT_ETD/oai:elaba.lt:LT-eLABa-0001:E.02~2011~D_20110627_115636-54101 |
Date | 27 June 2011 |
Creators | Makovskaja, Katažina |
Contributors | Kazlauskas, Kazys, Stankevičienė, Eglė, Petkus, Tomas, Kligienė, Nerutė, Dzemyda, Gintautas, Lipeikienė, Joana, Karbauskaitė, Rasa, Vilnius Pedagogical University |
Publisher | Lithuanian Academic Libraries Network (LABT), Vilnius Pedagogical University |
Source Sets | Lithuanian ETD submission system |
Language | Lithuanian |
Detected Language | Unknown |
Type | Master thesis |
Format | application/pdf |
Source | http://vddb.laba.lt/obj/LT-eLABa-0001:E.02~2011~D_20110627_115636-54101 |
Rights | Unrestricted |
Page generated in 0.0071 seconds