Global ETD Search

Return to search

Shlukovací metody pro velké soubory dat / Clustering methods for large datasets

S rostoucím množstvím shromažďovaných a ukládaných dat vzniká potřeba shlukovacích metod, které by se dokázaly vypořádat i s rozsáhlými datovými soubory. Proto se objevuje množství nových algoritmů, vycházejících jak ze statistických přístupů, tak i z oblasti strojového učení. Cílem této diplomové práce je stručně představit dostupné metody shlukové analýzy a zhodnotit jejich silné a slabé stránky při analýze velkých souborů. Obsahem teoretické části je shrnutí základních pojmů a principů, které jsou všem metodám společné, a popisu nejznámějších metod shlukové analýzy. Ten obsahuje stručné vysvětlení, na jakém principu fungují a jaké výhody nebo případné nedostatky můžeme při jejich použití očekávat. Praktická část práce je věnována vlastnímu testování osmi metod dostupných v komerčním (SPSS, S-PLUS, STATISTICA) nebo akademickém (Weka) softwaru. Pro testování jsou použity umělé soubory se specifickými charakteristikami, které jsem vygeneroval pomocí vlastního algoritmu. Ten je rozšířením Neyman-Scottova procesu a kromě sférických shluků generuje i shluky nepravidelných tvarů. Výsledky potvrzují očekávání vycházející z teoretických předpokladů. Přinášejí však možnost kvantifikace vlivu charakteru dat na vhodnost jednotlivých metod.

http://www.nusl.cz/ntk/nusl-4408

Identifer	oai:union.ndltd.org:nusl.cz/oai:invenio.nusl.cz:4408
Date	January 2007
Creators	Vilikus, Ondřej
Contributors	Fialová, Hana, Húsek, Dušan
Publisher	Vysoká škola ekonomická v Praze
Source Sets	Czech ETDs
Language	Czech
Detected Language	Unknown
Type	info:eu-repo/semantics/masterThesis
Rights	info:eu-repo/semantics/restrictedAccess

Page generated in 0.0021 seconds

Shlukovací metody pro velké soubory dat / Clustering methods for large datasets

Description

Links & Downloads

Tags

Additional Fields