Spelling suggestions: "subject:"dimensionalität"" "subject:"dimensionalities""
1 |
Efficient learning on high-dimensional operational dataZhang, Hongyi January 2019 (has links)
In a networked system, operational data collected by sensors or extracted from system logs can be used for target performance prediction, anomaly detection, etc. However, the number of metrics collected from a networked system is very large and usually can reach about 106 for a medium-sized system. This project aims to analyze and compare different unsupervised machine learning methods such as Unsupervised Feature Selection, Principle Component Analysis, Autoencoder, which can lead to efficient learning from high-dimensional data. The objective is to reduce the dimensionality of the input space while maintaining the prediction performance when compared with the learning on the full feature space. The data used in this project is collected from a KTH testbed which runs a Video-on-Demand service and a Key-Value store under different types of traffic load. The findings confirm the manifold hypothesis, which states that real-world high-dimensional data lie on lowdimensional manifolds embedded within the high-dimensional space. In addition, this project investigates data visualization of infrastructure measurements through two-dimensional plots. The results show that we can achieve data separation by using different mapping methods. / I ett nätverkssystem kan driftsdata som samlats in av sensorer eller extraherats från systemloggar användas för att förutsäga målprestanda, anomalidetektering etc. Antalet mätvärden som samlats in från ett nätverkssystem är dock mycket stort och kan vanligtvis uppgå till cirka 106 för ett medelstort system. Projektet syftar till att analysera och jämföra olika oövervakade metoder för maskininlärning, till exempel Oövervakad funktionsval, analys av huvudkomponent, autokodare, vilket kan leda till effektivt lärande av högdimensionell data. Målet är att minska ingångsutrymmet och samtidigt bibehålla prediktionsprestanda jämfört med inlärningen på hela funktionen. Uppgifterna som används i detta projekt samlas in från en KTH-testbädd som driver en Video-on-Demand-tjänst och en Key-Value-butik under olika typer av trafikbelastning. Resultaten bekräftar mångfaldshypotesen, som säger att verkliga högdimensionella data ligger på lågdimensionella grenrören inbäddade i det högdimensionella rymden. Dessutom undersöker detta projekt datavisualisering av infrastrukturmätningar genom tvådimensionella tomter. Resultaten visar att vi kan uppnå dataseparering genom att använda olika kartläggningsmetoder.
|
Page generated in 0.0998 seconds