Spelling suggestions: "subject:"datadriven engineering"" "subject:"datadrivet engineering""
1 |
Building Models for Prediction and Forecasting of Service QualityHellberg, Johan, Johansson, Kasper January 2020 (has links)
In networked systems engineering, operational datagathered from sensors or logs can be used to build data-drivenfunctions for performance prediction, anomaly detection, andother operational tasks [1]. Future telecom services will share acommon communication and processing infrastructure in orderto achieve cost-efficient and robust operation. A critical issuewill be to ensure service quality, whereby different serviceshave very different requirements. Thanks to recent advances incomputing and networking technologies we are able to collect andprocess measurements from networking and computing devices,in order to predict and forecast certain service qualities, such asvideo streaming or data stores. In this paper we examine thesetechniques, which are based on statistical learning methods. Inparticular we will analyze traces from testbed measurements andbuild predictive models. A detailed description of the testbed,which is localized at KTH, is given in Section II, as well as in[2]. / Inom nätverk och systemteknik samlas operativ data från sensorer eller loggar som sedan kan användas för att bygga datadrivna funktioner för förutsägelser om prestanda och andra operationella uppgifter [1]. Framtidens teletjänster kommer att dela en gemensam kommunikation och bearbetnings infrastruktur i syfte att uppnå kostnadseffektiva och robusta nätverk. Ett kritiskt problem med detta är att kunna garantera en hög servicekvalitet. Detta problem uppstår till stor del som ett resultat av att olika tjänster har olika krav. Tack vare nyliga avanceringar inom beräkning och nätverksteknologi har vi kunnat samla in användningsmätningar från nätverk och olika datorenheter för att kunna förutspå servicekvalitet för exempelvis videostreaming och lagring av data. I detta arbete undersöker vi data med hjälp av statistiska inlärningsmetoder och bygger prediktiva modeller. En mer detaljerat beskrivning av vår testbed, som är lokaliserad på KTH, finns i [2]. / Kandidatexjobb i elektroteknik 2020, KTH, Stockholm
|
2 |
Efficient learning on high-dimensional operational dataZhang, Hongyi January 2019 (has links)
In a networked system, operational data collected by sensors or extracted from system logs can be used for target performance prediction, anomaly detection, etc. However, the number of metrics collected from a networked system is very large and usually can reach about 106 for a medium-sized system. This project aims to analyze and compare different unsupervised machine learning methods such as Unsupervised Feature Selection, Principle Component Analysis, Autoencoder, which can lead to efficient learning from high-dimensional data. The objective is to reduce the dimensionality of the input space while maintaining the prediction performance when compared with the learning on the full feature space. The data used in this project is collected from a KTH testbed which runs a Video-on-Demand service and a Key-Value store under different types of traffic load. The findings confirm the manifold hypothesis, which states that real-world high-dimensional data lie on lowdimensional manifolds embedded within the high-dimensional space. In addition, this project investigates data visualization of infrastructure measurements through two-dimensional plots. The results show that we can achieve data separation by using different mapping methods. / I ett nätverkssystem kan driftsdata som samlats in av sensorer eller extraherats från systemloggar användas för att förutsäga målprestanda, anomalidetektering etc. Antalet mätvärden som samlats in från ett nätverkssystem är dock mycket stort och kan vanligtvis uppgå till cirka 106 för ett medelstort system. Projektet syftar till att analysera och jämföra olika oövervakade metoder för maskininlärning, till exempel Oövervakad funktionsval, analys av huvudkomponent, autokodare, vilket kan leda till effektivt lärande av högdimensionell data. Målet är att minska ingångsutrymmet och samtidigt bibehålla prediktionsprestanda jämfört med inlärningen på hela funktionen. Uppgifterna som används i detta projekt samlas in från en KTH-testbädd som driver en Video-on-Demand-tjänst och en Key-Value-butik under olika typer av trafikbelastning. Resultaten bekräftar mångfaldshypotesen, som säger att verkliga högdimensionella data ligger på lågdimensionella grenrören inbäddade i det högdimensionella rymden. Dessutom undersöker detta projekt datavisualisering av infrastrukturmätningar genom tvådimensionella tomter. Resultaten visar att vi kan uppnå dataseparering genom att använda olika kartläggningsmetoder.
|
3 |
Online Learning with Sample SelectionGao, Cong January 2021 (has links)
In data-driven network and systems engineering, we often train models offline using measurement data collected from networks. Offline learning achieves good results but has drawbacks. For example, model training incurs a high computational cost and the training process takes a long time. In this project, we follow an online approach for model training. The approach involves a cache of fixed size to store measurement samples and recomputation of ML models based on the current cache. Key to this approach are sample selection algorithms that decide which samples are stored in the cache and which are evicted. We implement three sample selection methods in this project: reservoir sampling, maximum entropy sampling and maximum coverage sampling. In the context of sample selection methods, we evaluate model recomputation methods to control when to retrain the model using the samples in the current cache and use the retrained model to predict the following samples before the next recomputation moment. We compare three recomputation strategies: no recomputation, periodic recomputation and recomputation using the ADWIN algorithm. We evaluate the three sample selection methods on five datasets. One of them is the FedCSIS 2020 Challenge dataset and the other four are KTH testbed datasets. We find that maximum entropy sampling can achieve quite good performance compared to other sample selection methods and that recomputation using the ADWIN algorithm can help reduce the number of recomputations and does not affect the prediction performance. / Vid utveckling och underhåll av datornätverk och system så används ofta maskininlärningsmodeller (ML) som beräknats offline med datavärden som insamlats från nätverket. Att beräkna ML-modeller offline ger bra resultat men har nackdelar. Beräkning av ML-modeller är tidskrävande och medför en hög beräkningskostnad. I detta projekt undersöker vi en metod för att beräkna ML-modeller online. Metoden använder en cache av fixerad storlek för att lagra mätningsvärden och omberäknar ML-modeller baserat på innehållet i cachen. Nyckeln till denna metod är användandet av urvalsalgoritmer som avgör vilka mätningsvärden som ska lagras i cachen och vilka som ska tas bort. Vi tillämpar tre urvalsmetoder: urval baserat på en behållare av fixerad storlek, urval baserat på maximal entropi, samt urval baserat på maximal täckning. Vid användning av urvalsmetoder så utvärderar vi metoder för att avgöra när en ML-modell ska omberäknas baserat på urvalet i cachen. Den omberäknade ML-modellen används sedan för att göra prediktioner tills dess att modellen omberäknas igen. Vi utvärderar tre strategier för att avgöra när en modell ska omberäknas: ingen omberäkning, periodisk omberäkning, samt omberäkning baserat på ADWIN-algoritmen. Vi utvärderar tre urvalsmetoder på fem olika datauppsättningar. En av datauppsättningarna är baserat på FedCSIS 2020 Challenge och de andra fyra datauppsättningarna har insamlats från en testbädd på KTH. Vi _nner att urval baserat på maximal entropi uppnår bra prestanda jämfört med de andra urvalsmetoderna samt att en omberäkningstrategi baserat på ADWIN-algoritmen kan minska antalet omberäkningar och försämrar inte prediktionsprestandan.
|
Page generated in 0.098 seconds