Return to search

Online Learning with Sample Selection

In data-driven network and systems engineering, we often train models offline using measurement data collected from networks. Offline learning achieves good results but has drawbacks. For example, model training incurs a high computational cost and the training process takes a long time. In this project, we follow an online approach for model training. The approach involves a cache of fixed size to store measurement samples and recomputation of ML models based on the current cache. Key to this approach are sample selection algorithms that decide which samples are stored in the cache and which are evicted. We implement three sample selection methods in this project: reservoir sampling, maximum entropy sampling and maximum coverage sampling. In the context of sample selection methods, we evaluate model recomputation methods to control when to retrain the model using the samples in the current cache and use the retrained model to predict the following samples before the next recomputation moment. We compare three recomputation strategies: no recomputation, periodic recomputation and recomputation using the ADWIN algorithm. We evaluate the three sample selection methods on five datasets. One of them is the FedCSIS 2020 Challenge dataset and the other four are KTH testbed datasets. We find that maximum entropy sampling can achieve quite good performance compared to other sample selection methods and that recomputation using the ADWIN algorithm can help reduce the number of recomputations and does not affect the prediction performance. / Vid utveckling och underhåll av datornätverk och system så används ofta maskininlärningsmodeller (ML) som beräknats offline med datavärden som insamlats från nätverket. Att beräkna ML-modeller offline ger bra resultat men har nackdelar. Beräkning av ML-modeller är tidskrävande och medför en hög beräkningskostnad. I detta projekt undersöker vi en metod för att beräkna ML-modeller online. Metoden använder en cache av fixerad storlek för att lagra mätningsvärden och omberäknar ML-modeller baserat på innehållet i cachen. Nyckeln till denna metod är användandet av urvalsalgoritmer som avgör vilka mätningsvärden som ska lagras i cachen och vilka som ska tas bort. Vi tillämpar tre urvalsmetoder: urval baserat på en behållare av fixerad storlek, urval baserat på maximal entropi, samt urval baserat på maximal täckning. Vid användning av urvalsmetoder så utvärderar vi metoder för att avgöra när en ML-modell ska omberäknas baserat på urvalet i cachen. Den omberäknade ML-modellen används sedan för att göra prediktioner tills dess att modellen omberäknas igen. Vi utvärderar tre strategier för att avgöra när en modell ska omberäknas: ingen omberäkning, periodisk omberäkning, samt omberäkning baserat på ADWIN-algoritmen. Vi utvärderar tre urvalsmetoder på fem olika datauppsättningar. En av datauppsättningarna är baserat på FedCSIS 2020 Challenge och de andra fyra datauppsättningarna har insamlats från en testbädd på KTH. Vi _nner att urval baserat på maximal entropi uppnår bra prestanda jämfört med de andra urvalsmetoderna samt att en omberäkningstrategi baserat på ADWIN-algoritmen kan minska antalet omberäkningar och försämrar inte prediktionsprestandan.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-308599
Date January 2021
CreatorsGao, Cong
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2021:889

Page generated in 0.0021 seconds