Anomaly detection is a field of study that is closely associated with machine learning and it is the process of finding irregularities in datasets. Developing and maintaining multiple machine learning models for anomaly detection takes time and can be an expensive task. One proposed solution is to combine all datasets and create a single model. This creates a heterogeneous dataset with a wide variation in its distribution, making it difficult to find anomalies in the dataset. The objective of this thesis is then to identify a framework that is suitable for anomaly detection in heterogeneous datasets. A selection of five methods were implemented in this project - 2 supervised learning approaches and 3 unsupervised learning approaches. These models are trained on 3 synthetic datasets that have been designed to be heterogeneous with an imbalance between the classes as anomalies are rare events. The performance of the models are evaluated with the AUC and the F1-score, aswell as observing the Precision-Recall Curve. The results makes it evident that anomaly detection in heterogeneous datasets is a challenging task. The best performing approach was with a random forest model where the class imbalance problem had been solved by generating synthetic samples of the anomaly class by implementing a generative adversarial network. / Anomalidetektering är ett studieområde som är starkt förknippat med maskininlärning och det kan beskrivas som processen att hitta avvikelser i datamängder. Att utveckla och underhålla flera maskininlärningsmodeller tar tid och kan vara kostsamt. Ett förslag för att lösa dessa problem är att kombinera alla dataset och skapa endast en modell. Detta leder till att datamängden blir heterogen i dess fördelning och gör det mer utmanande att skapa en modell som kan detektera anomalier. Syftet i denna tes är att identifiera ett ramverk som är lämpligt för anomalidetektering i heterogena datamängder. Ett urval av fem metoder tillämpades i detta projekt - 2 metoder inom övervakad inlärning och 3 metoder inom oövervakad inlärning. Dessa modeller är tränade på syntetiska datamängder som är framtagna så att de är heterogena i dess fördelning och har en urbalans mellan klasserna då anomalier är sällsynta händelser. Modellernas prestanda evalueras genom att beräkna dess AUC och F1-värde, samt observera Precision-Recall kurvan. Resultaten gör det tydligt att anomalidetektering i heterogena datamängder är ett utmanande uppdrag. Den model som presterade bäst var en random forest model där urbalansen mellan klasserna var omhändertagen genom att generera syntetiska observation av anomaliklassen med hjälp av en generativ advarserial network.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-335848 |
Date | January 2021 |
Creators | Piroti, Shirwan |
Publisher | KTH, Optimeringslära och systemteori |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2021:401 |
Page generated in 0.0031 seconds