Cyber attacks are ubiquitous and increasingly prevalent in industry, society, and governmental departments. They affect the economy, politics, and individuals. Ever-increasingly skilled, organized, and funded threat actors combined with ever-increasing volumes and modalities of data require increasingly sophisticated and innovative cyber defense solutions. Current state-of-the-art security systems conduct threat detection on dynamic graph representations of computer systems and enterprise communication networks known as provenance graphs. Most of these security systems are statistics-based, based on rules defined by domain experts, or discard temporal information, and as such come with a set of drawbacks (e.g., incapability to pinpoint the attack, incapability to adapt to evolving systems, reduced expressibility due to lack of temporal information). At the same time, there is little research in the machine learning community on graphs such as provenance graphs, which are a form of largescale, heterogeneous, and continuous-time dynamic graphs, as most research on graph learning has been devoted to static homogeneous graphs to date. Therefore, this thesis aims to bridge these two fields and investigate the potential of learning-based methods operating on continuous-time dynamic provenance graphs for cyber threat detection. Without loss of generality, this work adopts the general Temporal Graph Networks framework for learning representations and detecting anomalies in such graphs. This method explicitly addresses the drawbacks of current security systems by considering the temporal setting and bringing the adaptability of learning-based methods. In doing so, it also introduces and releases two large-scale, continuoustime temporal, heterogeneous benchmark graph datasets with expert-labeled anomalies to foster future research on representation learning and anomaly detection on complex real-world networks. To the best of the author’s knowledge, these are one of the first datasets of their kind. Extensive experimental analyses of modules, datasets, and baselines validate the potency of continuous-time graph neural network-based learning, endorsing its practical applicability to the detection of cyber threats and possibly other semantically meaningful anomalies in similar real-world systems. / Cyberattacker är allestädes närvarande och blir allt vanligare inom industrin, samhället och statliga myndigheter. De påverkar ekonomin, politiken och enskilda individer. Allt skickligare, organiserade och finansierade hotaktörer i kombination med ständigt ökande volymer och modaliteter av data kräver alltmer sofistikerade och innovativa cyberförsvarslösningar. Dagens avancerade säkerhetssystem upptäcker hot på dynamiska grafrepresentationer (proveniensgrafer) av datorsystem och företagskommunikationsnät. De flesta av dessa säkerhetssystem är statistikbaserade, baseras på regler som definieras av domänexperter eller bortser från temporär information, och som sådana kommer de med en rad nackdelar (t.ex. oförmåga att lokalisera attacken, oförmåga att anpassa sig till system som utvecklas, begränsad uttrycksmöjlighet på grund av brist på temporär information). Samtidigt finns det lite forskning inom maskininlärning om grafer som proveniensgrafer, som är en form av storskaliga, heterogena och dynamiska grafer med kontinuerlig tid, eftersom den mesta forskningen om grafinlärning hittills har ägnats åt statiska homogena grafer. Därför syftar denna avhandling till att överbrygga dessa två områden och undersöka potentialen hos inlärningsbaserade metoder som arbetar med dynamiska proveniensgrafer med kontinuerlig tid för detektering av cyberhot. Utan att för den skull göra avkall på generaliserbarheten använder detta arbete det allmänna Temporal Graph Networks-ramverket för inlärning av representationer och upptäckt av anomalier i sådana grafer. Denna metod tar uttryckligen itu med nackdelarna med nuvarande säkerhetssystem genom att beakta den temporala induktiva inställningen och ge anpassningsförmågan hos inlärningsbaserade metoder. I samband med detta introduceras och släpps också två storskaliga, kontinuerliga temporala, heterogena referensgrafdatauppsättningar med expertmärkta anomalier för att främja framtida forskning om representationsinlärning och anomalidetektering i komplexa nätverk i den verkliga världen. Såvitt författaren vet är detta en av de första datamängderna i sitt slag. Omfattande experimentella analyser av moduler, dataset och baslinjer validerar styrkan i induktiv inlärning baserad på kontinuerliga grafneurala nätverk, vilket stöder dess praktiska tillämpbarhet för att upptäcka cyberhot och eventuellt andra semantiskt meningsfulla avvikelser i liknande verkliga system.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-340294 |
Date | January 2023 |
Creators | Reha, Jakub |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:743 |
Page generated in 0.003 seconds