1 |
Clustering Based Outlier Detection for Improved Situation Awareness within Air Traffic Control / Förbättrad översiktsbild inom flygtrafikledning med hjälp av klusterbaserad anomalidetekteringGustavsson, Hanna January 2019 (has links)
The aim of this thesis is to examine clustering based outlier detection algorithms on their ability to detect abnormal events in flight traffic. A nominal model is trained on a data-set containing only flights which are labeled as normal. A detection scoring function based on the nominal model is used to decide if a new and in forehand unseen data-point behaves like the nominal model or not. Due to the unknown structure of the data-set three different clustering algorithms are examined for training the nominal model, K-means, Gaussian Mixture Model and Spectral Clustering. Depending on the nominal model different methods to obtain a detection scoring is used, such as metric distance, probability and OneClass Support Vector Machine. This thesis concludes that a clustering based outlier detection algorithm is feasible for detecting abnormal events in flight traffic. The best performance was obtained by using Spectral Clustering combined with a Oneclass Support Vector Machine. The accuracy on the test data-set was 95.8%. The algorithm managed to correctly classify 89.4% of the datapoints labeled as abnormal and correctly classified 96.2% of the datapoints labeled as normal. / Syftet med detta arbete är att undersöka huruvida klusterbaserad anomalidetektering kan upptäcka onormala händelser inom flygtrafik. En normalmodell är anpassad till data som endast innehåller flygturer som är märkta som normala. Givet denna normalmodell så anpassas en anomalidetekteringsfunktion så att data-punkter som är lika normalmodellen klassificeras som normala och data-punkter som är avvikande som anomalier. På grund av att strukturen av nomraldatan är okänd så är tre olika klustermetoder testade, K-means, Gaussian Mixture Model och Spektralklustering. Beroende på hur normalmodellen är modellerad så har olika metoder för anpassa en detekteringsfunktion används, så som baserat på avstånd, sannolikhet och slutligen genom One-class Support Vector Machine. Detta arbete kan dra slutsatsen att det är möjligt att detektera anomalier med hjälp av en klusterbaserad anomalidetektering. Den algoritm som presterade bäst var den som kombinerade spektralklustring med One-class Support Vector Machine. På test-datan så klassificerade algoritmen $95.8\%$ av all data korrekt. Av alla data-punkter som var märka som anomalier så klassificerade denna algoritm 89.4% rätt, och på de data-punkter som var märka som normala så klassificerade algoritmen 96.2% rätt.
|
2 |
Identifying New Fault Types Using Transformer EmbeddingsKarlsson, Mikael January 2021 (has links)
Continuous integration/delivery and deployment consist of many automated tests, some of which may fail leading to faulty software. Similar faults may occur in different stages of the software production lifecycle and it is necessary to identify similar faults and cluster them into fault types in order to minimize troubleshooting time. Pretrained transformer based language models have been proven to achieve state of the art results in many natural language processing tasks like measuring semantic textual similarity. This thesis aims to investigate whether it is possible to cluster and identify new fault types by using a transformer based model to create context aware vector representations of fault records, which consists of numerical data and logs with domain specific technical terms. The clusters created were compared against the clusters created by an existing system, where log files are grouped by manual specified filters. Relying on already existing fault types with associated log data, this thesis shows that it is possible to finetune a transformer based model for a classification task in order to improve the quality of text embeddings. The embeddings are clustered by using density based and hierarchical clustering algorithms with cosine distance. The results show that it is possible to cluster log data and get comparable results to the existing manual system, where the cluster similarity was assessed with V-measure and Adjusted Rand Index. / Kontinuerlig integration består automatiserade tester där det finns risk för att några misslyckas vilket kan leda till felaktig programvara. Liknande fel kan uppstå under olika faser av en programvarans livscykel och det är viktigt att identifiera och gruppera olika feltyper för att optimera felsökningsprocessen. Det har bevisats att språkmodeller baserade på transformatorarkitekturen kan uppnå höga resultat i många uppgifter inom språkteknologi, inklusive att mäta semantisk likhet mellan två texter. Detta arbete undersöker om det är möjligt att gruppera och identifiera nya feltyper genom att använda en transformatorbaserad språkmodell för att skapa numeriska vektorer av loggtext, som består av domänspecifika tekniska termer och numerisk data. Klustren jämförs mot redan existerande grupperingar som skapats av ett befintligt system där feltyper identifieras med manuellt skrivna filter. Det här arbetet visar att det går att förbättra vektorrepresenationerna skapade av en språkmodell baserad på transformatorarkitekturen genom att tilläggsträna modellen för en klassificeringsuppgift. Vektorerna grupperas med hjälp av densitetsbaserade och hierarkiska klusteralgoritmer. Resultaten visar att det är möjligt att skapa vektorer av logg-texter med hjälp av en transformatorbaserad språkmodell och få jämförbara resultat som ett befintligt manuellt system, när klustren evaluerades med V-måttet och Adjusted Rand Index.
|
3 |
A graph representation of event intervals for efficient clustering and classification / En grafrepresentation av händelsesintervall föreffektiv klustering och klassificeringLee, Zed Heeje January 2020 (has links)
Sequences of event intervals occur in several application domains, while their inherent complexity hinders scalable solutions to tasks such as clustering and classification. In this thesis, we propose a novel spectral embedding representation of event interval sequences that relies on bipartite graphs. More concretely, each event interval sequence is represented by a bipartite graph by following three main steps: (1) creating a hash table that can quickly convert a collection of event interval sequences into a bipartite graph representation, (2) creating and regularizing a bi-adjacency matrix corresponding to the bipartite graph, (3) defining a spectral embedding mapping on the bi-adjacency matrix. In addition, we show that substantial improvements can be achieved with regard to classification performance through pruning parameters that capture the nature of the relations formed by the event intervals. We demonstrate through extensive experimental evaluation on five real-world datasets that our approach can obtain runtime speedups of up to two orders of magnitude compared to other state-of-the-art methods and similar or better clustering and classification performance. / Sekvenser av händelsesintervall förekommer i flera applikationsdomäner, medan deras inneboende komplexitet hindrar skalbara lösningar på uppgifter som kluster och klassificering. I den här avhandlingen föreslår vi en ny spektral inbäddningsrepresentation av händelsens intervallsekvenser som förlitar sig på bipartitgrafer. Mer konkret representeras varje händelsesintervalsekvens av en bipartitgraf genom att följa tre huvudsteg: (1) skapa en hashtabell som snabbt kan konvertera en samling händelsintervalsekvenser till en bipartig grafrepresentation, (2) skapa och reglera en bi-adjacency-matris som motsvarar bipartitgrafen, (3) definiera en spektral inbäddning på bi-adjacensmatrisen. Dessutom visar vi att väsentliga förbättringar kan uppnås med avseende på klassificeringsprestanda genom beskärningsparametrar som fångar arten av relationerna som bildas av händelsesintervallen. Vi demonstrerar genom omfattande experimentell utvärdering på fem verkliga datasätt att vår strategi kan erhålla runtime-hastigheter på upp till två storlekar jämfört med andra modernaste metoder och liknande eller bättre kluster- och klassificerings- prestanda.
|
4 |
Automatic Image Annotation by Sharing Labels Based on Image Clustering / Automatisk bildannotering med hjälp av tagg-delning baserat på bildklusteringSpång, Anton January 2017 (has links)
The growth of image collection sizes during the development has currently made manual annotation unfeasible, leading to the need for accurate and time efficient image annotation methods. This project evaluates a system for Automatic Image Annotation to see if it is possible to share annotations between images based on un-supervised clustering. The evaluation of the system included performing experiments with different algorithms and different unlabeled data sets. The system is also compared to an award winning Convolutional Neural Network model, used as a baseline, to see if the system’s precision and/or recall could be better than the baseline model’s. The results of the experiment conducted in this work showed that the precision and recall could be increased on the data used in this thesis, an increase of 0.094 in precision and 0.049 in recall in average for the system compared to the baseline. / Utvecklingen av bildkollektioners storlekar har fram till idag ökat behovet av ett pålitligt och effektivt annoteringsverktyg i och med att manuell annotering har blivit ineffektivt. Denna rapport utvärderar möjligheterna att dela bildtaggar mellan visuellt lika bilder med ett system för automatisk bildannotering baserat på klustring. Utvärderingen sker i form av flera experiment med olika algoritmer och olika omärkta datamängder. I experimenten är systemet jämfört med en prisbelönt konvolutionell neural nätverksmodell, vilken är använd som utgångspunkt, för att undersöka om systemets resultat kan bli bättre än utgångspunktens resultat. Resultaten visar att både precisionen och återkallelsen förbättrades i de experiment som genomfördes på den data använd i detta arbete. En precisionsökning med 0.094 och en återkallelseökning med 0.049 för det implementerade systemet jämfört med utgångspunkten, över det genomförda experimenten.
|
5 |
Domain Knowledge and Representation Learning for Centroid Initialization in Text Clustering with k-Means : An exploratory study / Domänkunskap och Representationsinlärning för Centroidinitialisering vid Textklustering med k-Means : En utforskande studieYu, David January 2023 (has links)
Text clustering is a problem where texts are partitioned into homogeneous clusters, such as partitioning them based on their sentiment value. Two techniques to address the problem are representation learning, in particular language representation models, and clustering algorithms. The state-ofthe-art language models are based on neural networks, in particular the Transformer architecture, and the models are used to transform a text into a point in a high dimensional vector space. The texts are then clustered using a clustering algorithm, and a recognized partitional clustering algorithm is k-Means. Its goal is to find centroids that represent the clusters (partitions) by minimizing a distance measure. Two influential parameters of k-Means are the number of clusters and the initial centroids. Multiple heuristics exist to decide how the parameters are selected. The heuristic of using domain knowledge is commonly used when it is available, e.g., the number of clusters is set to the number of dataset labels. This project further explores this idea. The main contribution of the thesis is an investigation of domain knowledge and representation learning as a heuristic in centroid initialization applied to k-Means. Initial centroids were obtained by applying a representation learning technique on the dataset labels. The project analyzed a Swedish dataset with views towards different aspects of Swedish immigration and a Swedish translated movie review dataset using six Swedish compatible language models and two versions of k-Means. Clustering evaluation was measured using eight metrics related to cohesion, separation, external entropy and accuracy. The results show the proposed heuristic made a positive impact on the metrics. By employing the proposed heuristic, six out of eight metrics were improved compared to the baseline. The improvements were observed using six language models and k-Means on two datasets. Additionally, the evaluation metrics indicated that the proposed heuristic has opportunities for future improvements. / Textklustering är ett problem där texter partitioneras i homogena kluster, till exempel genom att gruppera dem baserat på dess sentimentala värde. Två tekniker för att undersöka problemet är representationsinlärning, i synnerhet språkrepresentationsmodeller, och klustringsalgoritmer. Moderna språkmodeller är baserade på neurala nätverk, framförallt på Transformer arkitekturen, och modellerna används för att omvandla texter till punkter i ett högdimensionellt vektorrum. Därefter klustras texterna med hjälp av en klusteringsalgoritm, och en erkänd partition klusteringalgorithm är kMeans. Målet med algoritmen är att finna centroider som representerar klustren (partitioner) genom att minimera ett avståndsmått. Två inflytelserika parametrar i k-Means är antalet kluster och initiala centroider. Många heuristiker existerar för att bestämma hur dessa parametrar skall väljas. En vanligt förekommande heuristik är att använda domänkunskap om det är tillgängligt, e.g., antalet kluster väljs som antalet datamängdsetiketter. Detta projekt genomför ytterligare utforskningar av idén. Avhandlingens huvudsakliga bidrag är en undersökning av att använda kunskaper om domänen för datamängden och representationsinlärning som heuristik för centroid initialisering applicerat på k-Means. Initiala centroider erhölls genom att applicera en representationsinlärningsteknik på datamängdsetiketter. Projektet analyserar en svensk datamängd med åsikter gentemot olika aspekter av svensk immigration och en svensk översatt datamängd om filmrecensioner med hjälp av sex svenskkompatibla språkmodeller och kMeans. Utvärdering av klustringen uppmättes med hjälp av åtta mätetal relaterade till sammanhållning, separation, entropi och ackuratess. Den föreslagna heuristiken hade en positiv effekt på mätetalen. Genom att använda den föreslagna heuristiken förbättrades sex av åtta mätetal jämfört med baslinjen. Förbättringarna observerades med användning av sex språkmodeller och k-Means på två datamängder. Evalueringsmätetalen indikerar också på att heuristiken har möjligheter till framtida förbättringar.
|
6 |
Modelling Credit Spread Risk with a Focus on Systematic and Idiosyncratic Risk / Modellering av Kredit Spreads Risk med Fokus på Systematisk och Idiosynkratisk RiskKorac Dalenmark, Maximilian January 2023 (has links)
This thesis presents an application of Principal Component Analysis (PCA) and Hierarchical PCA to credit spreads. The aim is to identify the underlying factors that drive the behavior of credit spreads as well as the left over idiosyncratic risk, which is crucial for risk management and pricing of credit derivatives. The study employs a dataset from the Swedish market of credit spreads for different maturities and ratings, split into Covered Bonds and Corporate Bonds, and performs PCA to extract the dominant factors that explain the variation in the data of the former set. The results show that most of the systemic movements in Swedish covered bonds can be extracted using a mean which coincides with the first principal component. The report further explores the idiosyncratic risk of the credit spreads to further the knowledge regarding the dynamics of credit spreads and improving risk management in credit portfolios, specifically in regards to new regulation in the form of the Fundemental Review of the Trading Book (FRTB). The thesis also explores a more general model on corporate bonds using HPCA and K-means clustering. Due to data issues it is less explored but there are useful findings, specifically regarding the feasibility of using clustering in combination with HPCA. / I detta arbete presenteras en tillämpning av Principal Komponent Analysis (PCA) och Hierarkisk PCA på kreditspreadar. Syftet är att identifiera de underliggande faktorer som styr kreditspreadarnas beteende samt den kvarvarande idiosynkratiska risken, vilket är avgörande för riskhantering och prissättning av diverse kreditderivat. I studien används en datamängd från den svenska marknaden med kreditspreadar för olika löptider och kreditbetyg, uppdelat på säkerställda obligationer och företagsobligationer, och PCA används för att ta fram de mest signifikanta faktorerna som förklarar variationen i data för de förstnämnda obligationerna. Resultaten visar att de flesta av de systematiska rörelserna i svenska säkerställda obligationer kan extraheras med hjälp av ett medelvärde som sammanfaller med den första principalkomponenten. I rapporten undersöks vidare den idiosynkratiska risken i kreditspreadarna för att öka kunskapen om dynamiken i kreditspreadarna och förbättre riskhanteringen i kreditportföljer, särskilt med tanke på regelverket "Fundemental Review of the Tradring book" (FRTB). I rapporten undersöktes vidare en mer allmän modell för företagsobligationer med hjälp av HPCA och K-means-klustering. På grund av dataproblem är den mindre utforstkad, men det finns användbara resultat, särskild när det gäller möjligheten att använda kluster i kombination med HPCA.
|
Page generated in 0.0783 seconds