With increasing usage of credit card payments, credit card fraud has also been increasing. Therefore a fast and accurate fraud detection system is vital for the banks. To solve the problem of fraud detection, different machine learning classifiers have been designed and trained on a credit card transaction dataset. However, the dataset is heavily imbalanced which poses a problem for the performance of the algorithms. To resolve this issue, the generative methods Generative Adversarial Network (GAN), Variational Autoencoders (VAE) and Synthetic Minority Oversampling Technique (SMOTE) have been used to generate synthetic samples for the minority class in order to achieve a more balanced dataset. The main purpose of this study is to evaluate the generative methods and investigate the impact of their generated minority samples on the classifiers. The results from this study indicated that GAN does not outperform the other classifiers as the generated samples from VAE were most effective in three out of five classifiers. Also the validation and histogram of the generated samples indicate that the VAE samples have captured the distribution of the data better than SMOTE and GAN. A suggestion to improve on this work is to perform data engineering on the dataset. For instance, using correlation analysis for the features and analysing which features have the greatest impact on the classification and subsequently dropping the less important features and train the generative methods and classifiers with the trimmed down samples. / Med ökande användning av kreditkort som betalningsmetod i världen, har även kreditkort bedrägeri ökat. Därför finns det behov av ett snabbt och tillförligt system för att upptäcka bedrägliga transkationer. För att lösa problemet med att detektera kreditkort bedrägerier, har olika maskininlärnings klassifiseringsmetoder designats och tränats med ett dataset som innehåller kreditkortstransaktioner. Dock är dessa dataset väldigt obalanserade och innehåller mest normala transaktioner, vilket är problematiskt för systemets noggranhet vid klassificering. Därför har generativa metoderna Generative adversarial networks, Variational autoencoder och Synthetic minority oversampling technique använs för att skapa syntetisk data av minoritetsklassen för att balansera datasetet och uppnå bättre noggranhet. Det centrala målet med denna studie var därmed att evaluera dessa generativa metoder och invetigera påverkan av de syntetiska datapunkterna på klassifiseringsmetoderna. Resultatet av denna studie visade att den generativa metoden generative adversarial networks inte överträffade de andra generativa metoderna då syntetisk data från variational autoencoders var mest effektiv i tre av de fem klassifisieringsmetoderna som testades i denna studie. Dessutom visar valideringsmetoden att variational autoencoder lyckades bäst med att lära sig distributionen av orginal datat bättre än de andra generativa metoderna. Ett förslag för vidare utveckling av denna studie är att jobba med data behandling på datasetet innan datasetet används för träning av algoritmerna. Till exempel kan man använda korrelationsanalys för att analysera vilka features i datasetet har störst påverkan på klassificeringen och därmed radera de minst viktiga och sedan träna algortimerna med data som innehåller färre features.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325808 |
Date | January 2023 |
Creators | Nazeriha, Ehsan |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:95 |
Page generated in 0.0023 seconds