Return to search

Fraud detection in online payments using Spark ML

Frauds in online payments cause billions of dollars in losses every year. To reduce them, traditional fraud detection systems can be enhanced with the latest advances in machine learning, which usually require distributed computing frameworks to handle the big size of the available data. Previous academic work has failed to address fraud detection in real-world environments. To fill this gap, this thesis focuses on building a fraud detection classifier on Spark ML using real-world payment data. Class imbalance and non-stationarity reduced the performance of our models, so experiments to tackle those problems were performed. Our best results were achieved by applying undersampling and oversampling on the training data to reduce the class imbalance. Updating the model regularly to use the latest data also helped diminishing the negative effects of non-stationarity. A final machine learning model that leverages all our findings has been deployed at Qliro, an important online payments provider in the Nordics. This model periodically sends suspicious purchase orders for review to fraud investigators, enabling them to catch frauds that were missed before. / Bedrägerier vid online-betalningar medför stora förluster, så företag bygger bedrägeribekämpningssystem för att förhindra dem. I denna avhandling studerar vi hur maskininlärning kan tillämpas för att förbättra dessa system. Tidigare studier har misslyckats med att hantera bedrägeribekämpning med verklig data, ett problem som kräver distribuerade beräkningsramverk för att hantera den stora datamängden. För att lösa det har vi använt betalningsdata från industrin för att bygga en klassificator för bedrägeridetektering via Spark ML. Obalanserade klasser och icke-stationäritet minskade träffsäkerheten hos våra modeller, så experiment för att hantera dessa problem har utförts. Våra bästa resultat erhålls genom att kombinera undersampling och oversampling på träningsdata. Att använda bara den senaste datan och kombinera flera modeller som ej har tränats med samma data förbättrar också träffsäkerheten. En slutgiltig modell har implementerats hos Qliro, en stor leverantör av online betalningar i Norden, vilket har förbättrat deras bedrägeribekämpningssystem och hjälper utredare att upptäcka bedrägerier som tidigare missades.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-219916
Date January 2017
CreatorsAmaya de la Pena, Ignacio
PublisherKTH, Skolan för informations- och kommunikationsteknik (ICT)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-ICT-EX ; 2017:153

Page generated in 0.0012 seconds