Return to search

Detecting fraudulent users using behaviour analysis / Detektera artificiella användare med hjälp av beteendeanalys

With the increased global use of online media platforms, there are more opportunities than ever to misuse those platforms or perpetrate fraud. One such fraud is within the music industry, where perpetrators create automated programs, streaming songs to generate revenue or increase popularity of an artist. With growing annual revenue of the digital music industry, there are significant financial incentives for perpetrators with fraud in mind. The focus of the study is extracting user behavioral patterns and utilising them to train and compare multiple supervised classification method to detect fraud.  The machine learning algorithms examined are Logistic Regression, Support Vector Machines, Random Forest and Artificial Neural Networks. The study compares performance of these algorithms trained on imbalanced datasets carrying different fractions of fraud. The trained models are evaluated using the Precision Recall Area Under the Curve (PR AUC) and a F1-score. Results show that the algorithms achieve similar performance when trained on balanced and imbalanced datasets. It also shows that Random Forest outperforms the other methods for all datasets tested in this experiment. / Med den ökande användningen av strömmande media ökar också möjligheterna till missbruk av dessa platformar samt bedrägeri. Ett typiskt fall av bedrägeri är att använda automatiserade program för att strömma media, och därigenom generera intäkter samt att öka en artist popularitet. Med den växande ekonomin kring strömmande media växer också incitamentet till bedrägeriförsök. Denna studies fokus är att finna användarmönster och använda denna kunskap för att träna modeller som kan upptäcka bedrägeriförsök. The maskininlärningsalgoritmer som undersökts är Logistic Regression, Support Vector Machines, Random Forest och Artificiella Neurala Nätverk. Denna studie jämför effektiviteten och precisionen av dessa algoritmer, som tränats på obalanserad data som innehåller olika procentandelar av bedrägeriförsök. Modellerna som genererats av de olika algoritmerna har sedan utvärderas med hjälp av Precision Recall Area Under the Curve (PR AUC) och F1-score. Resultaten av studien visar på liknande prestanda mellan modellerna som genererats av de utvärderade algoritmerna. Detta gäller både när de tränats på balanserad såväl som obalanserad data. Resultaten visar också att Random Forestbaserade modeller genererar bättre resultat för alla dataset som testats i detta experiment.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-224196
Date January 2017
CreatorsJóhannsson, Jökull
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds