Return to search

Performance comparison of data mining algorithms for imbalanced and high-dimensional data

Artificial intelligence techniques, such as artificial neural networks, random forests, or support vector machines, have been used to address a variety of problems in numerous industries. However, in many cases, models have to deal with issues such as imbalanced data or high multi-dimensionality. This thesis implements and compares the performance of support vector machines, random forests, and neural networks for a new bank account fraud detection, a use case defined by imbalanced data and high multi-dimensionality. The neural network achieved both the best AUC-ROC (0.889) and the best average precision (0.192). However, the results of the study indicate that the difference between the models’ performance is not statistically significant to reject the initial hypothesis that assumed equal model performances. / Artificiell intelligens, som artificiella neurala nätverk, random forests eller support vector machines, har använts för att lösa en mängd olika problem inom många branscher. I många fall måste dock modellerna hantera problem som obalanserade data eller hög flerdimensionalitet. Denna avhandling implementerar och jämför prestandan hos support vector machines, random forests och neurala nätverk för att upptäcka bedrägerier med nya bankkonton, ett användningsfall som definieras av obalanserade data och hög flerdimensionalitet. Det neurala nätverket uppnådde både den bästa AUC-ROC (0,889) och den bästa genomsnittliga precisionen (0,192). Resultaten av studien visar dock att skillnaden mellan modellernas prestanda inte är statistiskt signifikant för att förkasta den ursprungliga hypotesen som antog lika modellprestanda.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-337048
Date January 2023
CreatorsRubio Adeva, Daniel
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:628

Page generated in 0.0064 seconds