The shopping industry is rapidly changing as the technology is advancing. This is especially true for the online industry where consumers are nowadays able to to shop much of what the need over the internet. In order to make the shopping experience as smooth as possible, different companies develops their sites and checkouts to be as friction-less as possible. In this thesis, the shipping module of Klarnas checkout was analyzed and different models were created to get an understanding of how the likelihood of a customer finalizing a purchase (conversion rate) could be improved. The shipping module consists of a number of shipping methods along with shipping carriers. Currently, there is no logic to sort the different shipping method/carriers other than a static ordering for all customers. The order of the shipping methods and carriers are what were investigated in the thesis. Hence, the core problem is to understand how the opportunity loss could be minimized by a different ordering of the shipping methods, where the opportunity loss are derived by the reduction in conversion rate between the control group (current setup) and a new model. To achieve this, a dataset was prepared and features were engineered in such a way that the same training and test datasets could be used in all algorithms. The features were engineered using a point-in-time concept so that no target leakage would be present. The target that was used was a plain concatenation of shipping method plus the shipping carrier. Finally, three different methods tackling this multiclass classification problem were investigated, namely Logistic Regression, Extreme Gradient Boosting and Artificial Neural Network. The aim of these algorithms is to create a learner that has been trained on a given dataset and that is able to predict the combination of shipping method plus carrier given a certain set of features. By the end of the investigation, it was concluded that using a model to predict the most relevant shipping method (plus carrier) for the customer made a positive difference on the conversion rate and in turn, the increase in sales. The overall accuracy of the Logistic Regression was 65.09%, 71.61% for the Extreme Gradient Boosting and 70.88% for the Artificial Neural Network. Once the models were trained, they were used in a back-simulation (that would be a proxy for an A/B-test) on a validation set to see the effect on the conversion rate. Here, the results showed that the conversion rate was 84.85% for the Logistic Regression model, 84.95% for the Extreme Gradient Boosting and 85.02% for the Artificial Neural Network. The control group which was a random sample of the current logic had a conversion rate of 84.21%. Thus, implementing the Artificial Neural Network would increase Klarnas sales by about 6.5 SEK per session. / Detaljhandelsindustrin förändras i en snabb takt i samband med att teknologin utvecklas. Detta är speciellt fallet för näthandeln där konsumenter numer har möjligheten att handla i stort sett allt de behöver över internet. För att göra köpupplevelsen så smidig som möjlig utvecklar olika bolag deras hemsidor och online kassor så att de innehåller så lite friktion som möjligt. I denna avhandling utreddes Klarnas leveransmodul som är en den av Klarnas onlinekassa (Checkout). Här utvecklades flera modeller och analyserades för att få en förståelse för hur sannolikheten att kunden slutför ett köp (konverterinsgrad) kunde ökas. Leveransmodulen består av ett flertalet leveransmetoder tillsammans med en leverantör. I dagsläget finns det ingen logik för att sortera dessa metoder annat än en statisk sortering för alla kunder. Ordningen på leveransmetoderna och leverantörerna är alltså vad som utreddes. Kärnproblemet i denna avhandling är alltså att förstå hur den potentiella förlusten av att ha en suboptimal sortering, där den potentiella förlusten härleds av minskningen av konverteringsgraden mellan den nuvarande lösningen och en ny modell. För att uppnå detta förbereddes ett dataset och variabler skapades på sådant vis att både tränings och test datan kunde användas för samtliga algoritmer. Variablerna skapades med en Point-in-time koncept så att ingen ogiltig information skulle komma med. Målvariabeln, eller den beroende variabeln, var en enkel ihopslagning av leveransmetoden plus leverantörens namn. Sedan användes tre algoritmer för att tackla detta multiklass klassifikationsproblem, nämligen Logistisk Regression, Extreme Gradient Boosting samt ett Artificiellt Neuralt Nätverk. Målet med dessa algoritmer är att skapa en modell som tränats på ett givet dataset och som kan förutspå kombinationen av leveransmetod plus leverantör givet ett bestämt set av värden på variablerna. I slutet av utredningen drogs slutsatsen att en modell, som kunde förutspå den mest relevanta leveransmetoden (plus leverantör) för kunden, hade en positiv inverkan på konverteringsgraden och i sin tur ökningen i försäljning. Noggrannheten för den Logistiska Regressionen var 65.09%, för Extreme Gradient Boosting var den 71 69% och för det Artificiella Neurala Nätverket var den 70.88%. Efter att modellerna tränats användes de i en simulering (som skulle representera ett A/B-test) på ett valideringsset för att förstå effekten på konverteringsgraden. Här visade resultaten att konverteringsgraden var 84.55% för Logistiska Regressionen, 84.95% för Extreme Gradient Boosting samt 85.02% för det Artificiella Neurala Nätverket. Kontrollgruppen som bestod av slumpmässigt valda rader från den nuvarande logiken hade en konvertingsgrad på 84.21%. Detta innebar alltså att om det Artificiella Neurala Nätverket hade implementerats, så hade det ökat Klarnas försäljning med ca 6.5 SEK per session.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-314022 |
Date | January 2022 |
Creators | Ay, Jonatan, Azrak, Jamil |
Publisher | KTH, Matematik (Avd.) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2022:102 |
Page generated in 0.003 seconds