The purpose of this thesis was to use a quantitative method to expand on previous research in the field of start-up success prediction. This was accomplished by including more criteria in the study, which was made possible by the Crunchbase database, which is the largest available information source for start-ups. Furthermore, the data used in this thesis was limited to Western European start-ups only in order to study the effects of limiting the data to a certain geographical region on the prediction models, which to our knowledge has not been done before in this type of research. The quantitative method used was machine learning and specifically the three machine learning predictors used in this thesis were Logistic Regression, Random Forest and K-nearest Neighbor (KNN). All three models proposed and evaluated have a better prediction accuracy than guessing the outcome at random. When tested on data previously unknown to the model, Random Forest produced the greatest results, predicting a successful company as a success and a failed company as a failure with 79 percent accuracy. With accuracies of 65 percent and 59 percent, respectively, both logistic regression and K-Nearest Neighbor (KNN) were close behind. / Syftet med denna avhandling var att använda en kvantitativ metod för att utöka tidigare forskning inom modellering av framgångsfaktorer för start-ups genom maskininlärning. Detta kunde åstadkommas genom att inkludera fler kriterier i studien än vad som har gjorts tidigare, vilket möjliggjordes av Crunchbase-databasen, som är den största tillgängliga informationskällan för nystartade företag. Dessutom är den data som användes i denna avhandling begränsad till endast västeuropeiska start-ups för att studera effekterna av att begränsa data till ett visst geografiskt område i prediktionsmodellerna, vilket inte har gjorts tidigare i denna typ av forskning. Den kvantitativa metoden som användes var maskininlärning och specifikt var de tre maskininlärningsmodellerna som användes i denna avhandling Logistic Regression, Random Forest och K-Nearest Neighbor (KNN). Alla tre modeller som inkluderats och utvärderats har en bättre förutsägelsesnoggrannhet än att gissa resultatet slumpmässigt. När modellerna testades med data som tidigare varit okänd för modellerna, gav Random Forest det bästa resultatet och predikterade ett framgångsrikt företag korrekt och ett misslyckat företag korrekt med 79 procents noggrannhet. Nära efter kom både K-Nearest Neighbor (KNN) och Logistic Regression med respektive noggrannheter på 65 och 59 procent.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-296527 |
Date | January 2021 |
Creators | Kamal, Adib, Sabani, Kenan |
Publisher | KTH, Industriell ekonomi och organisation (Inst.) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-ITM-EX ; 2021:226 |
Page generated in 0.0024 seconds