Property valuation is a critical concept for a variety of applications in the real estate market such as transactions, taxes, investments, and mortgages. However, there is little consistency in which method is the best for estimating the property value. This paper aims at investigating and comparing the differences in the Stockholm residential property valuation results among parametric hedonic pricing models (HPM) including linear and log-linear regression models, and Random Forest (RF) as the machine learning algorithm. The data consists of 114,293 arm-length transactions of the tenant-owned apartment between January 2005 to December 2014. The same variables are applied on both the HPM regression models and RF. There are two adopted techniques for data splitting into training and testing datasets, randomly splits and splitting based on the transaction years. These datasets will be used to train and test all the models. The performance evaluation and measurement of each model will base on four performance indicators: R-squared, MSE, RMSE, and MAPE. The results from both data splitting circumstances have shown that the accuracy of random forest is the highest among the regression models. The discussions point out the causes of the models’ performance changes once applied on different datasets obtained from different data splitting techniques. Limitations are also pointed out at the end of the study for future improvements. / Fastighetsvärdering är ett kritiskt koncept för en mängd olika applikationer på fastighetsmarknaden som transaktioner, skatter, investeringar och inteckningar. Det finns dock liten konsekvens i vilken metod som är bäst för att uppskatta fastighetsvärdet. Denna uppsats syftar till att undersöka och jämföra skillnaderna i Stockholms fastighetsvärderingsresultat bland parametriska hedoniska prissättningsmodeller (HPM) inklusive linjära och log-linjära regressionsmodeller, och Random Forest (RF) som maskininlärningsalgoritm. Uppgifterna består av 114,293 armlängds-transaktioner för hyresgästen från januari 2005 till december 2014. Samma variabler tillämpas på både HPM-regressionsmodellerna och RF. Det finns två antagna tekniker för uppdelning av data i utbildning och testning av datamängder: slumpmässig uppdelning och uppdelning baserat på transaktionsåren. Dessa datamängder kommer att användas för att träna och testa alla modeller. Prestationsutvärderingen och mätningen av varje modell baseras på fyra resultatindikatorer: R-kvadrat, MSE, RMSE och MAPE. Resultaten från båda uppdelningsförhållandena har visat att noggrannheten hos slumpmässig skog är den högsta bland regressionsmodellerna. Diskussionerna pekar på orsakerna till modellernas prestandaförändringar när de tillämpats på olika datamängder erhållna från olika datasplittringstekniker. Begränsningar påpekas också i slutet av studien för framtida förbättringar.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-298307 |
Date | January 2021 |
Creators | Teang, Kanha, Lu, Yiran |
Publisher | KTH, Fastigheter och byggande |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-ABE-MBT ; 21419 |
Page generated in 0.0019 seconds