Return to search

On the impact of geospatial features in real estate appraisal with interpretable algorithms / Om påverkan av geospatiala variabler i fastighetsvärdering med tolkbara algoritmer

Real estate appraisal is the means of defining the market value of land and property affixed to it. Many different features determine the market value of a property. For example, the distance to the nearest park or the travel time to the central business district may be significant when determining its market value. The use of machine learning in real estate appraisal requires algorithm accuracy and interpretability. Related research often defines these two properties as a trade-off and suggests that more complex algorithms may outperform intrinsically interpretable algorithms. This study tests these claims by examining the impact of geospatial features on interpretable algorithms in real estate appraisal. The experiments use property transactions from Oslo, Norway, and adds relative and global geospatial features for all properties using geocoding and spherical distance calculations. Such as the distance to the nearest park or the city center. The experiment implements three intrinsically interpretable algorithms; a linear regression algorithm, a decision tree algorithm, and a RuleFit algorithm. For comparison, it also implements two artificial neural network algorithms as a baseline. This study measures the impact of geospatial features using the algorithm performance by the coefficient of determination and the mean absolute error for the algorithm without and with geospatial features. Then, the individual impact of each geospatial feature is measured using four feature importance measures; mean decrease impurity, input variable importance, mean decrease accuracy, and Shapley values. The statistically significant results show that geospatial features improve algorithm performance. The improvement of algorithm performance is not unique to interpretable algorithms but occurs for all algorithms. Furthermore, it shows that interpretable algorithms are not axiomatically inferior to the tested artificial neural network algorithms. The distance to the city center and a nearby hospital are, on average, the most important geospatial features. While important for algorithm performance, precisely what the geospatial features capture remains for future examination. / Fastighetsvärdering är ett sätt att bestämma marknadsvärdet på mark och egendom som anbringas på den. Flera olika variabler påverkar marknadsvärdet för en fastighet. Avståndet till närmaste park eller restiden till det centrala affärsdistriktet kan till exempel vara betydande när man bestämmer ett marknadsvärde. Användningen av maskininlärning vid fastighetsvärdering kräver noggrannhet och tolkbarhet hos algoritmer. Relaterad forskning definierar ofta dessa två egenskaper som en kompromiss och föreslår att mer komplexa algoritmer kan överträffa tolkbara algoritmer. Den här studien testar dessa påståenden genom att undersöka påverkan av geospatiala variabler på tolkbara algoritmer i fastighetsvärdering. Experimentet använder fastighetstransaktioner från Oslo i Norge, och lägger till relativa och globala geospatiala variabler för alla fastigheter med hjälp av geokodning och sfäriska avståndsberäkningar. Såsom avståndet till närmaste park eller stadens centrum. Experimentet implementerar tre tolkbara algoritmer; en linjär regressionsalgoritm, en beslutsträdalgoritm och en RuleFit-algoritm. Som jämförelse implementerar den också två artificiella neuronnätsalgoritmer som en baslinje. Studien mäter påverkan av geospatiala variabler med algoritmprestanda genom determinationskoefficienten och det genomsnittliga absoluta felet för algoritmen med och utan geospatiala variabler. Därefter mäts den individuella påverkan av varje geospatial variabel med hjälp av fyra mått på variabelbetydelse; mean decrease impurity, input variabel importance, mean decrease accuracy och Shapley-värden. De statistiskt signifikanta resultaten visar att geospatiala variabler förbättrar algoritmers prestanda. Förbättringen av algoritmprestanda är inte unik för tolkningsbara algoritmer utan sker för alla algoritmer. Dessutom visar resultatet att tolkningsbara algoritmer inte är sämre än de testade artificiella neuronnätsalgoritmerna. Avståndet till stadens centrum och det närmaste sjukhuset är i genomsnitt de viktigaste geospatiala variablerna. Även om de geospatial variablerna är viktiga för algoritmprestanda, kvarstår frågan om vad exakt de betyder för framtida granskning.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-304047
Date January 2021
CreatorsJäger, Simon
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2021:603

Page generated in 0.0025 seconds