Return to search

Defining Differentiable Neighborhoods in Stockholm by Clustering Apartments with Machine Learning

With the rise of digital platforms for the real estate market in Sweden, and their record of transaction data, there is still a lack of proper utilization and presentation of available data. The traditional geographical city areas are usually too large and varying to perform accurate analysis on. This report explores the possibility of dividing central Stockholm’s predefined city areas into smaller submarkets using data-driven methods. The smaller submarkets would provide a more homogeneous description of their respective area and serve as a better basis for valuation estimators. The creation of the submarkets are done through clustering, a subsection of Machine Learning. Different clustering algorithms are attempted in order to test for their fit to the model. Results are evaluated by analyzing the variance of attributes within and between the clusters, ensuring that variance is low within and high between. The results are also compared to predefined city areas, in order to ascertain the improvement achieved with the data-driven model. The data output is presented graphically in Google Maps for a visual evaluation while also allowing ease-of-use for potential commercial customers. The results were an interactive map with differentiated and mostly non-overlapping clusters. The best clustering algorithm was Hierarchical clustering that lowered the internal variance by 33% and increased the external variance by 171% compared to predefined city areas. A potential future use of properly delineated submarkets could include higher precision valuation estimators or more relevant apartment recommendations for a company such as Booli. / Trots den ökande användningen av digitala plattformar för bostadsmarknaden i Sverige samt mängden transaktionsdata som finns tillgänglig, så finns det få aktörer som utnyttjar detta fullt ut. De traditionella stadsområdena är ofta alltför stora och varierande för att utföra precisa analyser på. Denna rapport utforskar möjligheterna med att dela upp centrala Stockholms fördefinierade stadsområden till mindre submarknader genom datadrivna metoder. Dessa submarknader skulle ge en mer homogen beskrivning av deras respektive områden och fungera som en bättre utgångspunkt för prisvärdering. Framtagningen av submarknaderna görs genom klustring, en del utav maskininlärning. Olika klustringsalgoritmer implementeras för att testa deras förklaringsvärde. Resultaten utvärderades genom att analysera variansen av attributen inom och mellan klustren, sett till att variansen bör vara låg inom klustren och hög mellan klustren. Resultaten jämfördes även med förbestämda stadsområden, för att säkra den datadrivna modellens förbättring. Data outputen är presenterad grafiskt i Google Maps för visuell utvärdering medan det även tillåter enkel användning för potentiella slutkonsumenter. Resultatet av detta är en interaktiv karta med differentierade och mestadels icke-överlappande kluster. Denna rapport fann att den bästa klustringsmodellen var Hierarchical klustring som hade 33% lägre varians inom klustren samt 171% högre varians mellan klustren jämfört med förbestämda stadsområden. En potentiell framtida användning av klustrade submarknader skulle kunna vara mer precisa prisvärderingar eller mer relevanta bostadsrekommendationer för bolag så som Booli.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-240984
Date January 2018
CreatorsFahlén, Jesper, Forslund, John, Vesterberg, Jakob
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:427

Page generated in 0.0022 seconds