This thesis examines whether housing price estimations can be improved by combining several modalities of data through the utilization of neural networks. The analysis is limited to apartments in the Stockholm municipality, and the applied modalities are residential attributes (tabular data) and photo montages (image data). The tabular data includes living area, number of rooms, age, latitude, longitude and ocean distance, while the image data contains montages of four images representing the kitchen, bathroom, living space and neighborhood through satellite imagery. Furthermore, the dataset comprises a total of 1154 apartments sold within a time frame of approximately six months, ending in June 2023. The analysis is conducted by designing three artificial neural networks and comparing their performances: a multilayer perceptron that predicts selling prices using tabular data, a convolutional neural network that predicts selling prices using image data, and a multimodal neural network that estimates sold prices taking both modalities as inputs. To facilitate the construction process, the multimodal neural network is designed by integrating the other models into its architecture. This is achieved through the concatenation of their outputs, which is then fed into a joint hidden layer. Before initiating the network development phase, the data is preprocessed appropriately, for example by excluding duplicates and dealing with missing values. In addition, images are categorized into room types via object detection, satellite images are collected, and photo montages are created. To obtain well-performing models, hyperparameter tuning is performed using methods such as grid search or random search. Moreover, the models are evaluated through three repetitions of 5-fold cross-validation with the mean absolute percentage error as performance metric. The analysis shows that the multimodal neural network exhibits a marginal but significant performance advantage compared to the multilayer perceptron, both in terms of cross-validation scores and test set outcomes. This result underscores the potential benefits of utilizing both image data and tabular data for predicting apartment selling prices through the application of neural networks. Furthermore, this work motivates a deeper investigation into these prediction methods using larger datasets for which the multimodal neural network may achieve even stronger predictive capacity / Detta examensarbete undersöker huruvida bostadsprisuppskattningar kan förbättras genom att kombinera flera modaliteter vid tillämpning av neurala nätverk. Analysen är begränsad till lägenheter i Stockholms kommun, och de tillämpade modaliteterna är bostadsattribut (tabelldata) och fotomontage (bilddata). Tabelldatat inkluderar bostadsyta, antal rum, ålder, latitud, longitud och avstånd till havet, medan bilddatat består av montage med fyra bilder som representerar kök, badrum, vardagsrum och närområde genom satellitbilder. Datasetet omfattar totalt 1154 lägenheter sålda inom ett tidsspann på cirka sex månader, fram till och med juni 2023. Analysen utförs genom att designa tre artificiella neurala nätverk och jämföra deras prestanda: en flerskiktsperceptron som förutsäger försäljningspriser med hjälp av tabelldata, ett konvolutionellt neuralt nätverk som förutsäger försäljningspriser med hjälp av bilddata, och ett multimodalt neuralt nätverk som estimerar sålda priser med båda modaliteterna som indata. För att underlätta konstruktionsprocessen designas det multimodala neurala nätverket genom att integrera de andra modellerna i sin arkitektur. Detta åstadkoms genom en sammanlänkning av deras utdata, som sedan matas in i ett gemensamt dolt lager. Innan nätverksutvecklingsfasen påbörjas, förbehandlas datat på lämpligt sätt, till exempel genom exkludering av dubbletter och hantering av saknade värden. Dessutom kategoriseras bilder till rumstyper via objektdetektering, satellitbilder samlas in och fotomontage skapas. För att uppnå välpresterande modeller utförs hyperparameterjustering med metoder som rutnätssökning eller slumpmässig sökning. Vidare utvärderas modellerna genom tre upprepningar av 5-faldig korsvalidering med det genomsnittliga absoluta procentuella felet som prestandamått. Analysen visar på att det multimodala neurala nätverket uppvisar en marginell men tydlig prestandafördel jämfört med flerskiktsperceptronen, både när det gäller korsvalideringspoäng och testresultat. Detta understryker de potentiella fördelarna med att använda både bilddata och tabelldata vid estimering av lägenheters försäljningspris genom tillämpning av neurala nätverk. Vidare motiverar detta arbete en djupare undersökning av dessa prediktionsmetoder med hjälp av större datamängder, för vilket det multimodala neurala nätverket har potential att uppnå ännu starkare prediktiv kapacitet.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-346704 |
Date | January 2023 |
Creators | Öijar Jansson, Agnes |
Publisher | KTH, Sannolikhetsteori, matematisk fysik och statistik |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2023:458 |
Page generated in 0.0025 seconds