1 |
Textbrytning av mäklartexter och slutpris : Med BERT, OLS och Elman regressionsnätverk / Text mining of broker texts and sold price : Using BERT, OLS and Elman regression networkFjellström, Emil, Challita, Johan January 2021 (has links)
Att estimera slutpriset av en bostadsförsäljning är en komplex uppgift där mäklartexter som beskriver bostäder är en vital del av försäljningen. Denna rapport undersöker om det går att använda mäklartexter för att generera mer träffsäkra estimeringar med maskininlärningsmodeller. Två olika maskininlärningsmodeller implementerades som resultat av en litteraturstudie och utvärderades mot Boolis existerande OLS-modell. De implementerade modellerna är OLS-BERT och Elman regressionsnätverk. OLS-BERT visade en generell förbättring jämfört med Boolis OLS-modell, i synnerhet av F-statistik där mätvärdet sjönk med 99,8 procent. P-värdet i T-statistik för “vista” (utsikten) har sjunkit från 37,7 till 1 procent. Elman regressionsnätverket sänkte Boolis OLS-modells MAPE från 58,5 till 6,62 procent. Modellerna utvärderades med åtta olika mått varav de för studiens viktigaste är MAPE, MAE, F-statistik och T-statistik. Genom att bryta ut attribut ur mäklartexter kan modellen förklara signifikansen hos indata, samt få något mer träffsäkra estimeringar av slutpriset av en bostadsförsäljning. Resultaten visar att det är en intressant metod som med fördel kan vidare utforskas. / Estimating the price of home sales is a complex task, where broker texts describing the housing is a vital part of the sales. This study explore the possibility to use broker texts to generate more accurate estimations using machine learning models. Two different machine learning models were implemented as a result of a literature study and evaluated against Booli’s existing OLS-model. The implemented machine learning models are OLS-BERT and an Elman regression network. OLS-BERT showed a general improvement compared to Booli’s OLS-model, in particular the F-statistic were 99.8 percent lower than Booli’s OLS-model. The p-value in T-statistic for “vista” was 37.7 percent with Booli’s OLS-model and 1 percent with OLS-BERT. The Elman regression network lowered the MAPE of Booli’s OLS-model from 58.5 to 6.62 percent. All models were evaluated using eight different measures, of which the most important for this study is MAPE, MAE, F-statistic, and T-statistic. The conclusion is that by mining attributes from broker texts the models can explain the significance of the input and generate somewhat more accurate estimations of the home sales price of sale. The results show that this is an interesting method that should be further explored.
|
Page generated in 0.0683 seconds