Return to search

Price Prediction for Used Cars : A Comparison of Machine Learning Regression Models

Bilar av ett visst märke, modell, år och uppsättning funktioner börjar med ett pris som fastställs av tillverkaren. När de åldras och säljs vidare som de används, är de föremål för prissättning av utbud och efterfrågan för deras speciella uppsättning funktioner, utöver deras unika historia. Ju mer detta skiljer dem från jämförbara bilar, desto svårare blir de att utvärdera med traditionella metoder. Genom att använda maskininlärning algoritmer för att bättre utnyttja data om alla mindre vanliga egenskaper hos en bil kan man mer exakt bedöma ett fordons värde. Denna studie jämför prestandan för algoritmer för Linjär Regression, Ridge Regression, Lasso Regression och Random Forest Regression när det gäller att förutsäga priset på begagnade bilar. En viktig kvalifikation för ett prisförutsägelseverktyg är att avskrivningar kan representeras för att bättre utnyttja tidigare data för aktuell prisförutsägelse. Denna studie jämför därför även den skattade prisavtagningen hos algoritmerna. Studien har genomförts med en stor offentlig datauppsättning av begagnade bilar. Resultaten visar att Random Forest Regression visar den högsta prisförutsägelseprestanda för alla mätvärden som används. Den kunde också representera den genomsnittliga avskrivningen mycket närmare verkligheten än de andra algoritmerna, med 13,7 % förutspådd årlig geometrisk prisavtagning för datasetet oberoende av fordonets ålder. / Cars of a particular make, model, year, and set of features start out with a price set by the manufacturer. As they age and are resold as used, they are subject to supply-and-demand pricing for their particular set of features, in addition to their unique history. The more this sets them apart from comparable cars, the harder they become to evaluate with traditional methods. Using Machine Learning algorithms to better utilize data on all the less common features of a car can more accurately assess the value of a vehicle. This study compares the performance of Linear Regression, Ridge Regression, Lasso Regression, and Random Forest Regression ML algorithms in predicting the price of used cars. An important qualification of a price prediction tool is that depreciation can be represented to better utilize past data for current price prediction. The study has been conducted with a large public dataset of used cars. The results show that Random Forest Regression demonstrates the highest price prediction performance across all metrics used. It was also able to represent average depreciation much more closely than the other algorithms, at 13.7% predicted annual geometric depreciation for the dataset independent of vehicle age.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:miun-45286
Date January 2022
CreatorsCollard, Marcus
PublisherMittuniversitetet, Institutionen för informationssystem och –teknologi
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0018 seconds