Return to search

A Machine Learning Estimation of the Occupancy of Padel Facilities in Sweden : An application of Random Forest algorithm on a padel booking dataset / Uppskattning av svenska padelanläggningars beläggningsgrad genom maskininlärning

Padel is one of the fastest growing sports in Sweden. Its popularity rose significantly during the Covid-19 pandemic in 2020, as many other types of sport facilities closed, and people had more flexible work schedules due to remote work. This paper is an analysis on the monthly occupancy of indoor padel facilities in Sweden between January 2018 and April 2022. It aims to answer to what degree a machine learning algorithm can predict the occupancy for a given padel facility and which key features have the largest impact on the occupancy. With these findings, it is possible to estimate the revenue for a given padel facility and therefore be used to identify which type of padel facilities have the biggest opportunity to succeed from an economical perspective. This article reviews the literature regarding different methods of machine learning, in this case, applied to booking systems and occupancy estimations. The reviewed literature also presents the most common evaluation metrics used for comparing different machine learning models. This study analyses the relationship between the occupancy level of a given padel facility and 12 input features, related to the padel facility in question, with a random forest regression model. This work results in a model that achieved a R2 score of 49% and a mean absolute error of 11%. The input features ranked according to the largest impact on the model’s estimation are (with the mean of all absolute SHAP values written in parentheses): Year (7.71), Month (5.23), Average Income in municipality (4.13), Driving Time from municipality Centre (2.35), Population of municipality (1.97), Padel Slots in municipality (1.27), Padel Slots in facility (1.27), Average Court Price (1.12), Tennis Slots in municipality (0.73), Badminton Slots in municipality (0.55), Squash Slots in municipality (0.44) and Golf Slots in municipality (0.26). Padel facilities had the highest average occupancy in 2020. The Covid-19 pandemic is likely a significant contributor to this, due to the shutdown of offices and many types of training venues. Therefore, Year has the largest impact on the model’s estimation. Occupancy of indoor facilities follows a seasonal trend, where it tends to be highest in December and January and lowest in June and July. This trend can partly be explained by a larger demand for indoor sport activities during winter and increased competition from outside padel facilities and other activities during summer. Because of this, Month had the second largest impact on the model’s estimation. / Padel är en av de snabbast växande sporterna i Sverige. Dess popularitet ökade avsevärt under Covid-19-pandemin i 2020, främst på grund av att många andra typer av sportanläggningar stängdes ner och människor hade mer flexibla arbetsscheman på grund av distansarbete. Den här uppsatsen är en analys av den månatliga beläggningen av inomhuspadelanläggningar i Sverige mellan januari 2018 och april 2022. Studien syftar till att svara på i vilken grad en maskininlärningsalgoritm kan förutsäga beläggningen för en given padelanläggning och vilka nyckelfunktioner som har störst inverkan på beläggningen. Med dessa insikter är det möjligt att uppskatta intäkterna för en given padelanläggning och kan därför användas vilka typer av padelanläggningar som har störst möjlighet att vara framgångsrika ur ett ekonomiskt perspektiv. Den granskade litteraturen studerar olika maskininlärningsmetoder tillämpad i områden som bokningssystemsanalys och beläggningsgradsstudier, samt presenterar de vanligaste utvärderingsmåtten som används för att jämföra metoderna. Denna studie analyserar sambandet mellan beläggningsgraden för en given padelanläggning och 12 inputparametrar, relaterade till padelanläggningen i fråga med hjälp av en random forest regressionsalgoritm. Detta arbete resulterar i en modell som uppnådde ett R2 värde på 49% och en genomsnittlig absolut avvikelse på 11 %. Inputparametrarna rangordnade enligt den största påverkan på modellens uppskattning är (med medelvärdet av alla absoluta SHAP-värden skrivna inom parentes): År (7.71), Månad (5.23), Genomsnittlig Inkomst i kommunen (4.13), Körtid mellan anläggning och kommunens centrum (2.35), Kommunens befolkningsmängd (1.97), Antal padeltider i kommunen (1.27), Padeltider i anläggningen(1.27), Genomsnittlig pris för bana(1.12), Tennistider i kommunen (0.73), Badmintontider i kommunen (0.55), Squashtider i kommunen (0.44) och Golftider i kommunen (0.26). Padelanläggningar hade högsta genomsnittliga beläggningsgraden under 2020. Covid-19-pandemin är sannolikt en betydande bidragande orsak till detta på grund av nedläggningen av kontor och andra sportanläggningar. Därför har inputparametern År den största inverkan på modellens uppskattning. Beläggningen av inomhusanläggningar följer en säsongsmässig trend, där den tenderar att vara högst i januari och lägst i juli. Denna trend kan delvis förklaras av en större efterfrågan på inomhussportaktiviteter under vintern och ökad konkurrens från utomstående padelanläggningar och andra aktiviteter under sommaren. På grund av detta hade Månad den näst största påverkan på modellens uppskattning.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321749
Date January 2022
CreatorsJohansson, Michael, Gonzálvez Läth, Nadia
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:754

Page generated in 0.0022 seconds