Return to search

Predicting Short-term Absences of a Railway Crew using Historical Data / Prognoser av korttidsfrånvaro för tågpersonal baserat på historisk data

Transportation via train is considered the most environmentally friendly way of traveling and is widely seen as the future of transportation. Canceled and delayed trains worsen customer satisfaction; thus, punctual trains are crucial for railway companies. One reason for canceled and delayed trains is the shortage of employees due to sickness or care of relatives, known as short-term absences. Therefore, it is important for railway companies to have reliable predictions of these. This thesis is in collaboration with SJ, the largest railway company in Sweden which offers trips all over Sweden and some other parts of northern Europe. The thesis predicts short-term absences with data provided by SJ, by using the machine learning methods random forest and extreme gradient boosting (XGBoost). The aim is to investigate if SJ can use machine learning algorithms and statistical analysis in their absence predictions and if it can yield better results than their current absence prediction methodology. Furthermore, the thesis identifies which factors are most important for the predictions. In addition to this, quantile regression is implemented for both methods since overestimating absenteeism could be better for avoiding employee shortage.  Two different datasets are used for two different tasks; one regression task to predict the number of absent employees on each date and one classification task to predict the probability of an absent employee on a specific duty, and then adding the probabilities to achieve the total predicted number of absent employees on each date. Both task formulations yielded good absence prediction results. XGBoost resulted overall in lower errors than random forest, meaning it was a slightly better model to implement for this task. When comparing the results, the performance for the developed models was better than the current predictions at SJ, meaning machine learning models could benefit SJ's prediction work. / Tågresor anses vara det mest miljövänliga sättet att resa på och betraktas av många som framtidens transportmedel. SJ är Sveriges största järnvägsföretag och erbjuder resor över hela Sverige och delar av norra Europa. Punktliga tåg är en mycket viktig faktor för järnvägsföretag, för att inte ha inställda och försenade tåg som försämrar kundnöjdheten. En orsak till inställda och försenade tåg är brist på personal på grund av sjukdom eller vård av anhöriga, så kallad korttidsfrånvaro. Därför är det viktigt för SJ att ha tillförlitliga prognoser gällande detta. Detta examensarbete försöker förutspå korttidsfrånvaro med data från SJ, genom att använda maskininlärningsmetoderna random forest och extreme gradient boosting (XGBoost). Syftet är att undersöka om SJ kan använda maskininlärningsalgoritmer och statistisk analys i sina frånvaroprognoser och om det kan ge bättre resultat än deras nuvarande prognoser. Vidare identifierar arbetet vilka faktorer som är viktigast för en pålitlig prognos. Utöver detta implementeras kvantilregression för båda metoderna eftersom överskattningar av frånvaro kan vara bättre för att undvika personalbrist. Två olika datamängder används för två olika uppgifter; en regressionsuppgift för att förutspå antalet frånvarande personal varje dag och en klassificeringsuppgift för att förutspå sannolikheten av en frånvarande personal under ett visst arbetspass. Modellen adderar sedan sannolikheterna för att få en prognos av det totala antalet frånvarande personal under varje dag. Båda uppgiftsformuleringarna resulterade i bra sjukprognoser. XGBoost resulterade totalt sett i lägre fel än random forest, vilket betyder att den var en något bättre modell att implementera för detta arbete. Vid en jämförelse av resultaten var prestationen för de utvecklade modellerna bättre än de nuvarande prognoserna hos SJ, vilket innebär att maskininlärningsalgoritmer kan gynna SJ:s prognosarbete.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-327973
Date January 2023
CreatorsBjörnfot, Agnes, Fjelkestam, Sandra
PublisherKTH, Matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2023:048

Page generated in 0.0026 seconds