Return to search

Användning av logistisk regression för att prediktera utfallet i snooker

Syftet med det här arbetet är att undersöka hur väl logistisk regression kan användas för att prediktera vinnaren i en snookermatch. Detta görs med hjälp av statistik över spelarna samt resultat från tidigare matcher och turneringar. En mängd möjliga förklarande variabler presenteras som exempelvis ranking, antal vunna matcher, hemland, typ av turnering, prissumma och omgång (final, semifinal, et cetera). Även tvåvägs-interaktioner mellan variablerna undersöks. Modeller tas fram utifrån hur de presterar i AIC, BIC, residualavvikelse samt Hosmer-Lemeshow-testet. Därefter mäts deras prediktiva förmåga hos ett helt nytt datamaterial med hjälp av noggrannhet, sammanblandningsmatriser och AUC. Resultatet ger flera olika modeller, men den som i slutändan väljs är en modell med bara en förklarande variabel – skillnaden i spelarnas ranking. Modellen hade rätt i sina prediktioner i 60 procent av fallen. Snooker visar sig vara en relativt svårpredikterad sport, jämfört med exempelvis fotboll och hockey, med flera oväntade utfall där den överlägset bättre rankade spelaren förlorade. Modellen är visserligen bättre än vad att godtyckligt gissa vilken spelare som kommer vinna hade presterat, vilket får ses som ett lägsta mått på användbarhet. / This study aims to investigate how well logistic regression can be used to predict the winner in a snooker game. This is done using statistics on the players and results from previous matches and tournaments. A range of possible explanatory variables are presented, such as ranking, number of wins, country, type of tournament, prize money, and round (final, semifinal, et cetera). Two-way interactions between the variables are also examined. Models are developed based on their performance in AIC, BIC, residual deviation, and the Hosmer-Lemeshow test. Then, their predictive ability is measured on an entirely new data set using accuracy, confusion matrices, and AUC. The result produces several different models, but the one ultimately chosen is a model with only one explanatory variable – the difference in the players' rankings. The model was correct in its predictions in 60 per cent of cases. Snooker turns out to be a relatively difficult sport to predict, compared to, for example, football and hockey, with several unexpected outcomes where the significantly better-ranked player lost. The model is at least better than randomly guessing which player would win, which should be seen as the lowest measure of usefulness.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:su-218203
Date January 2023
CreatorsLevenius, Leo G.
PublisherStockholms universitet, Matematiska institutionen
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds