1 |
Analys av hörnsekvenser i svensk elitfotboll : Gruppering av hörnsekvenser och utvärdering av sannolikhet för skott med logistisk hierarkisk modellstruktur / Analysis of corner sequences in the top Swedish football leagues : Clustering of corner sequences and evaluation of the probability of shot with logistical hierarchical model structureRydström, Sidney, Lindén, Jakob January 2020 (has links)
Sportanalys definieras av Alamar (2013) som användning av historisk data för att applicera modeller som kan ge information till beslutstagare inom en viss organisation. Det ger dem möjlighet att assistera sin organisation för att få en sportslig fördel. I den här studien utförs sportanalys, mer specifikt analyseras hörnsekvenser inom svensk elitfotboll. En hörnsekvens är den sekvens av händelser som sker från att bollen sätts i spel från hörnans startposition tills det att något av följande villkor uppfylls: 8 händelser sker givet att hörnan slås kort 6 händelser sker givet att hörnan slås långt 15 sekunder passerar Försvarande lag tar över bollen Något lag utför ett regelbrott Skott utförs av attackerande lag Datamaterialet som används är framtaget av företaget Wyscout och tillhandahållet av Football Analytics Sweden AB. De ligor och säsonger som betraktas är de svenska herrligorna Allsvenskan och Superettan för säsongerna 2017, 2018 och 2019. I datamaterialet erhålls information om varje händelse som sker under matchen. Utifrån information om händelsen samt koordinater om var händelsen sker framställs variabler som ska kunna beskriva vad som sker inom en hörnsekvens. Syftet med studien är att först identifiera hörnsekvenser med liknande egenskaper och gruppera dem. Utifrån gruppindelningen undersöks sedan sannolikheten för att en hörnsekvens leder till skott samt vad som påverkar sannolikheten. Algoritmen Partitioning Around Medoids (PAM) används med avståndsmåttet Gower och utvärderingsmåttet silhouette för att identifiera följande fem hörnsekvenstyper: Utåtskruvade hörnor från vänsterhörn med tendens mot främre stolpen och relativt nära mållinjen. Inåtskruvade hörnor från vänsterhörn med tendens mot främre stolpen och längre förflyttning ut från mållinjen. Utåtskruvade hörnor från högerhörn med tendens mot främre stolpen och relativt nära mållinjen. Korta varianter som har längre varaktighet, innefattar fler händelser och involverar fler spelare. Inåtskruvade hörnor från högerhörn med tendens mot främre stolpen och längre förflyttning ut från mållinjen. Betraktas förekomsten av skott i datamaterialet givet klusterstrukturen konstateras att hörnsekvenstyp 4 i störst utsträckning lett till skott med förekomsten 19 procent inom klustret. Hörnsekvenstyperna 2 och 5 är något sämre med respektive 18 procent av hörnsekvenserna som lett till skott. Med dessa hörnsekvenstyper i fokus anpassas flera Bayesianska hierarkiska logitmodeller för att undersöka sannolikheten för att en hörnsekvens leder till skott givet de framtagna variablerna. Vid skapandet av modellerna undersöktes om en hierarkisk modellstruktur var behövlig för att undersöka sannolikheten för skott. Slutsatsen blev att det är väsentligt att tillämpa en hierarkisk modellstruktur. Av vald modell så dras slutsatsen att det som påverkar sannolikheten att komma till skott allra mest, med avseende de variabler som undersökts, är antalet händelser som sker i hörnsekvensen. Den hörnsekvenstyp som påverkas mest av antalet händelser är den korta varianten. Det diskuteras om hur det kan vara problematiskt att undersöka den linjära påverkan på log-oddset. Detta eftersom påverkan på sannolikheten för skott inte är densamma för en ökning mellan en och två händelser som mellan tre och fyra händelser. Det är även näst intill omöjligt att komma till skott på första händelsen i hörnsekvensen då händelsen utgörs av att hörnan slås. / Sports analysis is defined by Alamar (2013) as the management of structured historical data, the application of analytical models that utilize that data, and the use of information systems to inform decision makers and enable them to help their organization in gaining a competitive advantage on the field of play. This study focuses on sports analysis, more specifically corner sequences in Swedish elite football. A corner sequence is defined as the sequence of events that occur after the ball have been put into play from the corners start position up until that one of the following conditions are met: 8 events occur given a short corner is played 6 events occur given a long corner is played 15 seconds passes The defending team overtake the ball Some team performs a foul The attacking team performs a shot The data set used comes from Wyscout and is provided by Football Analytics Sweden AB. The data consist of games from the top Swedish football leagues for men: Allsvenskan and Superettan, and consists of games played in the seasons 2017, 2018 and 2019. In the data, information about every event that occur during the game is provided, where all events are classified to provide information about what happens at the specific event. The information about each event and its coordinates is then used produce variables to describe what occurs during a corner sequence. The purpose is to identify corner sequences with similar characteristics and group them together. Then use these groups to examine the probability that a corner sequence leads to a shot, and what influences this probability. The clustering algorithm Partitioning Around Medoids (PAM) is used with Gower as the dissimilarity measure and silhouette to evaluate the clusters, then the five following clusters are identified: Corners curled away from goal from the left corner with a tendency towards the front post and relatively close to the goal line. Corners curled towards goal from the left corner with a tendency towards the front post further away from the goal line. Corner curled away from goal from the right corner with a tendency towards the goal line. Short corner variant with longer duration, more events occurring and more players involved. Corners curled towards goal from the right corner with a tendency towards the front post and further away from the goal line. Given the clustering structure it is noted that the corner sequence of type 4 has led to the greatest extent of shots with the proportion of 19 percent within the cluster. The corner sequences of type 2 and 5 have a slightly lower shot occurrence with 18 percent per corner seqence type. With these corner sequence types in focus, several Hierarchical Bayesian Logistic Regression models are fitted to analyze the probability that a corner sequence leads to a shot given the produced explanatory variables. When fitting the models it is examined if it is necessary to apply a hierarchichal strutcture to the model. The conclusion is drawn that the hierarchical model structure is crucial to the model's performance. The conclusion is drawn from the final model that the explanatory variable which explains the probability to shoot best is the number of events that occur during the corner sequence. The corner sequence type that is most influenced by the number of events that occur during the corner sequence is the short corner variant. In the study it is discussed if there is an issue to suppose that this variable has a linear effect on the log-odds, since the impact on the probability to shoot is not the same for an increase between one and two as three and four events. Furthermore it is near impossible to shoot in the first event that occurs in the corner sequence.
|
Page generated in 0.1366 seconds