Return to search

Deep learning based ball detector / Djupinlärningsbaserad bolldetektor

Sports analysis that traditional computer vision techniques have long dominated is today getting replaced with more advanced machine learning models. To provide analysis in sports, tracking methods have to be fast and reliable, both for ease of use and for broadcasting systems to deliver data to customers quickly. With the growth of large datasets and the rapid development of Graphics Processing Units (GPUs), machine learning models are getting better and more precise. In football games, efficiently tracking the ball is essential when gathering statistics and performing event detection such as offside or passes. This thesis explores football detection with high-resolution images by extending current Deep- Ball and High-Resolution Net in three ways, using Gaussian labels to tackle inaccurate annotations, encoding temporal information with multi-frame input, and providing context by training on player segmentation masks. The results show that using Gaussian labels can help improve the performance drastically in some cases, especially when assuming that there only exists one ball per image. Using multiple frames proved to detect balls in challenging images, where the corresponding single-frame models failed. After training on player segmentation masks, the models were able to detect players accurately but did not show any significant improvement in terms of ball detection. Surprisingly when comparing DeepBall and High-Resolution Net, the results showed that even though DeepBall consist of far less parameters, it achieves higher performance in many of the cases. / Sportanalys som länge dominerats av traditionella datorseendetekniker ersätts idag med mer avancerade maskininlärningsmodeller. För att tillhandahålla analys inom sport måste metoderna vara snabba och pålitliga både för enkel användning men även för att sportsändningar ska kunna leverera data snabbt till sina kunder. Med tillväxten av stora dataset och den snabba utvecklingen av grafikprocessorer, blir maskininlärningsmodeller bättre och mer exakta. I fotbollsmatcher är det viktigt att effektivt kunna spåra fotbollen för att samla data till exempel för att avgöra om det blev mål eller offside. Denna avhandling undersöker fotbollsdetektering med högupplösta bilder genom att utvidga nuvarande metoder på tre olika sätt: använding av probabilistiska etiketter för att tackla inkorrekta annoteringar, utöka modellerna till att träna på sekventiella bilder i ett försök att lära sig bollens rörelse genom tid och ge kontext genom att lära sig spelares positioner. Resultaten visar att probabilistiska etiketter kan öka prestandan i vissa fall, speciellt under antagandet att det bara finns en boll per bild. Att använda flera sekventiella bilder visade sig kunna hjälpa modellerna i svåra fall där bollen var svår att hitta och där motsvarande modeller som använde sig av en bild misslyckades. Modellerna lyckades lära sig att detektera spelare i bilderna, däremot så ökade detta inte förmågan att detektera bollen.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-304337
Date January 2021
CreatorsHolmberg, Max
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2021:617

Page generated in 0.0017 seconds