This project explores the understudied, yet important, case of human pose estimation in low-resolution images. This is done in the use-case of images with football players of known scale in the image. Human pose estimation can mainly be done in two different ways, the bottom-up method and the top-down method. This project explores the bottom-up method, which first finds body keypoints and then groups them to get the person, or persons, within the image. This method is generally faster and has been shown to have an advantage when there is occlusion or crowded scenes, but suffers from false positive errors. Low-resolution makes human pose estimation harder, due to the decreased information that can be extracted. Furthermore, the output heatmap risks becoming too small to correctly locate the keypoints. However, low-resolution human pose estimation is needed in many cases, if the camera has a low-resolution sensor or the person occupies a small portion of the image. Several neural networks are evaluated and, in conclusion, there are multiple ways to improve the current state of the art network HigherHRNet for lower resolution human pose estimation. Maintaining large feature maps through the network turns out to be crucial for low-resolution images and can be achieved by modifying the feature extractor in HigherHRNet. Furthermore, as the resolution decreases, the need for sub-pixel accuracy grows. To improve this, various heatmap encoding-decoding methods are investigated, and by using unbiased data processing, both heatmap encoding-decoding and coordinate system transformation can be improved. / Detta projekt utforskar det understuderade, men ändå viktiga, fallet med uppskattning av mänskliga poser i lågupplösta bilder. Detta görs i användningsområdet av bilder med fotbollsspelare av en förutbestämd storlek i bilden. Mänskliga poseuppskattningar kan huvudsakligen göras på två olika sätt, nedifrån-och-upp- metoden och uppifrån-och-ned-metoden. Detta projekt utforskar nedifrån-och- upp-metoden, som först hittar kroppsdelar och sedan grupperar dem för att få fram personen, eller personerna, i bilden. Denna metod är generellt sett snabbare och har visat sig vara fördelaktig i scenarion med ocklusion eller mycket folk, men lider av falska positiva felaktigheter. Låg upplösning gör uppskattning av mänskliga poser svårare, på grund av den minskade informationen som kan extraheras. Dessutom riskerar färgdiagramet att bli för liten för att korrekt lokalisera kroppsdelarna. Ändå behövs uppskattning av lågupplöst mänskliga poser i många fall, exempelvis om kameran har en lågupplöst sensor eller om personen upptar en liten del av bilden. Flera neurala nätverk utvärderas och sammanfattningsvis finns flera sätt att förbättra det nuvarande toppklassade nätverket HigherHRNet för uppskattning av mänskliga poser med lägre upplösning. Att bibehålla stora särdragskartor genom nätverket visar sig vara avgörande för lågupplösta bilder och kan uppnås genom att modifiera särdragsextraktorn i HigherHRNet. Dessutom, när upplösningen minskar, ökar behovet av subpixel-noggrannhet. För att förbättra detta undersöktes olika färgdiagram-kodning-avkodningsmetoder, och genom att använda opartisk databehandling kan både färgdiagram-kodning-avkodning och koordinatsystemtransformationen förbättras.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-309913 |
Date | January 2022 |
Creators | Nilsson, Hugo |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:45 |
Page generated in 0.003 seconds