Spelling suggestions: "subject:"kroppsuppskattning"" "subject:"positionsuppskattning""
1 |
Human pose estimation in low-resolution images / Estimering av mänskliga poser i lågupplösta bilderNilsson, Hugo January 2022 (has links)
This project explores the understudied, yet important, case of human pose estimation in low-resolution images. This is done in the use-case of images with football players of known scale in the image. Human pose estimation can mainly be done in two different ways, the bottom-up method and the top-down method. This project explores the bottom-up method, which first finds body keypoints and then groups them to get the person, or persons, within the image. This method is generally faster and has been shown to have an advantage when there is occlusion or crowded scenes, but suffers from false positive errors. Low-resolution makes human pose estimation harder, due to the decreased information that can be extracted. Furthermore, the output heatmap risks becoming too small to correctly locate the keypoints. However, low-resolution human pose estimation is needed in many cases, if the camera has a low-resolution sensor or the person occupies a small portion of the image. Several neural networks are evaluated and, in conclusion, there are multiple ways to improve the current state of the art network HigherHRNet for lower resolution human pose estimation. Maintaining large feature maps through the network turns out to be crucial for low-resolution images and can be achieved by modifying the feature extractor in HigherHRNet. Furthermore, as the resolution decreases, the need for sub-pixel accuracy grows. To improve this, various heatmap encoding-decoding methods are investigated, and by using unbiased data processing, both heatmap encoding-decoding and coordinate system transformation can be improved. / Detta projekt utforskar det understuderade, men ändå viktiga, fallet med uppskattning av mänskliga poser i lågupplösta bilder. Detta görs i användningsområdet av bilder med fotbollsspelare av en förutbestämd storlek i bilden. Mänskliga poseuppskattningar kan huvudsakligen göras på två olika sätt, nedifrån-och-upp- metoden och uppifrån-och-ned-metoden. Detta projekt utforskar nedifrån-och- upp-metoden, som först hittar kroppsdelar och sedan grupperar dem för att få fram personen, eller personerna, i bilden. Denna metod är generellt sett snabbare och har visat sig vara fördelaktig i scenarion med ocklusion eller mycket folk, men lider av falska positiva felaktigheter. Låg upplösning gör uppskattning av mänskliga poser svårare, på grund av den minskade informationen som kan extraheras. Dessutom riskerar färgdiagramet att bli för liten för att korrekt lokalisera kroppsdelarna. Ändå behövs uppskattning av lågupplöst mänskliga poser i många fall, exempelvis om kameran har en lågupplöst sensor eller om personen upptar en liten del av bilden. Flera neurala nätverk utvärderas och sammanfattningsvis finns flera sätt att förbättra det nuvarande toppklassade nätverket HigherHRNet för uppskattning av mänskliga poser med lägre upplösning. Att bibehålla stora särdragskartor genom nätverket visar sig vara avgörande för lågupplösta bilder och kan uppnås genom att modifiera särdragsextraktorn i HigherHRNet. Dessutom, när upplösningen minskar, ökar behovet av subpixel-noggrannhet. För att förbättra detta undersöktes olika färgdiagram-kodning-avkodningsmetoder, och genom att använda opartisk databehandling kan både färgdiagram-kodning-avkodning och koordinatsystemtransformationen förbättras.
|
2 |
Deep Visual Inertial-Aided Feature Extraction Network for Visual Odometry : Deep Neural Network training scheme to fuse visual and inertial information for feature extraction / Deep Visual Inertial-stöttat Funktionsextraktionsnätverk för Visuell Odometri : Träningsalgoritm för djupa Neurala Nätverk som sammanför visuell- och tröghetsinformation för särdragsextraktionSerra, Franco January 2022 (has links)
Feature extraction is an essential part of the Visual Odometry problem. In recent years, with the rise of Neural Networks, the problem has shifted from a more classical to a deep learning approach. This thesis presents a fine-tuned feature extraction network trained on pose estimation as a proxy task. The architecture aims at integrating inertial information coming from IMU sensor data in the deep local feature extraction paradigm. Specifically, visual features and inertial features are extracted using Neural Networks. These features are then fused together and further processed to regress the pose of a moving agent. The visual feature extraction network is effectively fine-tuned and is used stand-alone for inference. The approach is validated via a qualitative analysis on the keypoints extracted and also in a more quantitative way. Quantitatively, the feature extraction network is used to perform Visual Odometry on the Kitti dataset where the ATE for various sequences is reported. As a comparison, the proposed method, the proposed without IMU and the original pre-trained feature extraction network are used to extract features for the Visual Odometry task. Their ATE results and relative trajectories show that in sequences with great change in orientation the proposed system outperforms the original one, while on mostly straight sequences the original system performs slightly better. / Feature extraktion är en viktig del av visuell odometri (VO). Under de senaste åren har framväxten av neurala nätverk gjort att tillvägagångsättet skiftat från klassiska metoder till Deep Learning metoder. Denna rapport presenterar ett kalibrerat feature extraheringsnätverk som är tränat med posesuppskattning som en proxyuppgift. Arkitekturen syftar till att integrera tröghetsinformation som kommer från sensordata i feature extraheringsnätverket. Specifikt extraheras visuella features och tröghetsfeatures med hjälp av neurala nätverk. Dessa features slås ihop och bearbetas ytterligare för att estimera position och riktning av en rörlig kamera. Metoden har undersökts genom en kvalitativ analys av featurepunkternas läge men även på ett mer kvantitativt sätt där VO-estimering på olika bildsekvenser från KITTI-datasetet har jämförts. Resultaten visar att i sekvenser med stora riktningsförändringar överträffar det föreslagna systemet det ursprungliga, medan originalsystemet presterar något bättre på sekvenser som är mestadels raka.
|
3 |
Using pose estimation to support video annotation for linguistic use : Semi-automatic tooling to aid researchers / Användning av poseuppskattning för att stödja videoannoteringsprocessen inom lingvistik : Halvautomatiska verktyg för att underlätta för forskareGerholm, Gustav January 2022 (has links)
Video annotating is a lengthy manual process. A previous research project, MINT, produced a few thousand videos of child-parent interactions in a controlled environment in order to study children’s language development. These videos were filmed across multiple sessions, tracking the same children from the age of 3 months to 7 years. In order to study the gathered material, all these videos have to be annotated with multiple kinds of annotations including transcriptions, gaze of the children, physical distances between parent and child, etc. These annotations are currently far from complete, which is why this project aimed to be a stepping point for the development of semi-automatic tooling in order to aid the process. To do this, state-of-the-art pose estimators were used to process hundreds of videos, creating pseudo-anonymized pose estimations. The pose estimations were then used in order to gauge the distance between the child and parent, and annotate the corresponding frame of the videos. Everything was packaged as a CLI tool. The results of first applying the CLI and then correcting the automatic annotations manually (compared to manually annotating everything) showed a large decrease in overall time taken to complete the annotating of videos. The tool lends itself to further development for more advanced annotations since both the tool and its related libraries are open source. / Videoannotering är en lång manuell process. Ett tidigare forskningsprojekt, MINT, producerade några tusen videor av barn-förälder-interaktioner i en kontrollerad miljö för att studera barns språkutveckling. Dessa videor filmades under flera sessioner och spårade samma barn från 3 månaders ålder till 7 år. För att studera det insamlade materialet måste alla dessa videor annoteras med flera olika typer av taggar inklusive transkriptioner, barnens blick, fysiska avstånd mellan förälder och barn, m.m. Denna annoteringsprocess är för närvarande långt ifrån avslutad, vilket är anledningen till detta projekt syftade till att vara ett första steg för utvecklingen av halvautomatiska verktyg för att underlätta processen. Detta projekt syftade till att semi-automatiskt annotera om ett barn och en förälder, i varje videobild, var inom räckhåll eller utom räckhåll för varandra. För att göra detta användes toppmoderna pose-estimators för att bearbeta hundratals videor, vilket skapade pseudoanonymiserade poseuppskattningar. Poseuppskattningarna användes sedan för att gissa avståndet mellan barnet och föräldern och annotera resultat i motsvarande bildruta för videorna. Allt paketerades som ett CLI-verktyg. Resultaten av att först tillämpa CLI-verktyget och sedan korrigera de automatiska annoteringarna manuellt (jämfört med manuellt annotering av allt) visade en stor minskning av den totala tiden det tog att slutföra annoteringen av videor. Framför allt lämpar sig verktyget för vidareutveckling för mer avancerade taggar eftersom både verktyget och dess relaterade bibliotek är öppen källkod.
|
4 |
Feasibility of Mobile Phone-Based 2D Human Pose Estimation for Golf : An analysis of the golf swing focusing on selected joint angles / Lämpligheten av mobiltelefonbaserad 2D mänskligposeuppskattning i golf : En analys av golfsvingar medfokus på utvalda ledvinklarPerini, Elisa January 2023 (has links)
Golf is a sport where the correct technical execution is important for performance and injury prevention. The existing feedback systems are often cumbersome and not readily available to recreational players. To address this issue, this thesis explores the potential of using 2D Human Pose Estimation as a mobile phone-based swing analysis tool. The developed system allows to identify three events in the swing movement (toe-up, top and impact) and to measure specific angles during these events by using an algorithmic approach. The system focuses on quantifying the knee flexion and primary spine angle during the address, and lateral bending at the top of the swing. By using only the wrist coordinates in the vertical direction, the developed system identified 37% of investigated events, independently of whether the swing was filmed in the frontal of sagittal frame. Within five frames, 95% of the events were correctly identified. Using additional joint coordinates and the event data obtained by the above-mentioned event identification algorithm, the knee flexion at address was correctly assessed in 66% of the cases, with a mean absolute error of 3.7°. The mean absolute error of the primary spine angle measurement at address was of 10.5°. The lateral bending angle was correctly identified in 87% ofthe videos. This system highlights the potential of using 2D Human Pose Estimation for swing analysis. This thesis primarily focused on exploring the feasibility of the approach and further research is needed to expand the system and improve its accuracy. This work serves as a foundation, providing valuable insights for future advancements in the field of 2D Human Pose Estimation-based swing analysis. / Golf är en sport där korrekt tekniskt utförande är avgörande för prestation och skadeförebyggelse. Feedbacksystem som finns är ofta besvärliga och inte lättillgängliga för fritidsspelare. För att åtgärda detta problem undersöker detta examensarbete potentialen att använda 2D mänsklig poseuppskattning som mobiltelefonsbaserat svinganalysverktyg. Det utvecklade systemet gör det möjligt att identifiera tre händelser i svingen (toe-up, top och impact) och att mäta specifika vinklar under dessa händelser genom en algoritmisk metod. Systemet fokuserar på att kvantifiera knäböjningen och primära ryggradsvinkeln under uppställningen, och laterala böjningen vid svingtoppen. Genom att endast använda handledskoordinater i vertikalriktning identifierade det utvecklade systemet 37% av de undersökta händelserna oavsett om svingen filmades från frontal- eller medianplanet. Inom fem bildrutor identifierades 95% av händelserna korrekt. Genom att använda ytterligare ledkoordinater och händelsedata som erhållits genom den tidigare nämnda algoritmen för händelseidentifiering, bedömdes knäböjningen vid uppställningen vara korrekt i 66% av fallen med en medelabsolutfel på 3.7°. Medelabsolutfelet för mätningen av primär ryggradsvinkel vid uppställningen var 10.5°. Laterala böjningen identifierades korrekt i 87% av tillfällena. Detta system belyser potentialen i 2D mänsklig poseuppskattning för svinganalys. Detta examensarbete fokuserade främst på att utforska tillvägagångssättets genomförbarhet och ytterligare forskning behövs för att utveckla systemet och förbättra dess noggrannhet. Detta arbete är grundläggande och ger värdefulla insikter för framtida forskning inom området för svinganalys baserad på 2D mänsklig poseuppskattning.
|
5 |
Accident Reconstruction in Ice Hockey: A Pipeline using Pose and Kinematics Estimation to Personalize Finite Element Human Body Models / Rekonstruktion av olyckor i ishockey: En pipeline som använder pose- och kinematikuppskattning för att anpassa finita element humanmodellerEven, Azilis Emma Sulian January 2024 (has links)
Ice hockey is a sport whose athletes are at high risk for traumatic head injuries due to the violence of potential impacts with other athletes, ice, or glass during games. In order to develop the best protective strategies for the players, it is necessary to have a deep understanding of accident mechanisms during ice hockey games. Accident reconstructions using the finite element (FE) method are a way to perform a systematic analysis of impact cases, but require input data on the circumstances of the accidents. Thus, this project focused on finding a way to extract the position and velocity of the players involved from readily available videos of ice hockey accidents using motion tracking methods. This project included two parts: pose estimation and velocity estimation. The pose estimation aimed to align a human body model (HBM) with the players' poses and the key steps included estimating 2D joints from impact images, estimating the players' 3D poses, skeleton inferencing, and aligning the results with the baseline HBM via pelvic registration. The velocity estimation defined the initial conditions for simulating the collision and key steps included identifying the players' 2D joints across impact video frames, tracking of the players using a simplified pelvis projection on the rink plane, and estimating the players’ velocity using homography to identify their position on the ice hockey rink. Then, both parts were applied to accident cases from a video database of collisions that occurred during a hockey league season. The cases in which the pipeline was fully applied ultimately resulted in LS-DYNA positioning files for the Total Human Model for Safety (THUMS) model, and problematic cases were used to get an overview of the limits of the chosen methodology. Said limitations were mostly linked to the quality of the source videos, which is highly dependent on the source of the videos and possibly not controllable. Due to this, selection criteria are required, such as checking the blurriness and quality of the videos and the viewing angles to ensure as few occlusions as possible. Overall, this project resulted in a working semi-automatic pipeline for pose and velocity estimation in contact sports collisions, as well as a first set of personalized input information that should allow the reconstruction of ice hockey accidents using FE simulations. / Ishockey är en sport vars utövare löper stor risk att drabbas av traumatiska huvudskador på grund av de våldsamma potentiella kollisionerna med andra utövare, is eller glas under matcherna. För att kunna utveckla de bästa skyddsstrategierna för spelarna är det nödvändigt att ha en djup förståelse för olycksmekanismerna under ishockeymatcher. Olycksrekonstruktioner med hjälp av finita elementmetoden är ett sätt att utföra en systematisk analys av kollisionsfall, men kräver indata om omständigheterna kring olyckorna. Detta projekt fokuserade därför på att hitta ett sätt att extrahera de inblandade spelarnas position och hastighet från lättillgängliga videor av ishockeyolyckor med hjälp av rörelsespårningsmetoder. Projektet bestod av två delar: poseuppskattning och hastighetsuppskattning. Poseuppskattningen syftade till att anpassa en humanmodell till spelarnas poser och de viktigaste stegen omfattade uppskattning av 2D-leder från kollisionsbilder, uppskattning av spelarnas 3D-poser, skelettinferens och anpassning av resultaten till baslinjen HBM via bäckenregistrering. Hastighets-uppskattningen definierade de initiala villkoren för simulering av kollisionen och viktiga steg inkluderade identifiering av spelarnas 2D-led i videobilder av kollisionen, spårning av spelarna med hjälp av en förenklad bäckenprojektion på rinkplanet och uppskattning av spelarnas hastighet med hjälp av homografi för att identifiera deras position på ishockeyrinken. Därefter tillämpades båda delarna på olycksfall från en videodatabas med kollisioner som inträffade under en säsong i en hockeyliga. De fall där pipelinen tillämpades fullt ut resulterade slutligen i LS-DYNA-positioneringsfiler, och problematiska fall användes för att få en överblick över gränserna för den valda metoden. Begränsningarna var främst kopplade till kvaliteten på källvideorna, som är starkt beroende av källan till videorna och eventuellt inte kan kontrolleras. På grund av detta krävs urvalskriterier, t.ex. kontroll av videornas oskärpa och kvalitet samt betraktningsvinklar för att säkerställa så få ocklusioner som möjligt. Sammantaget resulterade detta projekt i en fungerande halvautomatisk pipeline för pose- och hastighetsuppskattning vid kollisioner i kontaktsporter, samt en första uppsättning personlig indatainformation som bör möjliggöra rekonstruktion av ishockeyolyckor med hjälp av simulering med finita element.
|
Page generated in 0.0558 seconds