Recovering 3D human motion from monocular video sequences poses a significant challenge in computer vision, particularly when the camera itself is in motion. The ambiguity introduced by dynamic recording setups necessitates methods to lift camera-local 3D human motions into a consistent, global world frame. This thesis proposes a novel, modular approach to monocular multi-person motion capture, combining regression techniques and global optimization for enhanced accuracy. Our pipeline for 3D motion recovery begins with image-based detection to localize multiple human subjects within each frame. We then fit parametric human body models (SMPL) to estimate the subjects’ 3D poses, resulting in camera-local human pose tracks. To recover camera motion, we implement a visual odometry (VO) algorithm. Next, we port a state-of-the-art global motion regression network to initially lift camera-local motions into a fixed world frame. Finally, we apply a global optimization process guided by re-projection quality, motion realism, and motion smoothness to refine the lifted motion estimates within the global 3D world frame. The core contribution of this thesis is the demonstration of the effectiveness of combining global motion regression with optimization in a chained manner. Ablation studies confirm that this hybrid approach yields superior results compared to the isolated use of either regression or optimization techniques. Our experimental results show that the proposed method achieves performance closely aligned with the state-of-the-art in SMPL-based human motion recovery. / Att återställa mänskliga 3D-rörelser från monokulära videosekvenser utgör en betydande utmaning i datorseende, särskilt när själva kameran är i rörelse. Den tvetydighet som introduceras av dynamiska inspelningsinställningar kräver metoder för att lyfta kameralokala 3D-mänskliga rörelser till en konsekvent global världsram. Denna avhandling föreslår ett nytt, modulärt tillvägagångssätt för monokulär multi-person motion capture, som kombinerar regressionstekniker och global optimering för ökad noggrannhet. Vår pipeline för 3D-rörelseåterställning börjar med bildbaserad detektering för att lokalisera flera mänskliga motiv inom varje bildruta. Vi anpassar sedan parametriska mänskliga kroppsmodeller (SMPL) för att uppskatta motivens 3D-poser, vilket resulterar i kameralokala mänskliga poseringsspår. För att återställa kamerarörelser implementerar vi en visuell odometri (VO) algoritm. Därefter portar vi ett toppmodernt globalt rörelseregressionnätverk för att initialt lyfta kameralokala rörelser till en fast världsram. Slutligen tillämpar vi en global optimeringsprocess som styrs av omprojektionskvalitet, rörelserealism och rörelsejämnhet för att förfina de lyfta rörelseuppskattningarna inom den globala 3D-världsramen. Kärnbidraget i denna avhandling är demonstrationen av effektiviteten av att kombinera global rörelseregression med optimering på ett kedjat sätt. Ablationsstudier bekräftar att denna hybridmetod ger överlägsna resultat jämfört med den isolerade användningen av antingen regression eller optimeringsteknik. Våra experimentella resultat visar att den föreslagna metoden uppnår prestanda som är nära anpassade till det senaste inom SMPL-baserad mänsklig rörelseåterhämtning.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-347497 |
Date | January 2024 |
Creators | Charisoudis, Athanasios |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2024:94 |
Page generated in 0.0028 seconds