This thesis focuses on addressing the limitations of existing human motion prediction models by extending the prediction horizon to very long-term forecasts. The objective is to develop a model that achieves one of the best stable prediction horizons in the field, providing accurate predictions without significant error increase over time. Through the utilization of quantization based models our research successfully achieves the desired objective with the proposed aligned version of Mean Per Joint Position Error. The first of the two proposed models, an attention-based Vector Quantized Variational AutoEncoder, demonstrates good performance in predicting beyond conventional time boundaries, maintaining low error rates as the prediction horizon extends. While slight discrepancies in joint positions are observed, the model effectively captures the underlying patterns and dynamics of human motion, which remains highly applicable in real-world scenarios. Furthermore, our investigation into a correlation-based Vector Quantized Variational AutoEncoder, as an alternative to attention-based one, highlights the challenges in capturing complex relationships and meaningful patterns within the data. The correlation-based VQ-VAE’s tendency to predict flat outputs emphasizes the need for further exploration and innovative approaches to improve its performance. Overall, this thesis contributes to the field of human motion prediction by extending the prediction horizon and providing insights into model performance and limitations. The developed model introduces a novel option to consider when contemplating long-term prediction applications across various domains and sets the foundation for future research to enhance performance in long-term scenarios. / Denna avhandling fokuserar på att hantera begränsningarna i befintliga modeller för förutsägelse av mänskliga rörelser genom att utöka förutsägelsehorisonten till mycket långsiktiga prognoser. Målet är att utveckla en modell som uppnår en av de bästa stabila prognoshorisonterna inom området, vilket ger korrekta prognoser utan betydande felökning över tiden. Genom att använda kvantiseringsbaserade modeller uppnår vår forskning framgångsrikt det önskade målet med den föreslagna anpassade versionen av Mean Per Joint Position Error. Den första av de två föreslagna modellerna, en uppmärksamhetsbaserad Vector Quantized Variational AutoEncoder, visar goda resultat när det gäller att förutsäga bortom konventionella tidsgränser och bibehåller låga felfrekvenser när förutsägelsehorisonten förlängs. Även om små avvikelser i ledpositioner observeras, fångar modellen effektivt de underliggande mönstren och dynamiken i mänsklig rörelse, vilket förblir mycket tillämpligt i verkliga scenarier. Vår undersökning av en korrelationsbaserad Vector Quantized Variational AutoEncoder, som ett alternativ till en uppmärksamhetsbaserad sådan, belyser dessutom utmaningarna med att fånga komplexa relationer och meningsfulla mönster i data. Den korrelationsbaserade VQ-VAE:s tendens att förutsäga platta utdata understryker behovet av ytterligare utforskning och innovativa metoder för att förbättra dess prestanda. Sammantaget bidrar denna avhandling till området för förutsägelse av mänskliga rörelser genom att utöka förutsägelsehorisonten och ge insikter om modellens prestanda och begränsningar. Den utvecklade modellen introducerar ett nytt alternativ att ta hänsyn till när man överväger långsiktiga prediktionstillämpningar inom olika områden och lägger grunden för framtida forskning för att förbättra prestanda i långsiktiga scenarier.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-332418 |
Date | January 2023 |
Creators | González Gudiño, Luis |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:530 |
Page generated in 0.8441 seconds