Motion classification and action localization have rapidly become essential tasks in computer vision and video analytics. In particular, Human Action Recognition (HAR), which has important applications in clinical assessments, activity monitoring, and sports performance evaluation, has drawn a lot of attention in research communities. Nevertheless, the high-dimensional and time-continuous nature of motion data creates non-trivial challenges in action detection and action recognition. In this degree project, on a set of recorded unannotated mixed workouts, we test and evaluate unsupervised and semi-supervised machine learning models to identify the correct location, i.e., a timestamp, of various exercises in videos and to study different approaches in clustering detected actions. This is done by modelling the data via the two-step clustering pipeline using the Bag-of-Visual-Words (BoVW) approach. Moreover, the concept of repetition counting is under consideration as a parallel task. We find that clustering alone tends to produce cluster solutions with a mixture of exercises and is not sufficient to solve the exercise recognition problem. Instead, we use clustering as an initial step to aggregate similar exercises. This allows us to effectively find many repetitions of similar exercises for their further annotation. When combined with a subsequent Support Vector Machine (SVM) classifier, the BoVW concept proved itself, achieving an accuracy score of 95.5% on the labelled subset. Much attention has also been paid to various methods of dimensionality reduction and benchmarking their ability to encode the original data into a lower-dimensional latent space. / Rörelseklassificering och handlingslokalisering har snabbt blivit viktiga uppgifter inom datorseende och videoanalys. I synnerhet har HAR fångat en stor uppmärksamhet i forskarsamhällen, då den har viktiga tillämpningar i kliniska bedömningar, aktivitetsövervakning och utvärdering av sportprestanda.Likväl så skapar den högdimensionella och tidskontinuerliga naturen hos rörelsedata icke-triviala utmaningar i handlingsdetektering och handlingsigenkänning. I detta examensarbete testar vi samt utvärderar oövervakade och semi-övervarakde maskininlärningsmodeller på en samling av inspelade blandade träningspass, som inte är noterade. Detta är för att identifiera den korrekta positionen, d.v.s en tidsstämpel, för olika övningar i videofilmer och för att studera olika tillvägagångssätt för att gruppera upptäckta handlingar. Detta görs genom att modellera data via tvåstegs klustringspipeline, med tillämpning av BoVW-metoden. Som en parallell uppgift övervägs även repetitionsräkning som koncept. Vi finner att kluster enbart tenderar att producera klusterlösningar med en blandning av övningar och är därför inte tillräckligt för att lösa problemet med övningsigenkänning. Istället, använder vi klustring som ett första steg för att sammanställa liknande övningar. Detta gör att vi effektivt kan hitta många upprepningar av liknande övningar för att vidare hantera dess anteckningar. Detta, kombinerad med en efterföljande SVM-klassificerare, visade sig att BoVWkonceptet är mycket effektivt, vilket uppnådde en noggrannhet på 95, 5% på den märkta delmängden. Mycket uppmärksamhet har också ägnats åt olika metoder för dimensionalitetsreduktion och jämförelse av dessa metoders förmåga att koda originaldata till ett dimensionellt lägre latentutrymme.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-322496 |
Date | January 2022 |
Creators | Barysheva, Anna |
Publisher | KTH, Matematik (Avd.) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2022:310 |
Page generated in 0.0021 seconds