Human gestures, with the spatial-temporal variability, are difficult to be recognized by a generic model or classifier that are applicable for everyone. To address the problem, in this thesis, personalized dynamic gesture recognition approaches are proposed. Specifically, based on Dynamic Time Warping(DTW), a novel concept of Subject Relation Network is introduced to describe the similarity of subjects in performing dynamic gestures, which offers a brand new view for gesture recognition. By clustering or arranging training subjects based on the network, two personalization algorithms are proposed respectively for generative models and discriminative models. Moreover, three basic recognition methods, DTW-based template matching, Hidden Markov Model(HMM) and Fisher Vector combining classification, are compared and integrated into the proposed personalized gesture recognition. The proposed approaches are evaluated on a challenging dynamic hand gesture recognition dataset DHG14/28, which contains the depth images and skeleton coordinates returned by the Intel RealSense depth camera. Experimental results show that the proposed personalized algorithms can significantly improve the performance of basic generative&discriminative models and achieve the state-of-the-art accuracy of 86.2%. / Människliga gester, med spatiala/temporala variationer, är svåra att känna igen med en generisk modell eller klassificeringsmetod. För att komma till rätta med problemet, föreslås personifierade, dynamiska gest igenkänningssätt baserade på Dynamisk Time Warping (DTW) och ett nytt koncept: Subjekt-Relativt Nätverk för att beskriva likheter vid utförande av dynamiska gester, vilket ger en ny syn på gest igenkänning. Genom att klustra eller ordna träningssubjekt baserat på nätverket föreslås två personifieringsalgoritmer för generativa och diskriminerande modeller. Dessutom jämförs och integreras tre grundläggande igenkänningsmetoder, DTW-baserad mall-matchning, Hidden Markov Model (HMM) och Fisher Vector-klassificering i den föreslagna personifierade gestigenkännande ansatsen. De föreslagna tillvägagångssätten utvärderas på ett utmanande, dynamiskt handmanipulerings dataset DHG14/28, som innehåller djupbilderna och skelettkoordinaterna som returneras av Intels RealSense-djupkamera. Experimentella resultat visar att de föreslagna personifierade algoritmerna kan förbättra prestandan i jämfört medgrundläggande generativa och diskriminerande modeller och uppnå den högsta nivån på 86,2%.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-231345 |
Date | January 2018 |
Creators | Wang, Lei |
Publisher | KTH, Medieteknik och interaktionsdesign, MID |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2018:336 |
Page generated in 0.002 seconds