There is a growing need for real-time human pose estimation from monocular RGB images in applications such as human computer interaction, assisted living, video surveillance, people tracking, activity recognition and motion capture. For the task, depth sensors and multi-camera systems are usually more expensive and difficult to set up than conventional RGB video cameras. Recent advances in convolutional neural network research have allowed to replace of traditional methods with more efficient convolutional neural network based methods in many computer vision tasks.
This thesis presents a method for real-time multi-person human pose estimation from video by utilizing convolutional neural networks. The method is aimed for use case specific applications, where good accuracy is essential and variation of the background and poses is limited. This enables to use a generic network architecture, which is both accurate and fast.
The problem is divided into two phases: (1) pretraining and (2) fine-tuning. In pretraining, the network is learned with highly diverse input data from publicly available datasets, while in fine-tuning it is trained with application specific data recorded with Kinect.
The method considers the whole system, including person detector, pose estimator and an automatic way to record application specific training material for fine-tuning. The method can be also thought of as a replacement for Kinect, and it can be used for higher level tasks such as gesture control, games, person tracking and action recognition. / Reaaliaikaiselle ihmisen asentojen tunnistamiselle monokulaarisesta RGB kuvasta on kasvava tarve monissa sovelluksissa, kuten ihmisen ja tietokoneen välisessä vuorovaikutuksessa, hoivakodeissa, videovalvonnassa, henkilöiden seurannassa, aktiviteettien tunnistamisessa ja liikkeenkaappauksessa. Kyseiseen tehtävään syvyysanturit ja monikamerajärjestelmät ovat yleensä kalliimpi ja vaikeammin asennettava vaihtoehto kuin tavanomainen videokamera. Viimeaikainen kehitys konvoluutioneuroverkkojen tutkimuksessa on aiheuttanut perinteisten menetelmien korvautumisen suorituskykyisemmillä konvoluutioneuroverkkopohjaisilla menetelmillä monissa tietokonenäön tehtävissä.
Tässä työssä esitellään menetelmä reaaliaikaiseen monen henkilön asennontunnistukseen videosta käyttämällä konvoluutioneuroverkkoja. Menetelmä on tarkoitettu tapauskohtaisiin sovelluksiin, joissa hyvä tarkkuus on välttämätöntä ja muutokset taustoissa ja asennoissa rajallisia. Näissä olosuhteissa on mahdollista käyttää yleiskäyttöistä verkkoarkkitehtuuria, joka on sekä tarkka että nopea.
Ongelma on jaettu kahteen vaiheeseen: (1) esiopetus ja (2) hienosäätö. Esiopetuksessa verkko opetetaan useista julkisesti saatavilla olevista tietokannoista peräisin olevalla monipuolisella datalla. Hienosäädössä verkko opetetaan Kinectillä nauhoitetulla tapauskohtaisella datalla.
Menetelmä ottaa huomioon koko järjestelmän, sisältäen henkilöiden paikannuksen, asentojen tunnistamisen ja automaattisen menetelmän tapauskohtaisen opetusdatan nauhoittamiseen Kinectillä. Menetelmä voidaan myös ajatella Kinectin korvaajana ja sitä voidaan käyttää korkeamman tason tehtäviin, kuten eleohjaukseen, peleihin, henkiöiden seurantaan ja aktiviteettien tunnistamiseen.
Identifer | oai:union.ndltd.org:oulo.fi/oai:oulu.fi:nbnfioulu-201611153036 |
Date | 16 November 2016 |
Creators | Linna, M. (Marko) |
Publisher | University of Oulu |
Source Sets | University of Oulu |
Language | English |
Detected Language | Finnish |
Type | info:eu-repo/semantics/masterThesis, info:eu-repo/semantics/publishedVersion |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess, © Marko Linna, 2016 |
Page generated in 0.0026 seconds