This thesis examines how convolutional neural networks can applied to the problem of hand detection and hand pose estimation. Two families of convolutional neural networks are trained, aimed at performing the task of classification or regression. The networks are trained on specialized data generated from publicly available datasets. The algorithms used to generate the specialized data are also disclosed. The main focus has been to investigate the different structural properties of convolutional neural networks, not building optimized hand detection, or hand pose estimation, systems. Experiments revealed, that classifier networks featuring a relatively high number of convolutions offers the highest performance on external validation data. Additionally, shallow classifier networks featuring a relatively low number of convolutions, yields a high classification accuracy on training and testing data, but a very low accuracy on the validation set. This effect uncovers one of the fundamental difficulties in building a hand detection system: The asymmetric classification problem. In further investigation, it is also remarked, that relatively shallow classifier networks probably becomes color sensitive. Furthermore, regressor networks featuring multiscale inputs typically yielded the lowest error, when tasked with computing key-point locations directly from data. It is also revealed, that color data implicitly contain more information, making it easier to compute key-point locations, especially in the image space. However, to be able to derive the color invariant features, deeper regressor networks are required. / I detta examensarbete undersöks hur faltande neuronnät kan användas för detektering av, samt skattning av pose hos, händer. Två familjer av neuronnät tränas, med syftet att utföra klassificering eller regression. Neuronnäten tränas med specialiserad data genererad ur publikt tillgängliga dataset. Algoritmerna för att generera den specialiserade datan presenteras även i sin helhet. Huvudsyftet med arbetet, har varit att undersöka neuronnätens strukturella egenskaper, samt relatera dessa till prestanda, och inte bygga ett färdigt system för handdetektering eller skattning av handpose. Experimenten visade, att neuronnät för klassificering med ett relativt stor antal faltningar ger högst prestanda på valideringsdata. Vidare, så verkar neuronnät för klassificering med relativt litet antal faltningar ge en god prestanda på träning- och testdata, men mycket dålig prestand på valideringsdata. Detta sambandet avslöjar en fundamental svårighet med att träna ett neuronnät för klassificering av händer, nämligen det kraftigt asymmetriska klassificeringsproblemet. I vidare undersökningar visar det sig också, att neuronnät för klassificering med ett relativt litet antal faltningar troligtvis enbart blir färgkänsliga. Experimenten visade också, att neuronnät för regression som använde sig av data i flera skalor gav lägst fel när de skulle beräkna positioner av handmarkörer direkt ur data. Slutligen framkom det, att färgdata, i konstrast till djupdata, implicit innehåller mer information, vilket gör det relativt sett lättare att beräkna markörer, framför allt i det tvådimensionella bildrummet. Dock, för att kunna få fram den implicita informationen, så krävs relativt djupa neuronnät.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-174197 |
Date | January 2015 |
Creators | Knutsson, Adam |
Publisher | KTH, Skolan för datavetenskap och kommunikation (CSC) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0022 seconds