There is ongoing research into building dense correspondence between digital images of objects in the world and estimating the 3D pose of these objects. This is a difficult area to conduct research due to the lack of availability of annotated data. Annotating each pixel is too time-consuming. At the time of this writing, current research has managed to use neural networks to establish a dense pose estimation of human body parts (feet, chest, legs etc.). The aim of this thesis is to investigate if a model can be developed using neural networks to perform dense pose estimation on human feet. The data used in evaluating the model is generated using proprietary tools. Since this thesis is using a custom model and custom dataset, one model will be developed and tested with various experiments to gain an understanding of the different parameters that influence the model’s performance. Experiments showed that a model based on DeepLabV3 is able to achieve a dense pose estimation of feet with a mean error of 1.0cm. The limiting factor for a model’s ability to estimate a dense pose is based on the model’s ability to classify the pixels in an image accurately. It was also shown that discontinuous UV unwrapping greatly reduced the model’s dense pose estimation ability. The results from this thesis should be considered preliminary and need to be repeated multiple times to account for the stochastic nature of training neural networks. / Pågående forskning undersöker hur man kan skapa tät korrespondens mellan digitala bilder av objekt i världen och uppskatta de objektens 3D-pose. Detta är ett svårt område att forska inom på grund av bristen på tillgänglig annoterad data. Att annotera varje pixel är tidskrävande. Vid tiden för detta skrivande har aktuell forskning lyckats använda neurala nätverk för att etablera en tät pose-estimering av mänskliga kroppsdelar (fötter, bröst, ben osv.). Syftet med denna arbete är att undersöka om en modell kan utvecklas med hjälp av neurala nätverk för att utföra dense pose-estimering av mänskliga fötter. Data som används för att utvärdera modellen genereras med hjälp av proprietära verktyg. Eftersom denna arbete använder en anpassad modell och anpassad dataset kommer en modell att utvecklas och testas med olika experiment för att förstå de olika parametrarna som påverkar modellens prestanda. Experiment visade att en modell baserad på DeepLabV3 kan uppnå en dense pose-estimering av fötter med en medelfel på 1,0 cm. Den begränsande faktorn för en modells förmåga att uppskatta en dense pose baseras på modellens förmåga att klassificera pixlarna i en bild korrekt. Det visades också att oregelbunden UV-uppackning avsevärt minskade modellens förmåga att estimera dense pose. Resultaten från denna avhandling bör betraktas som preliminära och behöver upprepas flera gånger för att ta hänsyn till den stokastiska naturen hos träning av neurala nätverk.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-337055 |
Date | January 2023 |
Creators | Sharif, Sharif |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:634 |
Page generated in 0.0022 seconds