Return to search

Optimizing web camera based eye tracking system : An investigating of the effect of network pruning and image resolution / Optimera webbkamerabaserat ögonspårningssystem : En undersökning av effekten av beskärning och inmatning av olika bildupplösningar

Deep learning has opened new doors to things that were only imaginable before. When it comes to eye tracking, the advances in deep learning have made it possible to predict gaze using the integrated camera that most mobile and desktop devices have nowadays. This has enabled the technique to move from needing advanced eye tracking equipment to being available to everyone with mobile and desktop devices. To make a more accurate gaze prediction more advanced neural network is needed and more computational power. This study investigates how a convolutional neural network used for eye tracking using a desktop web camera could be optimized in terms of computational cost while not compromising the accuracy of the network. In this work, two different methods to decrease the computational cost are investigated and evaluated how it impacts the accuracy, namely pruning and reducing the input image resolution fed to the convolutional neural network. Pruning is when weights in a neural network are removed to make the network sparser. The result shows that pruning works for regression tasks like eye tracking using a desktop web camera without compromising accuracy. When the convolutional neural network is pruned to 80% of its original weights in the convolutional layers, the accuracy improves by 6.8% compared to the same network that has not been pruned. The result also shows that reducing the number of pixels in the input images also improves the accuracy of the neural network. This is investigated further and by injecting noise into the input images used for testing, which shown that the networked trained with a lower resolution image for the face input is more robust to noise than the baseline model. This could be one explanation for the improvement when the face image is downsampled to a lower resolution. It is also shown that a model trained with reduced face and eyes input by a factor of four decreases its computational time by 85.7% compared to a baseline model. / Djuptinlärning har öppnat nya dörrar till saker som bara var tänkbara innan. När det gäller ögonspårning har framstegen inom djupinlärning gjort det möjligt att förutsäga blicken med hjälp av den integrerade kameran som de flesta mobil- och datorenheter har idag. Detta har gjort det möjligt för tekniken att gå från att behöva avancerad ögonspårningsutrustning till att vara tillgänglig till alla med mobil och datorenheter. För att göra en mer exakt ögonspårning behövs mer avancerat neuralt nätverk och mer beräkningskraft. Den här studien undersöker hur ett convolutional neural network som används för ögonspårning med hjälp av dator webbkamera skulle kunna optimeras vad gäller beräkningskostnader men samtidigt inte äventyrar nätverkets noggrannhet. I detta arbete undersöks två olika metoder för att minska beräkningskostnaden och utvärderar hur det påverkar noggrannheten, närmare bestämt beskärning och komprimering av bildupplösningen av bilderna som matas till det neurala nätverket. Beskärning är när vikter i ett neuralt nätverk tas bort för att göra nätverket glesare. Beskärning har, såvitt vi vet, aldrig testats på regressionsuppgifter som ögonspårning på dator. Resultatet visar att beskärning fungerar för regressionsuppgifter som ögonspårning med en dator webbkamera utan att kompromettera med noggrannheten. När det neurala nätverket beskärs till 80% av dess ursprungliga vikter i convolutional lagrena förbättras noggrannheten med 6.8% jämfört med samma nätverk som inte har beskärts. Resultatet visar också att komprimering av bildupplösningen också förbättrar neuralnätets noggrannhet. Detta undersöks vidare och genom att injicera brus i bilderna testbilderna som matas till det neurala nätverket, vilket visade att nätverket som tränats med en reducerad bilder med en faktor fyra är mer robusta vad gäller brus än basmodellen. Detta kan vara en förklaring till förbättringen när bilden på ansiktet komprimeras till en lägre upplösning. Det visas också att en modell som tränats med minskat ansikts- och ögoninmatning med en faktor fyra minskar dess beräkningstid med 85.7% jämfört med en basmodell.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-304824
Date January 2021
CreatorsSvensson, Olle
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2021:670

Page generated in 0.0033 seconds