Spelling suggestions: "subject:"blickspårning"" "subject:"ögonblickspårning""
1 |
Implementing gaze tracking with a simple web cameraFalke, Martin, Höglund, Lucas January 2019 (has links)
Gaze tracking is a field within computer vision that has a large number of possible areas of application. However, much of the software available for gaze tracking is locked to licenses and/or certain equipment that can be expensive, hard to get a hold of, intrusive for the user, or simply impractical. The research within gaze tracking typically focuses on the theoretical models used to perform the tracking, rather than the software implementation of it. The purpose of this report is to make real-time gaze tracking systems more easily available to the common user and developer. Hence, this thesis explores a possible implementation of gaze tracking using C# in Visual Studio, with the help of a number of different libraries, only using a simple web camera as hardware. Further, the system is analyzed and evaluated by the precision of the subject’s eye movements which is projected on the screen. The resulting system is heavily inaccurate and imprecise but changing and adding a few key software components such as estimating the user’s head pose could vastly improve the accuracy and precision of the system. / Blickspårning är ett fält inom datorseende som har ett stort antal möjliga tilläpmningsområden. Däremot så är mycket av den tillgängliga mjukvaran låst till licenser och/eller viss utrustning som kan vara dyr, svår att få tag på, påträngande, eller helt enkelt opraktisk. Forskningen inom blickspårning fokuserar typiskt sett på den teoretiska modellen som beskriver hur spårningen går till, snarare än hur det implementeras i mjukvara. Syftet med den här rapporten är att skapa ett blickspårningsprogram som körs i realtid för att underlätta och göra det mer tillgängligt för andra användare och utvecklare. Därför utforskar den här uppsatsen ett sätt att implementera blickspårning med C# i Visual Studio, med hjälp av ett antal olika kodbibliotek, och endast en enkel webbkamera som hårdvara. Systemet kommer även att bli analyserat och evaluerat med hänseende till träffsäkerheten i testpersoners ögonrörelse som projiceras på skärmen. Det resulterande systemet har en oerhört låg träffsäkerhet och exakthet, men genom att ändra några nyckelkomponenter i mjukvaran, så som att uppskatta hur användarens huvud är riktat, så kan systemets träffsäkerhet och precision ökas dramatiskt.
|
2 |
Eye Tracking Using a Smartphone Camera and Deep Learning / Blickspårning med mobilkamera och djupinlärningSkowronek, Adam, Kuleshov, Oleksandr January 2020 (has links)
Tracking eye movements has been a central part in understanding attention and visual processing in the mind. Studying how the eyes move and what they fixate on during specific moments has been considered by some to offer a direct way to measure spatial attention. The underlying technology, known as eye tracking, has been used in order to reliably and accurately measure gaze. Despite the numerous benefits of eye tracking, research and development as well as commercial applications have been limited due to the cost and lack of scalability which the technology usually entails. The purpose and goal of this project is to make eye tracking more available to the common user by implementing and evaluating a new promising technique. The thesis explores the possibility of implementing a gaze tracking prototype using a normal smartphone camera. The hypothesis is to achieve accurate gaze estimation by utilizing deep learning neural networks and personalizing them to fit each individual. The resulting prototype is highly inaccurate in its estimations; however, adjusting a few key components such as the neural network initialization weights may lead to improved results. / Att spåra ögonrörelser har varit en central del i att förstå uppmärksamhet och visuell bearbetning i hjärnan. Att studera hur ögonen rör sig och vad de fokuserar på under specifika moment har av vissa ansetts vara ett sätt att mäta visuell uppmärksamhet. Den bakomliggande tekniken, känd som blickspårning, har använts för att pålitligt och noggrant mäta blickens riktning. Trots de fördelar som finns med blickspårning, har forskning och utveckling samt även kommersiella produkter begränsats av kostnaden och oförmågan till skalbarhet som tekniken ofta medför. Syftet och målet med arbetet är att göra blickspårning mer tillgängligt för vardagliga användare genom att implementera och utvärdera en ny lovande teknik. Arbetet undersöker möjligheten att implementera en blickspårningsprototyp genom användning av en vanlig mobilkamera. Hypotesen är att uppnå noggrann blickspårning genom användning av djupinlärning och neuronnät, samt att personalisera dem till att passa den enskilda individen. Den resulterande prototypen är väldigt oprecis i dess uppskattning av blickriktningen, dock kan justeringen av ett fåtal nyckelkomponenter, som initialiseringsvikterna till det neurala nätverket leda till bättre resultat.
|
3 |
Analysis of Eye Tracking Data from Parkinson’s Patients using Machine LearningHöglund, Lucas January 2021 (has links)
Parkinson’s disease is a brain disorder associated with reduced dopamine levels in the brain, affecting cognition and motor control in the human brain. One of the motor controls that can be affected is eye movements and can therefore be critically affected in patients with Parkinson’s disease. Eye movement can be measured using eye trackers, and this data can be used for analyzing the eye movement characteristics in Parkinson’s disease. The eye movement analysis provides the possibility of diagnostics and can therefore lead to further insights into Parkinson’s disease. In this thesis, feature extraction of clinical relevance in diagnosing Parkinson’s patients from eye movement data is studied. We have used an autoencoder (AE) constructed to learn micro and macro-scaled representation for eye movements and constructed three different models. Learning of the AEs was evaluated using the F1 score, and differences were statistically assessed using the Wilcoxon sign rank test. Extracted features from data based on patients and healthy subjects were visualized using t-SNE. Using the extracted features, we have measured differences in features using cosine and Mahalanobis distances. We have furthermore clustered the features using fuzzy c-means. Qualities of the generated clusters were assessed by F1-score, fuzzy partition coefficient, Dunn’s index and silhouette index. Based on successful tests using a test data set of a previous publication, we believe that the network used in this thesis has learned to represent natural eye movement from subjects allowed to move their eye freely. However, distances, visualizations, clustering all suggest that latent representations from the autoencoder do not provide a good separation of data from patients and healthy subjects. We, therefore, conclude that a micro-macro autoencoder does not suit the purpose of generating a latent representation of saccade movements of the type used in this thesis. / Parkinsons sjukdom är en hjärnsjukdom orsakad av minskade dopaminnivåer i hjärnan, vilket påverkar kognition och motorisk kontroll i människans hjärna. En av de motoriska kontrollerna som kan påverkas är ögonrörelser och kan därför vara kritiskt påverkat hos patienter diagnostiserade med Parkinsons sjukdom. Ögonrörelser kan mätas med hjälp av ögonspårare, som i sin tur kan användas för att analysera ögonrörelsens egenskaper vid Parkinsons sjukdom. Ögonrörelseanalysen ger möjlighet till diagnostik och kan därför leda till ytterligare förståelse för Parkinsons sjukdom. I denna avhandling studeras särdragsextraktion av ögonrörelsedata med en klinisk relevans vid diagnos av Parkinsonpatienter. Vi har använt en autoencoder (AE) konstruerad för att lära sig mikro- och makrosackadrepresentation för ögonrörelser och konstruerat tre olika modeller. Inlärning av AE utvärderades med hjälp av F1-poängen och skillnader bedömdes statistiskt med hjälp av Wilcoxon rank test. Särdragsextraktionen visualiserades med t-SNE och med hjälp av resultatet ifrån särdragsextraktion har vi mätt skillnader med cosinus- och Mahalanobis- avstånd. Vi har dessutom grupperat resultatet ifrån särdragsextraktionen med fuzzy c-means. Kvaliteten hos de genererade klusterna bedömdes med F1- poäng, suddig fördelningskoefficient, Dunns index och silhuettindex.Sammanfattningsvis finner vi att en mikro-makro-autokodare inte passar syftet med att analysera konstgjorda ögonrörelsesdata. Vi tror att nätverket som används i denna avhandling har lärt sig att representera naturlig ögonrörelse ifrån en person som fritt får röra sina ögon.
|
4 |
Optimizing web camera based eye tracking system : An investigating of the effect of network pruning and image resolution / Optimera webbkamerabaserat ögonspårningssystem : En undersökning av effekten av beskärning och inmatning av olika bildupplösningarSvensson, Olle January 2021 (has links)
Deep learning has opened new doors to things that were only imaginable before. When it comes to eye tracking, the advances in deep learning have made it possible to predict gaze using the integrated camera that most mobile and desktop devices have nowadays. This has enabled the technique to move from needing advanced eye tracking equipment to being available to everyone with mobile and desktop devices. To make a more accurate gaze prediction more advanced neural network is needed and more computational power. This study investigates how a convolutional neural network used for eye tracking using a desktop web camera could be optimized in terms of computational cost while not compromising the accuracy of the network. In this work, two different methods to decrease the computational cost are investigated and evaluated how it impacts the accuracy, namely pruning and reducing the input image resolution fed to the convolutional neural network. Pruning is when weights in a neural network are removed to make the network sparser. The result shows that pruning works for regression tasks like eye tracking using a desktop web camera without compromising accuracy. When the convolutional neural network is pruned to 80% of its original weights in the convolutional layers, the accuracy improves by 6.8% compared to the same network that has not been pruned. The result also shows that reducing the number of pixels in the input images also improves the accuracy of the neural network. This is investigated further and by injecting noise into the input images used for testing, which shown that the networked trained with a lower resolution image for the face input is more robust to noise than the baseline model. This could be one explanation for the improvement when the face image is downsampled to a lower resolution. It is also shown that a model trained with reduced face and eyes input by a factor of four decreases its computational time by 85.7% compared to a baseline model. / Djuptinlärning har öppnat nya dörrar till saker som bara var tänkbara innan. När det gäller ögonspårning har framstegen inom djupinlärning gjort det möjligt att förutsäga blicken med hjälp av den integrerade kameran som de flesta mobil- och datorenheter har idag. Detta har gjort det möjligt för tekniken att gå från att behöva avancerad ögonspårningsutrustning till att vara tillgänglig till alla med mobil och datorenheter. För att göra en mer exakt ögonspårning behövs mer avancerat neuralt nätverk och mer beräkningskraft. Den här studien undersöker hur ett convolutional neural network som används för ögonspårning med hjälp av dator webbkamera skulle kunna optimeras vad gäller beräkningskostnader men samtidigt inte äventyrar nätverkets noggrannhet. I detta arbete undersöks två olika metoder för att minska beräkningskostnaden och utvärderar hur det påverkar noggrannheten, närmare bestämt beskärning och komprimering av bildupplösningen av bilderna som matas till det neurala nätverket. Beskärning är när vikter i ett neuralt nätverk tas bort för att göra nätverket glesare. Beskärning har, såvitt vi vet, aldrig testats på regressionsuppgifter som ögonspårning på dator. Resultatet visar att beskärning fungerar för regressionsuppgifter som ögonspårning med en dator webbkamera utan att kompromettera med noggrannheten. När det neurala nätverket beskärs till 80% av dess ursprungliga vikter i convolutional lagrena förbättras noggrannheten med 6.8% jämfört med samma nätverk som inte har beskärts. Resultatet visar också att komprimering av bildupplösningen också förbättrar neuralnätets noggrannhet. Detta undersöks vidare och genom att injicera brus i bilderna testbilderna som matas till det neurala nätverket, vilket visade att nätverket som tränats med en reducerad bilder med en faktor fyra är mer robusta vad gäller brus än basmodellen. Detta kan vara en förklaring till förbättringen när bilden på ansiktet komprimeras till en lägre upplösning. Det visas också att en modell som tränats med minskat ansikts- och ögoninmatning med en faktor fyra minskar dess beräkningstid med 85.7% jämfört med en basmodell.
|
5 |
Gaze tracking using Recurrent Neural Networks : Hardware agnostic gaze estimation using temporal features, synthetic data and a geometric modelMalmberg, Fredrik January 2022 (has links)
Vision is an important tool for us humans and significant effort has been put into creating solutions that let us measure how we use it. Most common among the techniques to measure gaze direction is to use specialised hardware such as infrared eye trackers. Recently, several Convolutional Neural Network (CNN) based architectures have been suggested yielding impressive results on single Red Green Blue (RGB) images. However, limited research has been done around whether using several sequential images can lead to improved tracking performance. Expanding this research to include low frequency and low quality RGB images can further open up the possibility to improve tracking performance for models using off-the-shelf hardware such as web cameras or smart phone cameras. GazeCapture is a well known dataset used for training RGB based CNN models but it lacks sequences of images and natural eye movements. In this thesis, a geometric gaze estimation model is introduced and synthetic data is generated using Unity to create sequences of images with both RGB input data as well as ground Point of Gaze (POG). To make these images more natural appearing domain adaptation is done using a CycleGAN. The data is then used to train several different models to evaluate whether temporal information can increase accuracy. Even though the improvement when using a Gated Recurrent Unit (GRU) based temporal model is limited over simple sequence averaging, the network achieves smoother tracking than a single image model while still offering faster updates over a saccade (eye movement) compared to averaging. This indicates that temporal features could improve accuracy. There are several promising future areas of related research that could further improve performance such as using real sequential data or further improving the domain adaptation of synthetic data. / Synen är ett viktigt sinne för oss människor och avsevärd energi har lagts ner på att skapa lösningar som låter oss mäta hur vi använder den. Det vanligaste sättet att göra detta idag är att använda specialiserad hårdvara baserad på infrarött ljus för ögonspårning. På senare tid har maskininlärning och modeller baserade på CNN uppnått imponerande resultat för enskilda RGB-bilder men endast begränsad forskning har gjorts kring huruvida användandet av en sekvens av högupplösta bilder kan öka prestandan för dessa modeller ytterligare. Genom att uttöka denna till bildserier med lägre frekvens och kvalitet kan det finnas möjligheter att förbättra prestandan för sekventiella modeller som kan använda data från standard-hårdvara såsom en webbkamera eller kameran i en vanlig telefon. GazeCapture är ett välkänt dataset som kan användas för att träna RGB-baserade CNN-modeller för enskilda bilder. Dock innehåller det inte bildsekvenser eller bilder som fångar naturliga ögonrörelser. För att hantera detta tränades de sekventiella modellerna i denna uppsats med data som skapats från 3D-modeller i Unity. För att den syntetiska datan skulle vara jämförbar med riktiga bilder anpassades den med hjälp av ett CycleGAN. Även om förbättringen som uppnåddes med sekventiella GRU-baserade modeller var begränsad jämfört med en modell som använde medelvärdet för sekvensen så uppnådde den tränade sekventiella modellen jämnare spårning jämfört med enbildsmodeller samtidigt som den uppdateras snabbare vid en sackad (ögonrörelse) än medelvärdesmodellen. Detta indikerar att den tidsmässiga information kan förbättra ögonspårning även för lågfrekventa bildserier med lägre kvalitet. Det finns ett antal intressanta områden att fortsätta undersöka för att ytterligare öka prestandan i liknande system som till exempel användandet av större mängder riktig sekventiell data eller en förbättrad domänanpassning av syntetisk data.
|
6 |
3D Gaze Estimation on Near Infrared Images Using Vision Transformers / 3D Ögonblicksuppskattning på Nära Infraröda Bilder med Vision TransformersVardar, Emil Emir January 2023 (has links)
Gaze estimation is the process of determining where a person is looking, which has recently become a popular research area due to its broad range of applications. For example, tools that estimate gaze are used for research, medical diagnosis, virtual and augmented reality, driver assistance system, and many more. Therefore, better products are sought by many. Gaze estimation methods typically use images of only the eyes or the whole face to estimate the gaze since these methods are the most practical and convenient options. Recently, Convolutional Neural Networks (CNNs) have been appealing candidates for estimating the gaze. Nevertheless, the recent success of Vision Transformers (ViTs) in image classification tasks has introduced a new potential alternative. Hence, this work investigates the potential of using ViTs to estimate the gaze on Near-Infrared (NIR) images. This is done in terms of average error and computational complexity. Furthermore, this work examines not only pure ViTs but other models, such as hybrid ViTs and CNN-Formers, which combine CNNs and ViTs. The empirical results showed that hybrid ViTs are the only models that can outperform state-of-the-art CNNs such as MobileNetV2 and ResNet-18 while maintaining similar computational complexity to ResNet-18. The results on hybrid ViTs indicate that the convolutional stem is the most crucial part of them. Improved convolutional stems lead to better outcomes. Moreover, in this work, we defined a new training algorithm for hybrid ViTs, the hybrid Data-Efficient Image Transformer (DeiT) procedure, which has shown remarkable results. It is 3.5% better than the pretrained ResNet-18 while having the same time complexity. / Blickuppskattning är processen att uppskatta en persons blick, vilket nyligen har blivit ett populärt forskningsområde på grund av dess breda användningsområde. Till exempel, verktyg för blickuppskattning används inom forskning, medicinsk diagnos, virtuell och förstärkt verklighet, förarassistanssystem och för mycket mer. Därför, bättre produkter för blickuppskattning eftersträvas av många. Blickuppskattnings metoder vanligtvis använder bilder av endast ögonen eller hela ansiktet för att uppskatta blicken eftersom denna typen av metoder är de mest praktiska och lämliga alternativ. På sistånde har Convolutional Neural Networks (CNNs) varit tilltalande kandidater för att uppskatta blicken. Dock, har den senaste framgången med Vision Transformers (ViTs) i bildklassificeringsuppgifter introducerat ett nytt potentiellt alternativ. Därför undersöker detta arbete potentialen av att använda ViTs för att uppskatta blicken på Nära-infraröda (NIR) bilder. Undersökningen görs både i termer av medelfel och beräkningskomplexitet. Hursomhelst, detta arbete undersöker inte enbart rena ViTs utan andra modeller, som hybrida ViTs och CNN-Formers, som kombinerar CNNs och ViTs. De empiriska resultaten visade att hybrida ViTs är de enda modellerna som kan överträffa toppmoderna CNNs som MobileNetV2 och ResNet-18 samtidigt som de bibehåller liknande beräkningskomplexitet som ResNet-18. Resultaten på hybrida ViTs indikerar att faltningsstammen är den mest avgörande delen av dem. Det vill säga, desto bättre faltningsstamm en har desto bättre resultat kan man erhålla. Dessutom definierade vi i detta arbete en ny träningsalgoritm för hybrida ViTs, vilket vi kallar hybrida Data-Efficient Image Transformer (DeiT) procedur som har visat anmärkningsvärda resultat. Den är 3,5% bättre än den förtränade ResNet-18 samtidigt som den har samma tid komplexitet.
|
Page generated in 0.3709 seconds