Global ETD Search

1	3D Gaze Estimation on RGB Images using Vision Transformers Li, Jing January 2023 (has links) Gaze estimation, a vital component in numerous applications such as humancomputer interaction, virtual reality, and driver monitoring systems, is the process of predicting the direction of an individual’s gaze. The predominant methods for gaze estimation can be broadly classified into intrusive and nonintrusive approaches. Intrusive methods necessitate the use of specialized hardware, such as eye trackers, while non-intrusive methods leverage images or recordings obtained from cameras to make gaze predictions. This thesis concentrates on appearance-based gaze estimation, specifically within the non-intrusive domain, employing various deep learning models. The primary focus of this study is to compare the efficacy of Vision Transformers (ViTs), a recently introduced architecture, with Convolutional Neural Networks (CNNs) for gaze estimation on RGB images. Performance evaluations of the models are conducted based on metrics such as the angular gaze error, stimulus distance error, and model size. Within the realm of ViTs, two variants are explored: pure ViTs and hybrid ViTs, which combine both CNN and ViT architectures. Throughout the project, both variants are examined in different sizes. Experimental results demonstrate that all pure ViTs underperform in comparison to the baseline ResNet-18 model. However, the hybrid ViT consistently emerges as the best-performing model across all evaluation datasets. Nonetheless, the discussion regarding whether to deploy the hybrid ViT or stick with the baseline model remains unresolved. This uncertainty arises because utilizing an exceedingly large and slow model, albeit highly accurate, may not be the optimal solution. Hence, the selection of an appropriate model may vary depending on the specific use case. / Ögonblicksbedömning, en avgörande komponent inom flera tillämpningar såsom människa-datorinteraktion, virtuell verklighet och övervakningssystem för förare, är processen att förutsäga riktningen för en individs blick. De dominerande metoderna för ögonblicksbedömning kan i stort sett indelas i påträngande och icke-påträngande tillvägagångssätt. Påträngande metoder kräver användning av specialiserad hårdvara, såsom ögonspårare, medan ickepåträngande metoder utnyttjar bilder eller inspelningar som erhållits från kameror för att göra bedömningar av blicken. Denna avhandling fokuserar på utseendebaserad ögonblicksbedömning, specifikt inom det icke-påträngande området, genom att använda olika djupinlärningsmodeller. Studiens huvudsakliga fokus är att jämföra effektiviteten hos Vision Transformers (ViTs), en nyligen introducerad arkitektur, med Convolutional Neural Networks (CNNs) för ögonblicksbedömning på RGB-bilder. Prestandautvärderingar av modellerna utförs baserat på metriker som den vinkelmässiga felbedömningen av blicken, felbedömning av stimulusavstånd och modellstorlek. Inom ViTs-området utforskas två varianter: rena ViTs och hybrid-ViT, som kombinerar både CNN- och ViT-arkitekturer. Under projektet undersöks båda varianterna i olika storlekar. Experimentella resultat visar att alla rena ViTs presterar sämre jämfört med basmodellen ResNet-18. Hybrid-ViT framstår dock konsekvent som den bäst presterande modellen över alla utvärderingsdatauppsättningar. Diskussionen om huruvida hybrid-ViT ska användas eller om man ska hålla sig till basmodellen förblir dock olöst. Denna osäkerhet uppstår eftersom användning av en extremt stor och långsam modell, även om den är mycket exakt, kanske inte är den optimala lösningen. Valet av en lämplig modell kan därför variera beroende på det specifika användningsområdet. 3D Gaze Estimation Vision Transformers (ViTs) Convolutional Neural Networks (CNNs) Multi-Head Attention Red-Green-Blue (RGB) Images 3D Blickriktningsestimering Vision Transformers (ViTs) Konvolutionsneurala Nätverk (CNNs) Multi-Head Attention Röd-Grön-Blå (RGB) Bilder Computer and Information Sciences Data- och informationsvetenskap
2	Real-time hand segmentation using deep learning / Hand-segmentering i realtid som använder djupinlärning Favia, Federico January 2021 (has links) Hand segmentation is a fundamental part of many computer vision systems aimed at gesture recognition or hand tracking. In particular, augmented reality solutions need a very accurate gesture analysis system in order to satisfy the end consumers in an appropriate manner. Therefore the hand segmentation step is critical. Segmentation is a well-known problem in image processing, being the process to divide a digital image into multiple regions with pixels of similar qualities. Classify what pixels belong to the hand and which ones belong to the background need to be performed within a real-time performance and a reasonable computational complexity. While in the past mainly light-weight probabilistic and machine learning approaches were used, this work investigates the challenges of real-time hand segmentation achieved through several deep learning techniques. Is it possible or not to improve current state-of-theart segmentation systems for smartphone applications? Several models are tested and compared based on accuracy and processing speed. Transfer learning-like approach leads the method of this work since many architectures were built just for generic semantic segmentation or for particular applications such as autonomous driving. Great effort is spent on organizing a solid and generalized dataset of hands, exploiting the existing ones and data collected by ManoMotion AB. Since the first aim was to obtain a really accurate hand segmentation, in the end, RefineNet architecture is selected and both quantitative and qualitative evaluations are performed, considering its advantages and analysing the problems related to the computational time which could be improved in the future. / Handsegmentering är en grundläggande del av många datorvisionssystem som syftar till gestigenkänning eller handspårning. I synnerhet behöver förstärkta verklighetslösningar ett mycket exakt gestanalyssystem för att tillfredsställa slutkonsumenterna på ett lämpligt sätt. Därför är handsegmenteringssteget kritiskt. Segmentering är ett välkänt problem vid bildbehandling, det vill säga processen att dela en digital bild i flera regioner med pixlar av liknande kvaliteter. Klassificera vilka pixlar som tillhör handen och vilka som hör till bakgrunden måste utföras i realtidsprestanda och rimlig beräkningskomplexitet. Medan tidigare använts huvudsakligen lättviktiga probabilistiska metoder och maskininlärningsmetoder, undersöker detta arbete utmaningarna med realtidshandsegmentering uppnådd genom flera djupinlärningstekniker. Är det möjligt eller inte att förbättra nuvarande toppmoderna segmenteringssystem för smartphone-applikationer? Flera modeller testas och jämförs baserat på noggrannhet och processhastighet. Transfer learning-liknande metoden leder metoden för detta arbete eftersom många arkitekturer byggdes bara för generisk semantisk segmentering eller för specifika applikationer som autonom körning. Stora ansträngningar läggs på att organisera en gedigen och generaliserad uppsättning händer, utnyttja befintliga och data som samlats in av ManoMotion AB. Eftersom det första syftet var att få en riktigt exakt handsegmentering, väljs i slutändan RefineNetarkitekturen och både kvantitativa och kvalitativa utvärderingar utförs med beaktande av fördelarna med det och analys av problemen relaterade till beräkningstiden som kan förbättras i framtiden. Hand Segmentation Semantic Segmentation Deep Learning Convolutional Neural Networks Real-time Augmented Reality Embedded Devices Dataset Transfer Learning Handsegmentering Semantisk Segmentering Djupinlärning Konvolutionsneurala Nätverk Realtid Förstärkt Verklighet Inbäddade Enheter Datauppsättning Transferlärning Elektroteknik och elektronik
3	Ball tracking algorithm for mobile devices Rzechowski, Kamil January 2020 (has links) Object tracking seeks to determine the object size and location in the following video frames, given the appearance and location of the object in the first frame. The object tracking approaches can be divided into categories: online trained trackers and offline trained tracker. First group of trackers is based on handcrafted features like HOG or Color Names. This group is characterised by high inference speed, but struggles from lack of highly deterministic features. On the other hand the second group uses Convolution Neural Networks as features extractors. They generate highly meaningful features, but limit the inference speed and possibility of learning object appearance in the offline phase. The following report investigates the problem of tracking a soccer ball on mobile devices. Keeping in mind the limited computational resources of mobile devices, we propose the fused tracker. At the beginning of the video the simple online trained tracker is fired. As soon as the tracker looses the ball, the more advanced tracer, based on deep neural networks is fired. The fusion allows to speed up the inference time, by using the simple tracker as much as possible, but keeps the tracking success rate high, by using the more advanced tracker after the object is lost by the first tracker. Both quantitative and qualitative experiments demonstrate the validity of this approach. / Objektspårning syftar till att bestämma objektets storlek och plats i följande videoramar, med tanke på objektets utseende och plats i den första bilden. Objektspårningsmetoderna kan delas in i kategorier: online-utbildade trackers och offline-utbildade trackers. Första gruppen av trackers är baserad på handgjorda funktioner som HOG eller Color Names. Denna grupp kännetecknas av hög inferenshastighet, men kämpar från brist på mycket deterministiska egenskaper. Å andra sidan använder den andra gruppen Convolution Neural Networks som funktioner för extrahering. De genererar mycket meningsfulla funktioner, men begränsar sluthastigheten och möjligheten att lära sig objekt i offlinefasen. Följande rapport undersöker problemet med att spåra en fotboll på mobila enheter. Med tanke på de begränsade beräkningsresurserna för mobila enheter föreslår vi den smälta trackern. I början av videon sparkas den enkla utbildade spåraren online. Så snart trackern förlorar bollen avfyras den mer avancerade spåraren, baserad på djupa neurala nätverk. Fusionen gör det möjligt att påskynda inferenstiden genom att använda den enkla trackern så mycket som möjligt, men håller spårningsfrekvensen hög, genom att använda den mer avancerade trackern efter att objektet förlorats av den första trackern. Både kvantitativa och kvalitativa experiment visar att detta tillvägagångssätt är giltigt. Object tracking ball tracking object tracking on mobile devices object tracking on iPhone SiameseFC tracker JustFootball Objektspårning bollspårning objektspårning på mobila enheter objektspårning på iPhone SiameseFC-tracker JustFootball Elektroteknik och elektronik

1

Page generated in 0.0963 seconds