Global ETD Search

1	Entwicklung einer Methode zur Identifikation dreidimensionaler Blickbewegungen in realer und virtueller Umgebung Weber, Sascha 12 August 2016 (has links) (PDF) Das Verständnis über visuelle Aufmerksamkeitsprozesse ist nicht nur für die Kognitionsforschung von großem Interesse. Auch in alltäglichen Bereichen des Lebens stellt sich die Frage, wie wir unsere Umwelt in unterschiedlichen Situationen visuell wahrnehmen. Entsprechende Untersuchungen können in realen Szenarien und aufgrund neuer innovativer 3D-Verfahren auch in Umgebungen der virtuellen Realität (VR) durchgeführt werden. Zur Erforschung von Aufmerksamkeitsprozessen wird unter anderem die Methode der Blickbewegungsmessung (Eyetracking) angewandt, da das Sehen für uns Menschen die wichtigste Sinnesmodalität darstellt. Herkömmliche Blickbewegungsmessungen beziehen sich allerdings überwiegend auf zweidimensionale Messebenen, wie Bildschirm, Leinwand oder Szenevideo. Die vorliegende Arbeit stellt eine Methode vor, mit der dreidimensionale Blickorte und Blickbewegungen sowohl in einer realen als auch in einer stereoskopisch projizierten VR-Umgebung anhand moderner Eyetracking-Technologien bestimmt werden können. Dafür wurde zunächst in Studie I geprüft, ob die Blickbewegungsmessung durch die für eine stereoskopische Bildtrennung notwendigen 3D-Brillen hindurch möglich ist und inwieweit durch diesen Versuchsaufbau die Qualität der erhobenen Eyetracking-Daten beeinflusst wird. Im nächsten Schritt wurde zur Berechnung dreidimensionaler Blickorte das Anforderungsprofil an einen universellen Algorithmus erstellt und mit einem vektorbasierten Ansatz umgesetzt. Die Besonderheit hierbei besteht in der Berechnung der Blickvektoren anhand der Augen- bzw. Foveaposition und binokularen Eyetracking-Daten. Wie genau dreidimensionale Blickorte anhand dieses Algorithmus berechnet werden können, wurde nachfolgend in realer (Studie II) als auch stereoskopisch projizierter VR-Umgebung (Studie III) untersucht. Anschließend erfolgte die Bestimmung dreidimensionaler Blickbewegungen aus den berechneten 3D-Blickorten. Dazu wurde ein ellipsoider Fixationserkennungsalgorithmus konzipiert und implementiert. Für die dispersionsbasierte Blickbewegungserkennung waren sowohl ein zeitlicher als auch örtlicher Parameter für die Identifikation einer Fixation erforderlich. Da es noch keinerlei Erkenntnisse im dreidimensionalen Bereich gab, wurden die in Studie II und III ermittelten 3D-Blickorte der ellipsoiden Fixationserkennung übergeben und die daraus berechneten Fixationsparameter analysiert. Die entwickelte Methode der räumlichen Blickbewegungsmessung eröffnet die Möglichkeit, bislang in zwei Dimensionen untersuchte Blickmuster nunmehr räumlich zu bestimmen und grundlegende Zusammenhänge zwischen Blickbewegungen und kognitiven Prozessen dreidimensional sowohl in einer realen als auch virtuellen Umgebung zu analysieren. 3D Eyetracking Virtual Reality Stereoskopie 3D Blickorte 3D Sakkaden 3D Eye Tracking 3D Gaze Positions 3D Fixations Virtual Reality ddc:153 rvk:CP 2500
2	Entwicklung einer Methode zur Identifikation dreidimensionaler Blickbewegungen in realer und virtueller Umgebung Weber, Sascha 07 July 2016 (has links) Das Verständnis über visuelle Aufmerksamkeitsprozesse ist nicht nur für die Kognitionsforschung von großem Interesse. Auch in alltäglichen Bereichen des Lebens stellt sich die Frage, wie wir unsere Umwelt in unterschiedlichen Situationen visuell wahrnehmen. Entsprechende Untersuchungen können in realen Szenarien und aufgrund neuer innovativer 3D-Verfahren auch in Umgebungen der virtuellen Realität (VR) durchgeführt werden. Zur Erforschung von Aufmerksamkeitsprozessen wird unter anderem die Methode der Blickbewegungsmessung (Eyetracking) angewandt, da das Sehen für uns Menschen die wichtigste Sinnesmodalität darstellt. Herkömmliche Blickbewegungsmessungen beziehen sich allerdings überwiegend auf zweidimensionale Messebenen, wie Bildschirm, Leinwand oder Szenevideo. Die vorliegende Arbeit stellt eine Methode vor, mit der dreidimensionale Blickorte und Blickbewegungen sowohl in einer realen als auch in einer stereoskopisch projizierten VR-Umgebung anhand moderner Eyetracking-Technologien bestimmt werden können. Dafür wurde zunächst in Studie I geprüft, ob die Blickbewegungsmessung durch die für eine stereoskopische Bildtrennung notwendigen 3D-Brillen hindurch möglich ist und inwieweit durch diesen Versuchsaufbau die Qualität der erhobenen Eyetracking-Daten beeinflusst wird. Im nächsten Schritt wurde zur Berechnung dreidimensionaler Blickorte das Anforderungsprofil an einen universellen Algorithmus erstellt und mit einem vektorbasierten Ansatz umgesetzt. Die Besonderheit hierbei besteht in der Berechnung der Blickvektoren anhand der Augen- bzw. Foveaposition und binokularen Eyetracking-Daten. Wie genau dreidimensionale Blickorte anhand dieses Algorithmus berechnet werden können, wurde nachfolgend in realer (Studie II) als auch stereoskopisch projizierter VR-Umgebung (Studie III) untersucht. Anschließend erfolgte die Bestimmung dreidimensionaler Blickbewegungen aus den berechneten 3D-Blickorten. Dazu wurde ein ellipsoider Fixationserkennungsalgorithmus konzipiert und implementiert. Für die dispersionsbasierte Blickbewegungserkennung waren sowohl ein zeitlicher als auch örtlicher Parameter für die Identifikation einer Fixation erforderlich. Da es noch keinerlei Erkenntnisse im dreidimensionalen Bereich gab, wurden die in Studie II und III ermittelten 3D-Blickorte der ellipsoiden Fixationserkennung übergeben und die daraus berechneten Fixationsparameter analysiert. Die entwickelte Methode der räumlichen Blickbewegungsmessung eröffnet die Möglichkeit, bislang in zwei Dimensionen untersuchte Blickmuster nunmehr räumlich zu bestimmen und grundlegende Zusammenhänge zwischen Blickbewegungen und kognitiven Prozessen dreidimensional sowohl in einer realen als auch virtuellen Umgebung zu analysieren. info:eu-repo/classification/ddc/153 ddc:153
3	3D Gaze Estimation on RGB Images using Vision Transformers Li, Jing January 2023 (has links) Gaze estimation, a vital component in numerous applications such as humancomputer interaction, virtual reality, and driver monitoring systems, is the process of predicting the direction of an individual’s gaze. The predominant methods for gaze estimation can be broadly classified into intrusive and nonintrusive approaches. Intrusive methods necessitate the use of specialized hardware, such as eye trackers, while non-intrusive methods leverage images or recordings obtained from cameras to make gaze predictions. This thesis concentrates on appearance-based gaze estimation, specifically within the non-intrusive domain, employing various deep learning models. The primary focus of this study is to compare the efficacy of Vision Transformers (ViTs), a recently introduced architecture, with Convolutional Neural Networks (CNNs) for gaze estimation on RGB images. Performance evaluations of the models are conducted based on metrics such as the angular gaze error, stimulus distance error, and model size. Within the realm of ViTs, two variants are explored: pure ViTs and hybrid ViTs, which combine both CNN and ViT architectures. Throughout the project, both variants are examined in different sizes. Experimental results demonstrate that all pure ViTs underperform in comparison to the baseline ResNet-18 model. However, the hybrid ViT consistently emerges as the best-performing model across all evaluation datasets. Nonetheless, the discussion regarding whether to deploy the hybrid ViT or stick with the baseline model remains unresolved. This uncertainty arises because utilizing an exceedingly large and slow model, albeit highly accurate, may not be the optimal solution. Hence, the selection of an appropriate model may vary depending on the specific use case. / Ögonblicksbedömning, en avgörande komponent inom flera tillämpningar såsom människa-datorinteraktion, virtuell verklighet och övervakningssystem för förare, är processen att förutsäga riktningen för en individs blick. De dominerande metoderna för ögonblicksbedömning kan i stort sett indelas i påträngande och icke-påträngande tillvägagångssätt. Påträngande metoder kräver användning av specialiserad hårdvara, såsom ögonspårare, medan ickepåträngande metoder utnyttjar bilder eller inspelningar som erhållits från kameror för att göra bedömningar av blicken. Denna avhandling fokuserar på utseendebaserad ögonblicksbedömning, specifikt inom det icke-påträngande området, genom att använda olika djupinlärningsmodeller. Studiens huvudsakliga fokus är att jämföra effektiviteten hos Vision Transformers (ViTs), en nyligen introducerad arkitektur, med Convolutional Neural Networks (CNNs) för ögonblicksbedömning på RGB-bilder. Prestandautvärderingar av modellerna utförs baserat på metriker som den vinkelmässiga felbedömningen av blicken, felbedömning av stimulusavstånd och modellstorlek. Inom ViTs-området utforskas två varianter: rena ViTs och hybrid-ViT, som kombinerar både CNN- och ViT-arkitekturer. Under projektet undersöks båda varianterna i olika storlekar. Experimentella resultat visar att alla rena ViTs presterar sämre jämfört med basmodellen ResNet-18. Hybrid-ViT framstår dock konsekvent som den bäst presterande modellen över alla utvärderingsdatauppsättningar. Diskussionen om huruvida hybrid-ViT ska användas eller om man ska hålla sig till basmodellen förblir dock olöst. Denna osäkerhet uppstår eftersom användning av en extremt stor och långsam modell, även om den är mycket exakt, kanske inte är den optimala lösningen. Valet av en lämplig modell kan därför variera beroende på det specifika användningsområdet. 3D Gaze Estimation Vision Transformers (ViTs) Convolutional Neural Networks (CNNs) Multi-Head Attention Red-Green-Blue (RGB) Images 3D Blickriktningsestimering Vision Transformers (ViTs) Konvolutionsneurala Nätverk (CNNs) Multi-Head Attention Röd-Grön-Blå (RGB) Bilder Computer and Information Sciences Data- och informationsvetenskap

1

Page generated in 0.0281 seconds