• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • Tagged with
  • 5
  • 5
  • 5
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.

Deep learning for human motion analysis / Apprentissage automatique de représentations profondes pour l’analyse du mouvement humain

Neverova, Natalia 08 April 2016 (has links)
L'objectif de ce travail est de développer des méthodes avancées d'apprentissage pour l’analyse et l'interprétation automatique du mouvement humain à partir de sources d'information diverses, telles que les images, les vidéos, les cartes de profondeur, les données de type “MoCap” (capture de mouvement), les signaux audio et les données issues de capteurs inertiels. A cet effet, nous proposons plusieurs modèles neuronaux et des algorithmes d’entrainement associés pour l’apprentissage supervisé et semi-supervisé de caractéristiques. Nous proposons des approches de modélisation des dépendances temporelles, et nous montrons leur efficacité sur un ensemble de tâches fondamentales, comprenant la détection, la classification, l’estimation de paramètres et la vérification des utilisateurs (la biométrie). En explorant différentes stratégies de fusion, nous montrons que la fusion des modalités à plusieurs échelles spatiales et temporelles conduit à une augmentation significative des taux de reconnaissance, ce qui permet au modèle de compenser les erreurs des classifieurs individuels et le bruit dans les différents canaux. En outre, la technique proposée assure la robustesse du classifieur face à la perte éventuelle d’un ou de plusieurs canaux. Dans un deuxième temps nous abordons le problème de l’estimation de la posture de la main en présentant une nouvelle méthode de régression à partir d’images de profondeur. Dernièrement, dans le cadre d’un projet séparé (mais lié thématiquement), nous explorons des modèles temporels pour l'authentification automatique des utilisateurs de smartphones à partir de leurs habitudes de tenir, de bouger et de déplacer leurs téléphones. Dans ce contexte, les données sont acquises par des capteurs inertiels embraqués dans les appareils mobiles. / The research goal of this work is to develop learning methods advancing automatic analysis and interpreting of human motion from different perspectives and based on various sources of information, such as images, video, depth, mocap data, audio and inertial sensors. For this purpose, we propose a several deep neural models and associated training algorithms for supervised classification and semi-supervised feature learning, as well as modelling of temporal dependencies, and show their efficiency on a set of fundamental tasks, including detection, classification, parameter estimation and user verification. First, we present a method for human action and gesture spotting and classification based on multi-scale and multi-modal deep learning from visual signals (such as video, depth and mocap data). Key to our technique is a training strategy which exploits, first, careful initialization of individual modalities and, second, gradual fusion involving random dropping of separate channels (dubbed ModDrop) for learning cross-modality correlations while preserving uniqueness of each modality-specific representation. Moving forward, from 1 to N mapping to continuous evaluation of gesture parameters, we address the problem of hand pose estimation and present a new method for regression on depth images, based on semi-supervised learning using convolutional deep neural networks, where raw depth data is fused with an intermediate representation in the form of a segmentation of the hand into parts. In separate but related work, we explore convolutional temporal models for human authentication based on their motion patterns. In this project, the data is captured by inertial sensors (such as accelerometers and gyroscopes) built in mobile devices. We propose an optimized shift-invariant dense convolutional mechanism and incorporate the discriminatively-trained dynamic features in a probabilistic generative framework taking into account temporal characteristics. Our results demonstrate, that human kinematics convey important information about user identity and can serve as a valuable component of multi-modal authentication systems.

A contribution to mouth structure segmentation in images towards automatic mouth gesture recognition

Gómez-Mendoza, Juan Bernardo 15 May 2012 (has links) (PDF)
This document presents a series of elements for approaching the task of segmenting mouth structures in facial images, particularly focused in frames from video sequences. Each stage is treated separately in different Chapters, starting from image pre-processing and going up to segmentation labeling post-processing, discussing the technique selection and development in every case. The methodological approach suggests the use of a color based pixel classification strategy as the basis of the mouth structure segmentation scheme, complemented by a smart pre-processing and a later label refinement. The main contribution of this work, along with the segmentation methodology itself, is based in the development of a color-independent label refinement technique. The technique, which is similar to a linear low pass filter in the segmentation labeling space followed by a nonlinear selection operation, improves the image labeling iteratively by filling small gaps and eliminating spurious regions resulting from a prior pixel classification stage. Results presented in this document suggest that the refiner is complementary to image pre-processing, hence achieving a cumulative effect in segmentation quality. At the end, the segmentation methodology comprised by input color transformation, preprocessing, pixel classification and label refinement, is put to test in the case of mouth gesture detection in images aimed to command three degrees of freedom of an endoscope holder.

Vision-based human motion description and recognition

Kellokumpu, V.-P. (Vili-Petteri) 29 November 2011 (has links)
Abstract This thesis investigates vision based description and recognition of human movements. Automated vision based human motion analysis is a fundamental technology for creating video based human computer interaction systems. Because of its wide range of potential applications, the topic has become an active area of research in the computer vision community. This thesis proposes the use of low level description of dynamics for human movement description and recognition. Two groups of approaches are developed: first, texture based methods that extract dynamic features for human movement description, and second, a framework that considers ballistic dynamics for human movement segmentation and recognition. Two texture based descriptions for human movement analysis are introduced. The first method uses the temporal templates as a preprocessing stage and extracts a motion description using local binary pattern texture features. This approach is then extended to a spatiotemporal space and a dynamic texture based method that uses local binary patterns from three orthogonal planes is proposed. The method needs no accurate segmentation of silhouettes, rather, it is designed to work on image data. The dynamic texture based description is also applied to gait recognition. The proposed descriptions have been experimentally validated on publicly available databases. Psychological studies on human movement indicate that common movements such as reaching and striking are ballistic by nature. Based on the psychological observations this thesis considers the segmentation and recognition of ballistic movements using low level motion features. Experimental results on motion capture and video data show the effectiveness of the method. / Tiivistelmä Tässä väitöskirjassa tutkitaan ihmisen liikkeen kuvaamista ja tunnistamista konenäkömenetelmillä. Ihmisen liikkeen automaattinen analyysi on keskeinen teknologia luotaessa videopohjaisia järjestelmiä ihmisen ja koneen vuorovaikutukseen. Laajojen sovellusmahdollisuuksiensa myötä aiheesta on tullut aktiivinen tutkimusalue konenäön tutkimuksen piirissä. Väitöskirjassa tutkitaan matalan tason piirteiden käyttöä ihmisen liikkeen dynaamiikan kuvaamiseen ja tunnistamiseen. Työssä esitetään kaksi tekstuuripohjaista mentelmää ihmisen liikkeen kuvaamiseen ja viitekehys ballististen liikkeiden segmentointiin ja tunnistamiseen. Työssä esitetään kaksi tekstuuripohjaista menetelmää ihmisen liikkeen analysointiin. Ensimmäinen menetelmä käyttää esikäsittelynä ajallisia kuvamalleja ja kuvaa mallit paikallisilla binäärikuvioilla. Menetelmä laajennetaan myös tila-aika-avaruuteen. Dynaamiseen tekstuuriin perustuva menetelmä irroittaa paikalliset binäärikuviot tila-aika-avaruuden kolmelta ortogonaaliselta tasolta. Menetelmä ei vaadi ihmisen siluetin tarkkaa segmentointia kuvista, koska se on suunniteltu toimimaan suoraan kuvatiedon perusteella. Dynaamiseen tekstuuriin pohjautuvaa menetelmää sovelletaan myös henkilön tunnistamiseen kävelytyylin perusteella. Esitetyt menetelmät on kokeellisesti vahvistettu yleisesti käytetyillä ja julkisesti saatavilla olevilla tietokannoilla. Psykologiset tutkimukset ihmisen liikkumisesta osoittavat, että yleiset liikkeet, kuten kurkoittaminen ja iskeminen, ovat luonteeltaan ballistisia. Tässä työssä tarkastellaan ihmisen liikkeen ajallista segmentointia ja tunnistamista matalan tason liikepiirteistä hyödyntäen psykologisia havaintoja. Kokeelliset tulokset liikkeenkaappaus ja video aineistolla osoittavat menetelmän toimivan hyvin.

A contribution to mouth structure segmentation in images towards automatic mouth gesture recognition / Une contribution à la segmentation structurale d’une image de la bouche par reconnaissance gestuelle automatique

Gómez-Mendoza, Juan Bernardo 15 May 2012 (has links)
Ce travail présente une nouvelle méthodologie pour la reconnaissance automatique des gestes de la bouche visant à l'élaboration d'IHM pour la commande d'endoscope. Cette méthodologie comprend des étapes communes à la plupart des systèmes de vision artificielle, comme le traitement d'image et la segmentation, ainsi qu'une méthode pour l'amélioration progressive de l'étiquetage obtenu grâce à la segmentation. Contrairement aux autres approches, la méthodologie est conçue pour fonctionner avec poses statiques, qui ne comprennent pas les mouvements de la tête. Beaucoup d'interêt est porté aux tâches de segmentation d'images, car cela s'est avéré être l'étape la plus importante dans la reconnaissance des gestes. En bref, les principales contributions de cette recherche sont les suivantes: La conception et la mise en oeuvre d'un algorithme de rafinement d'étiquettes qui dépend d'une première segmentation/pixel étiquetage et de deux paramétres corrélés. Le rafineur améliore la précision de la segmentation indiquée dans l'étiquetage de sortie pour les images de la bouche, il apporte également une amélioration acceptable lors de l'utilisation d'images naturelles. La définition de deux méthodes de segmentation pour les structures de la bouche dans les images; l'une fondée sur les propriétés de couleur des pixels, et l'autre sur des éléments de la texture locale, celles-ci se complétent pour obtenir une segmentation rapide et précise de la structure initiale. La palette de couleurs s'avére particuliérement importante dans la structure de séparation, tandis que la texture est excellente pour la séparation des couleurs de la bouche par rapport au fond. La dérivation d'une procédure basée sur la texture pour l'automatisation de la sélection des paramètres pour la technique de rafinement de segmentation discutée dans la première contribution. Une version améliorée de l'algorithme d'approximation bouche contour présentée dans l'ouvrage de Eveno et al. [1, 2], ce qui réduit le nombre d'itérations nécessaires pour la convergence et l'erreur d'approximation finale. La découverte de l'utilité de la composante de couleur CIE à statistiquement normalisée, dans la différenciation lévres et la langue de la peau, permettant l'utilisation des valeurs seuils constantes pour effectuer la comparaison. / This document presents a series of elements for approaching the task of segmenting mouth structures in facial images, particularly focused in frames from video sequences. Each stage is treated separately in different Chapters, starting from image pre-processing and going up to segmentation labeling post-processing, discussing the technique selection and development in every case. The methodological approach suggests the use of a color based pixel classification strategy as the basis of the mouth structure segmentation scheme, complemented by a smart pre-processing and a later label refinement. The main contribution of this work, along with the segmentation methodology itself, is based in the development of a color-independent label refinement technique. The technique, which is similar to a linear low pass filter in the segmentation labeling space followed by a nonlinear selection operation, improves the image labeling iteratively by filling small gaps and eliminating spurious regions resulting from a prior pixel classification stage. Results presented in this document suggest that the refiner is complementary to image pre-processing, hence achieving a cumulative effect in segmentation quality. At the end, the segmentation methodology comprised by input color transformation, preprocessing, pixel classification and label refinement, is put to test in the case of mouth gesture detection in images aimed to command three degrees of freedom of an endoscope holder.

A Machine Learning Framework for Real-Time Gesture and Skeleton-Based Action Recognition in Unit : Exploring Human-Compute-Interaction in Game Design and Interaction

Moeini, Arian January 2024 (has links)
This master thesis presents a machine learning framework for real-time gesture and skeleton-based action recognition, integrated with the Unity game engine. The system aims to enhance human-computer interaction (HCI) in gaming and 3D related applications through natural movement recognition, by training a model on skeleton tracking data. The framework is trained to accurately categorize and identify gestures such as kicks and punches, enabling a more immersive gaming experience not existing in traditional controllers. After studying the evolution of HCI and how machine learning has transformed and reshaped the interaction paradigm, the prototype system is built through data collection, augmenting, and preprocessing, followed by training and evaluating a Long Short-Term Memory (LSTM) neural network model for gesture classification. The model is integrated into Unity via Unity Sentis using Open Neural Network Exchange (ONNX) format, enabling efficient real-time action recognition in 3D space. Each component of the pipeline is available and adaptable for future custom- ization and needs, skeleton tracking and Unity integration is built using the ZED 2i camera and ZED SDK. Experimental results demonstrate that the system presented can achieve over 90% accuracy in identifying predefined gestures. As a bridging solution tailored for Unity, this framework offers a practical solution to action recognition that could be found useful in future applications. This work contributes to advancing human-computer interaction and offers a foundation for further development in gesture-based Unity game design.

Page generated in 0.1118 seconds