Spelling suggestions: "subject:"reconnaissance dde gestes"" "subject:"reconnaissance dee gestes""
1 |
Dynamic hand gesture recognition : from traditional handcrafted to recent deep learning approaches / Reconnaissance de gestes dynamiques de la main : des méthodes traditionnelles aux récentes avancées en apprentissage profondDe Smedt, Quentin 14 December 2017 (has links)
Les gestes de la main sont le moyen de communication non verbal le plus naturel et le plus intuitif lorsqu'il est question d'interaction avec un ordinateur. L'analyse des gestes de la main s'appuie sur l'estimation de la pose de la main et la reconnaissance de gestes. L'estimation de la pose de la main est considérée comme un défi difficile du fait de la petite taille d'une main, de sa plus grande complexité et de ses nombreuses occultations. Par ailleurs, le développement d'un système de reconnaissance des gestes est également difficile du fait des grandes dissimilarités entre les gestes dérivant de facteurs ad-hoc, culturels et/ou individuels inhérents aux acteurs. Nous proposons un système pour représenter les gestes de la main en utilisant des descripteurs de forme et de mouvement calculés sur des squelettes de main 3D. De plus, nous proposons une base de données de gestes de mains dynamiques contenant 14 types de gestes. Les résultats montrent une utilisation prometteuse des données de squelette pour reconnaître des gestes de main. Dans un second temps, nous étendons l'étude de l'analyse des gestes de main à une reconnaissance en ligne. En utilisant une approche d'apprentissage profond, nous employons une stratégie de transfert d'apprentissage afin d’entraîner des caractéristiques de pose et de forme de la main à partir d'images de profondeur d'une base de données crée à l'origine pour un problème d'estimation de la pose de la main. Nous modélisons ensuite les variations temporelles des poses de la main et de ses formes grâce à une méthode d'apprentissage profond récurrente. Enfin, les deux informations sont fusionnées pour détecter et reconnaître des gestes de main. / Hand gestures are the most natural and intuitive non-verbal communication medium while using a computer, and related research efforts have recently boosted interest. The area of hand gesture analysis covers hand pose estimation and gesture recognition. Hand pose estimation is considered to be more challenging than other human part estimation due to the small size of the hand, its greater complexity and its important self occlusions. Beside, the development of a precise hand gesture recognition system is also challenging due to high dissimilarities between gestures derived from ad-hoc, cultural and/or individual factors of users. First, we propose an original framework to represent hand gestures by using hand shape and motion descriptors computed on 3D hand skeletal features. Additionally, we create the Dynamic Hand Gesture dataset containing 14 gesture types. Evaluation results show the promising way of using hand skeletal data to perform hand gesture recognition. Then, we extend the study of hand gesture analysis to online recognition. Using a deep learning approach, we employ a transfer learning strategy to learn hand posture and shape features from depth image dataset originally created for hand pose estimation. Second, we model the temporal variations of the hand poses and its shapes using a recurrent deep learning technology. Finally, both information are merged to perform accurate prior detection and recognition of hand gestures. Experiments on two datasets demonstrate that the proposed approach is capable to detect an occurring gesture and to recognize its type far before its end.
|
2 |
Reconnaissance d'activités de base à l'aide de réseaux bayésiens dans le cadre d'un habitat intelligent en télésantéDescheneaux, Céline 01 1900 (has links) (PDF)
La proportion des personnes âgées au sein de notre société ne cesse d'augmenter à un rythme régulier. Ce phénomène, qui est partiellement explicable par les effets combinés d'une baisse du taux de natalité avec ceux d'une augmentation de l'espérance de vie, commence déjà à avoir un effet notable sur le système de la santé, tant au Canada qu'ailleurs dans le monde, et à soulever plusieurs questions d'ordre éthique, social, médical et économique. Le maintien à domicile le plus longtemps possible, dans des conditions sécuritaires pour l'occupant, est de loin préférable à l'institutionnalisation en milieu spécialisé. Par contre, comme le vieillissement va de pair avec plusieurs types de maladies, comment arriver à favoriser le maintien à domicile de nos aînés en perte d'autonomie cognitive? Nous croyons que les habitats intelligents en télé santé peuvent répondre en partie à cette question. Afin d'être «intelligents», de tels habitats devront être en mesure de déduire correctement les tâches que l'occupant effectue et, éventuellement, d'apprendre ses habitudes de vie. L'utilisation d'une combinaison de capteurs non invasifs (choisis en tenant compte de plusieurs considérations éthiques dont le respect de la vie privée et de la dignité de l'individu) et d'un module de reconnaissance d'activités basé sur les réseaux bayésiens devraient permettre à l'habitat intelligent de déterminer quelle AVQ (Activité de la Vie Quotidienne) et/ou quelle AIVQ (Activité Instrumentale à la Vie Quotidienne) l'occupant effectue. Un système complet de reconnaissance d'activité devrait, une fois complètement opérationnel, être en mesure non seulement de détecter les situations anormales et d'agir en conséquence, mais aussi de faire ressortir les changements inattendus dans la routine habituelle de l'occupant (ses habitudes de vie) pouvant indiquer un déclin des facultés cognitives de ce dernier ou l'apparition d'une nouvelle pathologie comme la diarrhée ou l'insomnie. Notre travail se concentre sur la reconnaissance d'un certain nombre d'activités pouvant être effectuées dans la salle de bain. Pour ce faire, nous utilisons des réseaux bayésiens spécialisés qui déduisent, en fonction des interactions de l'occupant avec son environnement, quelle est l'activité la plus probablement en cours.
______________________________________________________________________________
MOTS-CLÉS DE L’AUTEUR : Habitat intelligent, reconnaissance d'activité, habitudes de vie, réseaux bayésiens, perte d'autonomie, vieillissement, apprentissage, AVQ, «Aging in Place»
|
3 |
Reconnaissance de la Langue Française Parlée Complété (LPC) : décodage phonétique des gestes main-lèvres.Aboutabit, Noureddine 11 December 2007 (has links) (PDF)
La Langue Française Parlée Complétée (LPC) héritée du Cued Speech (CS) a été conçue pour compléter la lecture labiale par nature ambigüe et ainsi améliorer la perception de la parole par les sourds profonds. Dans ce système, le locuteur pointe des positions précises sur le côté de son visage ou à la base du cou en présentant de dos des formes de main bien définies. La main et les lèvres portent chacune une partie complémentaire de l'information phonétique. Cette thèse présente tout d'abord une modélisation du flux manuel pour le codage automatique des positions de la main et de la configuration. Puis les travaux sont centrés sur le flux labial en discutant la classification des voyelles et des consonnes du Français. Le flux labial est composé des variations temporelles de paramètres caractéristiques issus du contour interne et externe des lèvres. Dans le cas des voyelles la méthode de classification utilise la modélisation gaussienne et les résultats montrent une performance moyenne de 89 % en fonction de la position de la main LPC. Le contexte vocalique est pris en compte dans le cas des consonnes par une modélisation HMM de la transition labiale de la consonne vers la voyelle avec un taux d'identification de 80 % en termes de visèmes CV. Un modèle de fusion « Maître-Esclave » piloté par le flux manuel est présenté et discuté dans le cadre de la reconnaissance des voyelles et des consonnes produites en contexte LPC. Le modèle de fusion prend en compte les contraintes temporelles de la production et la perception du LPC, ce qui constitue aussi une première contribution à la modélisation du système LPC du point de vue perceptif.
|
4 |
Vues Multiples non-calibrées : Applications et MéthodologiesCarrasco, Miguel 25 January 2010 (has links) (PDF)
La recherche de modèles d'intérêt contenus dans des s'séquences de vues multiples d'une scène reste l'un des principaux problèmes de la vision par ordinateur actuellement. En dépit des grands progrès observés au cours des 40 dernières années, la vision par ordinateur ne parvient pas encore à répondre adéquatement quant à la manière d'inférer et de détecter des modèles d'intérêt dans des scènes pour lesquelles un ou plusieurs objet(s) sont vus depuis différents points de vue. Afin de surmonter ce problème, cette thèse propose de nouveaux algorithmes et prototypes capables de caractériser, d'inférer et de détecter des modèles d'intérêt en séquences avec des vues multiples de manière non calibrée, c'est-'a-dire sans connaissance à priori de la position du/des objet(s) par rapport ła (aux) caméra(s). Le travail réalisé s'articule autour de trois axes, divis'es en six articles qui constituent le corps de la thèse. (1) L'analyse de correspondances point par point à travers de marqueurs explicites et implicites sur les objets. (2) L'estimation de correspondances point par point 'a travers de multiples relations géométriques indépendantes du/des objet(s) qui composent la scène. (3) La prédiction du flux dynamique du déplacement généré par le mouvement de la caméra autour de l'objet. L'objectif principal de cette thèse est d'appuyer la prise de décision 'a travers d'une analyse dynamique et/ou géométrique du mouvement du/des objet(s) ou de la (des) caméra(s) pendant que ceux-ci se déplacent. Grâce à cette analyse, il est possible d'accroitre l'information sur la scène et l'(les) objet(s) 'a travers d'un processus inférentiel spécifique pour chaque cas. Il ressort des thématiques exposées qu'il est possible, par exemple, d'assister le processus d'inspection réalisé par un opérateur humain, de déterminer la qualité d'un produit de manière autonome, ou d'exécuter une action spécifique dans un acteur robotique. Bien que ces thématiques présentent des approches différentes, celles-ci ont le même ensemble de pas en ce qui concerne: (1) la détermination de la relation de correspondance de points ou de régions sur plusieurs images, (2) la détermination de la relation géométrique et/ou dynamique existante entre les correspondances estimées précédemment, (3) l'inférence de nouvelles relations sur les points dont la correspondance est inconnue en vue de caractériser le mouvement. Les variations les plus fortes correspondent 'a la manière dont la correspondance est estimée; au calcul de la dynamique et la géométrie entre les points correspondants; et enfin 'a la manière dont nous inférons une action particulière suite 'a un mouvement spécifique. Parmi les principaux résultats, on trouve le développement d'une méthodologie d'inspection non calibrée 'a vues multiples appliquée 'a l'analyse de la qualité des jantes de véhicules, le développement d'un prototype fonctionnel appliqué à l'inspection des cols de bouteilles de vin, une méthodologie de correspondance point par point géométrique capable de résoudre le problème de correspondance en deux et trois vues pour tout point d'intérêt, et enfin la reconnaissance de l'intention humaine pour les tâches de 'grasping' 'a travers de l'analyse du mouvement des yeux et de la main. 'A l'avenir, il restera encore 'a analyser les correspondances dynamiques 'a travers de caractéristiques invariantes, employer des méthodes d'analyse géométriques en séquences d'images radiologiques, et utiliser des modèles de détection d'intentions pour évaluer la qualité des objets.
|
5 |
Upper body tracking and Gesture recognition for Human-Machine InteractionRenna, I. 11 May 2012 (has links) (PDF)
Les robots sont des agents artificiels qui peuvent agir dans le monde des humains grâce aux capacités de perception. Dans un contexte d'interaction homme-robot, les humains et les robots partagent le même espace de communication. En effet, les robots compagnons sont censés communiquer avec les humains d'une manière naturelle et intuitive: l'une des façons les plus naturelles est basée sur les gestes et les mouvements réactifs du corps. Pour rendre cette interaction la plus conviviale possible, un robot compagnon doit, donc, être doté d'une ou plusieurs capacités lui permettant de percevoir, de reconnaître et de réagir aux gestes humains. Cette thèse a été focalisée sur la conception et le développement d'un système de reconnaissance gestuelle dans un contexte d'interaction homme-robot. Ce système comprend un algorithme de suivi permettant de connaître la position du corps lors des mouvements et un module de niveau supérieur qui reconnaît les gestes effectués par des utilisateurs humains. De nouvelles contributions ont été apportées dans les deux sujets. Tout d'abord, une nouvelle approche est proposée pour le suivi visuel des membres du haut du corps. L'analyse du mouvement du corps humain est difficile, en raison du nombre important de degrés de liberté de l'objet articulé qui modélise la partie supérieure du corps. Pour contourner la complexité de calcul, chaque membre est suivi avec un filtre particulaire à recuit simulé et les différents filtres interagissent grâce à la propagation de croyance. Le corps humain en 3D est ainsi qualifié comme un modèle graphique dans lequel les relations entre les parties du corps sont représentées par des distributions de probabilité conditionnelles. Le problème d'estimation de la pose est donc formulé comme une inférence probabiliste sur un modèle graphique, où les variables aléatoires correspondent aux paramètres des membres individuels (position et orientation) et les messages de propagation de croyance assurent la cohérence entre les membres. Deuxièmement, nous proposons un cadre permettant la détection et la reconnaissance des gestes emblématiques. La question la plus difficile dans la reconnaissance des gestes est de trouver de bonnes caractéristiques avec un pouvoir discriminant (faire la distinction entre différents gestes) et une bonne robustesse à la variabilité intrinsèque des gestes (le contexte dans lequel les gestes sont exprimés, la morphologie de la personne, le point de vue, etc). Dans ce travail, nous proposons un nouveau modèle de normalisation de la cinématique du bras reflétant à la fois l'activité musculaire et l'apparence du bras quand un geste est effectué. Les signaux obtenus sont d'abord segmentés et ensuite analysés par deux techniques d'apprentissage : les chaînes de Markov cachées et les Support Vector Machine. Les deux méthodes sont comparées dans une tâche de reconnaissance de 5 classes de gestes emblématiques. Les deux systèmes présentent de bonnes performances avec une base de données de formation minimaliste quels que soient l'anthropométrie, le sexe, l'âge ou la pose de l'acteur par rapport au système de détection. Le travail présenté ici a été réalisé dans le cadre d'une thèse de doctorat en co-tutelle entre l'Université "Pierre et Marie Curie" (ISIR laboratoire, Paris) et l'Université de Gênes (IIT - Tera département) et a été labelisée par l'Université Franco-Italienne.
|
6 |
Méthodes d'apprentissage pour l'interaction homme-machine / Neural Learning Methods for Human-Computer InteractionKopinski, Thomas 01 February 2016 (has links)
Cette thèse a pour but d'améliorer la tâche de reconnaître des gestes de main en utilisant des techniques d'apprentissage par ordinateur et de traitement du signal. Les principales contributions de la thèse sont dédiés à la théorie de l'apprentissage par ordinateur et à l'interaction homme-machine. L'objectif étant d'implanter toutes méthodes en temps réel, toute méthode employé au cours de cette thèse était un compromis entre puissance et temps de calcul nécessaire.Plusieurs pistes ont été poursuivi : au début, la fusion des informations fournies par plusieurs capteurs tu type « time-of-flight » a été étudiée, dans le but d'améliorer le taux de reconnaissances correctes par rapport au cas avec un seul capteur. En particulier, l'impact des différentes caractéristiques calculés à partir d'une nuage de points, et de ses paramètres, a été évalué. Egalement, la performance des réseaux multi-couches (MLP) à été comparé avec celle d'un séparateur à vaste marge (SVM).En s'appuyant sur ces résultats, l'implantation du système dans une voiture a eté effectuée. Tout d'abord, nous avons montré que le système n'est pas du tout gêné par le fait d'être exposé aux conditions d'éclairage « outdoor ». L'extension de la base d'entraînement et une modification des caractéristiques calculé de la nuage des points a pu augmenter le taux de bonnes reconnaissances de façon très significative, ainsi que le rajout des mesures de confiance à la classification.Afin d'améliorer la performance des classifieurs à la base des réseaux multi-couche (MLP), une nouvelle méthode assez simple a été mise au point ensuite. Cette méthode met au profit des informations déjà présentes dans la dernière couche du réseau. En combinant cette nouvelle approche avec une technique de fusion, le taux de bonnes reconnaissances est amélioré, et surtout pour le cas des échantillons « difficiles ». Ces résultats ont été analysés et comparés de façon approfondie en comparant des différentes possibilités de fusion dans un tel contexte. L'exploitation du fait que les données traitées dont des séquences, et qu'il y a par conséquent une cohérence temporelle dans des échantillons successifs, a également été abordée un utilisant les mêmes techniques de fusion. Un système de « infotainment » implanté sur un smartphone, qui utilise les techniques décrites ici, a également été réalisé.Dans un dernier temps, un modèle simplifié de la reconnaissance des gestes dynamiques a été proposé et validé dans un contexte applicatif. Il a été montré que un geste peut être défini de façon assez robuste par une pose initiale et une pose finale, qui sont classé par le système décrit ci-dessus. / This thesis aims at improving the complex task of hand gesture recognition by utilizing machine learning techniques to learn from features calculated from 3D point cloud data. The main contributions of this work are embedded in the domains of machine learning and in the human-machine interaction. Since the goal is to demonstrate that a robust real-time capable system can be set up which provides a supportive means of interaction, the methods researched have to be light-weight in the sense that descriptivity balances itself with the calculation overhead needed to, in fact, remain real-time capable. To this end several approaches were tested:Initially the fusion of multiple ToF-sensors to improve the overall recognition rate was researched. It is examined, how employing more than one sensor can significantly boost recognition results in especially difficult cases and get a first grasp on the influence of the descriptors for this task as well as the influence of the choice of parameters on the calculation of the descriptor. The performance of MLPs with standard parameters is compared with the performance of SVMs for which the parameters have been obtained via grid search.Building on these results, the integration of the system into the car interior is shown. It is demonstrated how such a system can easily be integrated into an outdoor environment subject to strongly varying lighting conditions without the need for tedious calibration procedures. Furthermore the introduction of a modified light-weight version of the descriptor coupled with an extended database significantly boosts the frame rate for the whole recognition pipeline. Lastly the introduction of confidence measures for the output of the MLPs allows for more stable classification results and gives an insight on the innate challenges of this multiclass problem in general.In order to improve the classification performance of the MLPs without the need for sophisticated algorithm design or extensive parameter search a simple method is proposed which makes use of the existing recognition routines by exploiting information already present in the output neurons of the MLPs. A simple fusion technique is proposed which combines descriptor features with neuron confidences coming from a previously trained net and proves that augmented results can be achieved in nearly all cases for problem classes and individuals respectively.These findings are analyzed in-depth on a more theoretical scale by comparing the effectiveness of learning solely on neural activities in the output layer with the previously introduced fusion approach. In order to take into account temporal information, the thesis describes a possible approach on how to exploit the fact that we are dealing with a problem within which data is processed in a sequential manner and therefore problem-specific information can be taken into account. This approach classifies a hand pose by fusing descriptor features with neural activities coming from previous time steps and lays the ground work for the following section of making the transition towards dynamic hand gestures. Furthermore an infotainment system realized on a mobile device is introduced and coupled with the preprocessing and recognition module which in turn is integrated into an automotive setting demonstrating a possible testing environment for a gesture recognition system.In order to extend the developed system to allow for dynamic hand gesture interaction a simplified approach is proposed. This approach demonstrates that recognition of dynamic hand gesture sequences can be achieved with the simple definition of a starting and an ending pose based on a recognition module working with sufficient accuracy and even allowing for relaxed restrictions in terms of defining the parameters for such a sequence.
|
7 |
Accès à de l'information en mobilité par l'image pour la visite de Musées : Réseaux profonds pour l'identification de gestes et d'objets / Information Access in mobile environment for museum visits : Deep Neraul Networks for Instance and Gesture RecognitionPortaz, Maxime 24 October 2018 (has links)
Dans le cadre du projet GUIMUTEIC, qui vise à équiper les visiteurs de musées d'un outils d'aide à la visite équipé d'une caméra, cette thèse adresse le problème d'accès à l'information en mobilité.On s'intéresse à comment rendre l'information à propos des œuvres accessible et automatique aux visiteurs de lieux touristiques.Elle s'inscrit dans le cadre du projet GUIMUTEIC, qui vise à équiper les visiteurs de musées d'un outil d'aide à l'accès à l'information en mobilité.Être capable de déterminer si le visiteur désire avoir accès à l'information signifie identifier le contexte autour de lui, afin de fournir une réponse adaptée, et réagir à ses actions.Ceci soulève les problématiques d'identification de points d'intérêts, pour déterminer le contexte, et d'identification de gestes de utilisateurs, pour répondre à ses demandes.Dans le cadre du notre projet, le visiteur est donc équipé d'une caméra embarquée.L'objectif est de fournir un solution à l'aide à la visite, en developpant des méthodes de vision pour l'identification d'objet, et de detection de gestes dans les vidéos à la première personne.Nous proposons dans cette thèse une étude de la faisabilité et de l'intérêt de l'aide à la visite, ainsi que de la pertinence des gestes dans le cadre de l'interaction avec un système embarqué.Nous proposons une nouvelle approche pour l'identification d'objets grâce à des réseaux de neurones profonds siamois pour l'apprentissage de similarité entre les images, avec apprentissage des régions d'intérêt dans l'image.Nous explorons également l'utilisation de réseaux à taille réduite pour le détection de gestes en mobilité.Nous présentons pour cela une architecture utilisant un nouveau type de bloc de convolutions, pour réduire le nombre de paramètres du réseau et permettre son utilisation sur processeur mobile.Pour évaluer nos propositions, nous nous appuyons sur plusieurs corpus de recherche d'image et de gestes, crée spécialement pour correspondre aux contraintes du projet. / This thesis is part of the GUIMUTEIC project, which aim is to equip museum tourist with an audio-guide enhanced by a camera.This thesis adress the problem of information access in mobile environment, by automaticaly providing information about museum artefacts.To be able to give this information, we need to know when the visitor desire guidance, and what he is looking at, to give the correct response.This raises issues of identification of points of interest, to determine the context, and identification of user gestures, to meet his demands.As part of our project, the visitor is equipped with an embedded camera.The goal is to provide a solution to help with the visit, developing vision methods for object identification, and gesture detection in first-person videos.We propose in this thesis a study of the feasibility and the interest of the assistance to the visit, as well as the relevance of the gestures in the context of the interaction with an embedded system.We propose a new approach for objects identification thanks to siamese neural networks to learn images similarity and define regions of interest.We are also exploring the use of small networks for gesture recognition in mobility.We present for this an architecture using new types of convolution blocks, to reduce the number of parameters of the network and allow its use on mobile processor.To evaluate our proposals, we rely on several corpus of image search and gestures, specificaly designed to match the constraints of the project.
|
8 |
Fusion tardive asynchrone appliquée à la reconnaissance des gestes / Asyncronous late fusion applied to gesture recognitionSaade, Philippe 11 May 2017 (has links)
Dans cette thèse, nous nous intéressons à la reconnaissance de l'activité humaine. Nous commençons par proposer notre propre définition d'une action : une action est une séquence prédéfinie de gestes simples et concaténés. Ainsi, des actions similaires sont composées par les mêmes gestes simples. Chaque réalisation d'une action (enregistrement) est unique. Le corps humain et ses articulations vont effectuer les mêmes mouvements que celles d'un enregistrement de référence, avec des variations d'amplitude et de dynamique ne devant pas dépasser certaines limites qui conduiraient à un changement complet d'action. Pour effectuer nos expérimentations, nous avons capturé un jeu de données contenant des variations de base, puis fusionné certains enregistrements avec d'autres actions pour former un second jeu induisant plus de confusion au cours de la classification. Ensuite, nous avons capturé trois autres jeux contenant des propriétés intéressantes pour nos expérimentations avec la Fusion Tardive Asynchrone (ou Asynchronous Late Fusion notée ALF). Nous avons surmonté le problème des petits jeux non discriminants pour la reconnaissance d'actions en étendant un ensemble d'enregistrements effectués par différentes personnes et capturés par une caméra RGB-D. Nous avons présenté une nouvelle méthode pour générer des enregistrements synthétiques pouvant être utilisés pour l'apprentissage d'algorithmes de reconnaissance de l'activité humaine. La méthode de simulation a ainsi permis d'améliorer les performances des différents classifieurs. Un aperçu général de la classification des données dans un contexte audiovisuel a conduit à l'idée de l'ALF. En effet, la plupart des approches dans ce domaine classifient les flux audio et vidéo séparément, avec des outils différents. Chaque séquence temporelle est analysée séparément, comme dans l'analyse de flux audiovisuels, où la classification délivre des décisions à des instants différents. Ainsi, pour déduire la décision finale, il est important de fusionner les décisions prises séparément, d'où l'idée de la fusion asynchrone. Donc, nous avons trouvé intéressant d'appliquer l'ALF à des séquences temporelles. Nous avons introduit l'ALF afin d'améliorer la classification temporelle appliquée à des algorithmes de fusion tardive tout en justifiant l'utilisation d'un modèle asynchrone lors de la classification des données temporelles. Ensuite, nous avons présenté l'algorithme de l'ALF et les paramètres utilisés pour l'optimiser. Enfin, après avoir mesuré les performances de classifications avec différents algorithmes et jeux de données, nous avons montré que l'ALF donne de meilleurs résultats qu'une solution synchrone simple. Etant donné qu'il peut être difficile d'identifier les jeux de données compatibles avec l'ALF, nous avons construit des indicateurs permettant d'en extraire des informations statistiques. / In this thesis, we took interest in human action recognition. Thus, it was important to define an action. We proposed our own definition: an action is a predefined sequence of concatenated simple gestures. The same actions are composed of the same simple gestures. Every performance of an action (recording) is unique. Hence, the body and the joints will perform the same movements as the reference recording, with changes of dynamicity of the sequence and amplitude in the DOF. We note that the variations in the amplitude and dynamicity must not exceed certain boundaries in order not to lead to entirely different actions. For our experiments, we captured a dataset composed of actions containing basic variations. We merged some of those recordings with other actions to form a second dataset, consequently inducing more confusion than the previous one during the classification. We also captured three other datasets with properties that are interesting for our experimentations with the ALF (Asynchronous Late Fusion). We overcame the problem of non-discriminatory actions datasets for action recognition by enlarging a set of recordings performed by different persons and captured by an RGB-D camera. We presented a novel method for generating synthetic recordings, for training action recognition algorithms. We analyzed the parameters of the method and identified the most appropriate ones, for the different classifiers. The simulation method improved the performances while classifying different datasets. A general overview of data classification starting from the audio-visual context led to the ALF idea. In fact, most of the approaches in the domain classify sound and video streams separately with different tools. Every temporal sequence from a recording is analyzed distinctly, as in audiovisual stream analysis, where the classification outputs decisions at various time instants. Therefore, to infer the final decision, it is important to fuse the decisions that were taken separately, hence the idea of the asynchronous fusion. As a result, we found it interesting to implement the ALF in temporal sequences. We introduced the ALF model for improving temporal events classification applied on late fusion classification algorithms. We showed the reason behind the use of an asynchronous model when classifying datasets with temporal properties. Then, we introduced the algorithm behind the ALF and the parameters used to tune it. Finally, according to computed performances from different algorithms and datasets, we showed that the ALF improves the results of a simple Synchronous solution in most of the cases. As it can be difficult for the user of the ALF solution to determine which datasets are compatible with the ALF, we built indicators to compare the datasets by extracting statistical information from the recordings. We developed indexes: the ASI and the ASIP, combined into a final index (the ASIv) to provide information concerning the compatibility of the dataset with the ALF. We evaluated the performances of the ALF on the segmentation of action series and compared the results between synchronous and ALF solutions. The method that we proposed increased the performances. We analyzed the human movement and gave a general definition of an action. Later, we improved this definition and proposed a "visual definition" of an action. With the aid of the ALF model, we focus on the parts and joints of an action that are the most discriminant and display them in an image. In the end, we proposed multiple paths as future studies. The most important ones are : - Working on a process to find the ALF's number of parts using the ASIv. - Reducing the complexity by finding the discriminant joints and features thanks to the ALF properties - Studying the MD-DTW features in-depth since the algorithm depends on the choice of the features - Implementing a DNN for comparison purposes - Developing the confidence coefficient.
|
9 |
Reconnaissance de gestes et actions pour la collaboration homme-robot sur chaîne de montage / Recognition of gestures and actions for man and robot collaboration on assembly lineCoupeté, Eva 10 November 2016 (has links)
Les robots collaboratifs sont de plus en plus présents dans nos vies quotidiennes. En milieu industriel, ils sont une solution privilégiée pour rendre les chaînes de montage plus flexibles, rentables et diminuer la pénibilité du travail des opérateurs. Pour permettre une collaboration fluide et efficace, les robots doivent être capables de comprendre leur environnement, en particulier les actions humaines.Dans cette optique, nous avons décidé d’étudier la reconnaissance de gestes techniques afin que le robot puisse se synchroniser avec l’opérateur, adapter son allure et comprendre si quelque chose d’inattendu survient.Pour cela, nous avons considéré deux cas d’étude, un cas de co-présence et un cas de collaboration, tous les deux inspirés de cas existant sur les chaînes de montage automobiles.Dans un premier temps, pour le cas de co-présence, nous avons étudié la faisabilité de la reconnaissance des gestes en utilisant des capteurs inertiels. Nos très bons résultats (96% de reconnaissances correctes de gestes isolés avec un opérateur) nous ont encouragés à poursuivre dans cette voie.Sur le cas de collaboration, nous avons privilégié l’utilisation de capteurs non-intrusifs pour minimiser la gêne des opérateurs, en l’occurrence une caméra de profondeur positionnée avec une vue de dessus pour limiter les possibles occultations.Nous proposons un algorithme de suivi des mains en calculant les distances géodésiques entre les points du haut du corps et le haut de la tête. Nous concevons également et évaluons un système de reconnaissance de gestes basé sur des Chaînes de Markov Cachées (HMM) discrètes et prenant en entrée les positions des mains. Nous présentons de plus une méthode pour adapter notre système de reconnaissance à un nouvel opérateur et nous utilisons des capteurs inertiels sur les outils pour affiner nos résultats. Nous obtenons le très bon résultat de 90% de reconnaissances correctes en temps réel pour 13 opérateurs.Finalement, nous formalisons et détaillons une méthodologie complète pour réaliser une reconnaissance de gestes techniques sur les chaînes de montage. / Collaborative robots are becoming more and more present in our everyday life. In particular, within the industrial environment, they emerge as one of the preferred solution to make assembly line in factories more flexible, cost-effective and to reduce the hardship of the operators’ work. However, to enable a smooth and efficient collaboration, robots should be able to understand their environment and in particular the actions of the humans around them.With this aim in mind, we decided to study technical gestures recognition. Specifically, we want the robot to be able to synchronize, adapt its speed and understand if something unexpected arises.We considered two use-cases, one dealing with copresence, the other with collaboration. They are both inspired by existing task on automotive assembly lines.First, for the co-presence use case, we evaluated the feasibility of technical gestures recognition using inertial sensors. We obtained a very good result (96% of correct recognition with one operator) which encouraged us to follow this idea.On the collaborative use-case, we decided to focus on non-intrusive sensors to minimize the disturbance for the operators and we chose to use a depth-camera. We filmed the operators with a top view to prevent most of the potential occultations.We introduce an algorithm that tracks the operator’s hands by calculating the geodesic distances between the points of the upper body and the top of the head.We also design and evaluate an approach based on discrete Hidden Markov Models (HMM) taking the hand positions as an input to recognize technical gestures. We propose a method to adapt our system to new operators and we embedded inertial sensors on tools to refine our results. We obtain the very good result of 90% of correct recognition in real time for 13 operators.Finally, we formalize and detail a complete methodology to realize technical gestures recognition on assembly lines.
|
10 |
Deep-learning for high dimensional sequential observations : application to continuous gesture recognition / Modélisation par réseaux de neurones profonds pour l'apprentissage continu d'objets et de gestes par un robotGranger, Nicolas 10 January 2019 (has links)
Cette thèse a pour but de contribuer à améliorer les interfaces Homme-machine. En particulier, nos appareils devraient répliquer notre capacité à traiter continûment des flux d'information. Cependant, le domaine de l’apprentissage statistique dédié à la reconnaissance de séries temporelles pose de multiples défis. Nos travaux utilisent la reconnaissance de gestes comme exemple applicatif, ces données offrent un mélange complexe de poses corporelles et de mouvements, encodées sous des modalités très variées. La première partie de notre travail compare deux modèles temporels de l’état de l’art pour la reconnaissance continue sur des séquences, plus précisément l’hybride réseau de neurones -- modèle de Markov caché (NN-HMM) et les réseaux de neurones récurrents bidirectionnels (BD-RNN) avec des unités commandées par des portes. Pour ce faire, nous avons implémenté un environnement de test partagé qui est plus favorable à une étude comparative équitable. Nous proposons des ajustements sur les fonctions de coût utilisées pour entraîner les réseaux de neurones et sur les expressions du modèle hybride afin de gérer un large déséquilibre des classes de notre base d’apprentissage. Bien que les publications récentes semblent privilégier l’architecture BD-RNN, nous démontrons que l’hybride NN-HMM demeure compétitif. Cependant, ce dernier est plus dépendant de son modèle d'entrées pour modéliser les phénomènes temporels à court terme. Enfin, nous montrons que les facteurs de variations appris sur les entrées par les deux modèles sont inter-compatibles. Dans un second temps, nous présentons une étude de l'apprentissage dit «en un coup» appliqué aux gestes. Ce paradigme d'apprentissage gagne en attention mais demeure peu abordé dans le cas de séries temporelles. Nous proposons une architecture construite autour d’un réseau de neurones bidirectionnel. Son efficacité est démontrée par la reconnaissance de gestes isolés issus d’un dictionnaire de langage des signes. À partir de ce modèle de référence, nous proposons de multiples améliorations inspirées par des travaux dans des domaines connexes, et nous étudions les avantages ou inconvénients de chacun / This thesis aims to improve the intuitiveness of human-computer interfaces. In particular, machines should try to replicate human's ability to process streams of information continuously. However, the sub-domain of Machine Learning dedicated to recognition on time series remains barred by numerous challenges. Our studies use gesture recognition as an exemplar application, gestures intermix static body poses and movements in a complex manner using widely different modalities. The first part of our work compares two state-of-the-art temporal models for continuous sequence recognition, namely Hybrid Neural Network--Hidden Markov Models (NN-HMM) and Bidirectional Recurrent Neural Networks (BDRNN) with gated units. To do so, we reimplemented the two within a shared test-bed which is more amenable to a fair comparative work. We propose adjustments to Neural Network training losses and the Hybrid NN-HMM expressions to accommodate for highly imbalanced data classes. Although recent publications tend to prefer BDRNNs, we demonstrate that Hybrid NN-HMM remain competitive. However, the latter rely significantly on their input layers to model short-term patterns. Finally, we show that input representations learned via both approaches are largely inter-compatible. The second part of our work studies one-shot learning, which has received relatively little attention so far, in particular for sequential inputs such as gestures. We propose a model built around a Bidirectional Recurrent Neural Network. Its effectiveness is demonstrated on the recognition of isolated gestures from a sign language lexicon. We propose several improvements over this baseline by drawing inspiration from related works and evaluate their performances, exhibiting different advantages and disadvantages for each
|
Page generated in 0.0985 seconds