Récemment, le développement de systèmes intelligents dédiés pour la compréhension du comportement humain est devenu un axe de recherche très important. En effet, il est très important de comprendre le comportement humain pour rendre les machines capables d'aider et interagir avec les humains. Pour cela, plusieurs approches de l'état de l'art commencent par détecter automatiquement un ensemble de points 2D ou 3D, appelés marqueurs, sur le corps et/ou le visage humain à partir de données visuelles. L’analyse des séquences temporelles de ces marqueurs pose plusieurs défis dus aux erreurs de suivi et aux variabilités temporelles et de pose. Dans cette thèse, nous proposons deux nouvelles représentations spatio-temporelles avec des outils de calcul appropriés pour la compréhension du comportement humain. La première consiste à représenter une séquence temporelle de marqueurs par une trajectoire de matrices de Gram. Les matrices de Gram sont des matrices semi-définies positives de rang fixe et vivent dans un espace non-linéaire dans lequel les outils d’apprentissage automatique conventionnels ne peuvent pas être appliqués directement. Nous évaluons l’efficacité de notre approche dans plusieurs applications, impliquant des marqueurs 2D et 3D de visages et de corps humain, tels que la reconnaissance des émotions à partir des expressions faciales la reconnaissance d’actions et des émotions à partir des données de profondeur 3D. La deuxième représentation proposée dans cette thèse est basée sur les coordonnées barycentriques des marqueurs de visages 2D. Cette représentation permet d’utiliser les outils de calcul et d’apprentissage automatique tels que les techniques d’apprentissage de métrique. Les résultats obtenus en reconnaissance des expressions faciales et en mesure automatique de la sévérité de la dépression à partir du visage montrent tout l’intérêt de la représentation barycentrique combinée à des techniques d’apprentissage automatique. Les résultats obtenus avec les deux méthodes proposées sur des bases de données réelles montrent la compétitivité de nos approches avec les méthodes récentes de l’état de l’art. / Developing intelligent systems dedicated to human behavior understanding has been a very hot research topic in the few recent decades. Indeed, it is crucial to understand the human behavior in order to make machines able to interact with, assist, and help humans in their daily life.. Recent breakthroughs in computer vision and machine learning have made this possible. For instance, human-related computer vision problems can be approached by first detecting and tracking 2D or 3D landmark points from visual data. Two relevant examples of this are given by the facial landmarks detected on the human face and the skeletons tracked along videos of human bodies. These techniques generate temporal sequences of landmark configurations, which exhibit several distortions in their analysis, especially in uncontrolled environments, due to view variations, inaccurate detection and tracking, missing data, etc. In this thesis, we propose two novel space-time representations of human landmark sequences along with suitable computational tools for human behavior understanding. Firstly, we propose a representation based on trajectories of Gram matrices of human landmarks. Gram matrices are positive semi-definite matrices of fixed rank and lie on a nonlinear manifold where standard computational and machine learning techniques could not be applied in a straightforward way. To overcome this issue, we make use of some notions of the Riemannian geometry and derive suitable computational tools for analyzing Gram trajectories. We evaluate the proposed approach in several human related applications involving 2D and 3D landmarks of human faces and bodies such us emotion recognition from facial expression and body movements and also action recognition from skeletons. Secondly, we propose another representation based on the barycentric coordinates of 2D facial landmarks. While being related to the Gram trajectory representation and robust to view variations, the barycentric representation allows to directly work with standard computational tools. The evaluation of this second approach is conducted on two face analysis tasks namely, facial expression recognition and depression severity level assessment. The obtained results with the two proposed approaches on real benchmarks are competitive with respect to recent state-of-the-art methods.
Identifer | oai:union.ndltd.org:theses.fr/2018LIL1I076 |
Date | 12 December 2018 |
Creators | Kacem, Anis |
Contributors | Lille 1, Daoudi, Mohamed, Ben Amor, Boulbaba |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0038 seconds