Global ETD Search

1	Facial landmark detection with local and global motion modeling / Détection des points caractéristiques du visage par modélisation des mouvements locaux et globaux Belmonte, Romain 26 November 2019 (has links) La détection des points caractéristiques du visage est une tâche essentielle pour un grand nombre d’applications telles que l’analyse faciale (p. ex., identification, expression, reconstruction 3D), l’interaction homme-machine ou encore le multimédia (p. ex., recherche, indexation). Bien que de nombreuses approches aient été proposées, les performances en conditions non contrôlées ne sont toujours pas satisfaisantes. Les variations susceptibles d’impacter l’apparence du visage (p. ex., pose, expression, éclairage, occultation, flou cinétique) en font un problème encore difficile à résoudre. Dans cette thèse, une contribution est faite à la fois sur l’analyse des performances des approches actuelles mais aussi sur la modélisation de l’information temporelle pour la détection des points caractéristiques du visage basée sur la vidéo. Une étude expérimentale est réalisée à l’aide d’un jeu de données vidéo permettant d’évaluer l’impact des variations de pose et d’expression sur la détection des points caractéristiques. Cette évaluation permet notamment de mettre en évidence les poses et expressions posant le plus de difficultés. Elle permet également d’illustrer l’importance d’une modélisation temporelle capable de tenir compte efficacement de la nature dynamique du visage. L’accent est ensuite mis sur l’amélioration de la modélisation temporelle afin de considérer le mouvement local en plus du mouvement global. Plusieurs architectures sont conçues en s’appuyant sur les deux principaux modèles de la littérature : les réseaux de régression de coordonnées et les réseaux de régression de cartes de chaleur. Les expérimentations sur deux ensembles de données confirment que la modélisation du mouvement local améliore les résultats (p. ex. avec les expressions). Ces expérimentations sont étendues par une étude portant sur la complémentarité entre l’information spatiale et temporelle ainsi que le mouvement local et global dans le but d’améliorer la conception des architectures proposées. En exploitant davantage ces complémentarités, de meilleures performances, compétitives avec l’état de l’art, sont obtenues, et ce, malgré la simplicité des modèles proposés. / Facial landmark detection is an essential task for a large number of applications such as facial analysis (e.g., identification, expression, 3D reconstruction), human-computer interaction or even multimedia (e.g., content indexing and retrieval). Although many approaches have been proposed, performance under uncontrolled conditions is still not satisfactory. The variations that may impact facial appearance (e.g., pose, expression, illumination, occlusion, motion blur) make it a difficult problem to solve. In this thesis, a contribution to both the analysis of the performance of current approaches and the modeling of temporal information for video-based facial landmark detection is made. An experimental study is conducted using a video dataset to measure the impact of pose and expression variations on landmark detection. This evaluation highlights the most difficult poses and expressions to handle. It also illustrates the importance of a suitable temporal modeling to benefit from the dynamic nature of the face. A focus is then placed on improving temporal modeling to ensure consideration of local motion in addition to global motion. Several architectures are designed based on the two main models from the literature: coordinate regression networks and heatmap regression networks. Experiments on two datasets confirm that local motion modeling improves results (e.g. in the presence of expressions). These experiments are extended with a study on the complementarity between spatial and temporal information as well as local and global motion to improve the design of the proposed architectures. By leveraging these complementarities more effectively, competitive performance with current state-of-the-art approaches is achieved, despite the simplicity of the proposed models. Analyse faciale Points caractéristiques 006.37
2	Segmentation région-contour des contours des lèvres Bouvier, Christian 02 February 2010 (has links) (PDF) La thèse présentée a été effectuée en cotutelle entre l'Institut Polytechnique de Grenoble et l'université Laval à Québec. Les travaux ont impliqué les laboratoires universitaire GIPSAlab à Grenoble et le Laboratoire de Vision et Systèmes Numériques de l'Université Laval (LVSN). Notre étude porte sur la segmentation des contours internes et externes des lèvres. L'objectif visé dans notre étude est de proposer un ensemble de méthodes permettant de modéliser précisément la zone de la bouche avec la meilleure robustesse possible. Par robustesse, notre entendons obtenir une méthode fiable qui ne nécessite pas de réglage de paramètres et qui permette une segmentation fidèle des contours externes et internes de la bouche. Dans un premier temps, une approche combinée région-contour est introduite dans le but d'obtenir une segmentation multi-locuteur de la bouche sur des images de visage en couleurs. Nous décrivons une approche par décorrélation permettant d'augmenter le contraste entre la peau et les lèvres sur des images en couleurs ainsi qu'une étude sur les gradients multi-échelles pour améliorer la robustesse de la modélisation des contours de la bouche. Ensuite nous présentons notre méthode de localisation et de segmentation régioncontour de la bouche sur des images de visage en couleurs. Dans un second temps nous nous sommes intéressés à la détection de l'état de la bouche. L'étape de détection de l'état de la bouche est nécessaire à la modélisation de la région interne qui présente une grande variabilité de forme et de texture. Une approche bioinspirée, basée sur un modèle de rétine et de cortex visuel conduisant au calcul d'un spectre Log-polaire, a été développée pour modéliser la zone de la bouche. Ces spectres sont, ensuite, utilisés pour entraîner un réseau SVM destiné à identifier l'état de la bouche. D'autre part, de nombreux auteurs ont suggéré d'utiliser la modalité infrarouge en analyse faciale. Le LVSN possédant une solide expertise dans le domaine de la vision infrarouge, une étude sur la pertinence de la modalité infrarouge dans le cadre de la segmentation des lèvres est proposée. Après avoir localisé la bouche et identifié l'état de la bouche, nous nous intéressons alors à la segmentation des contours externes et internes de la bouche. Un modèle polynomial de contour externe, dont la complexité sera automatiquement adaptée en fonction de la bouche traitée, est présenté. L'aspect de la zone interne de la bouche pouvant varier très rapidement, l'extraction du contour interne est particulièrement difficile. Nous proposons de traiter ce problème par une méthode de classification non-supervisée pour sélectionner les régions internes de la bouche. La méthode de modélisation de contour par un modèle polynomial est par la suite appliquée pour extraire le contour interne de la bouche. Enfin, une analyse quantitative de la performance globale de l'extraction des contours internes et externes est réalisée par comparaison avec des vérités-terrain. Traitement d'images vision numérique Segmentation analyse faciale lèvres bouche
3	Reading Faces. Using Hard Multi-Task Metric Learning for Kernel Regression / Analyse de visages à l'aide d'une régularisation multi-tâches contrainte pour un apprentissage de métrique adaptée à un régresseur par noyaux Nicolle, Jérémie 08 March 2016 (has links) Recueillir et labelliser un ensemble important et pertinent de données pour apprendre des systèmes de prédiction d'informations à partir de visages est à la fois difficile et long. Par conséquent, les données disponibles sont souvent de taille limitée comparée à la difficultés des tâches. Cela rend le problème du sur-apprentissage particulièrement important dans de nombreuses applications d'apprentissage statistique liées au visage. Dans cette thèse, nous proposons une nouvelle méthode de régression de labels multi-dimensionnels, nommée Hard Multi-Task Metric Learning for Kernel Regression (H-MT-MLKR). Notre méthode a été développée en focalisant sur la réduction du phénomène de sur-apprentissage. La méthode Metric Learning for Kernel Regression qui a été proposée par Kilian Q. Weinberger en 2007 vise à apprendre un sous-espace pour minimiser l'erreur quadratique d'un estimateur de Nadaraya-Watson sur la base d'apprentissage. Dans notre méthode, on étend la méthode MLKR pour une régression de labels multi-dimensionnels en ajoutant une nouvelle régularisation multi-tâches qui réduit les degrés de liberté du modèle appris ainsi que le sur-apprentissage. Nous évaluons notre méthode pour deux applications différentes, à savoir la localisation de points caractéristiques et la prédiction de l'intensité des Action Units. Nous présentons aussi un travail sur la prédiction des émotions en espace continu basé aussi sur l'estimateur de Nadaraya-Watson. Deux des systèmes proposés nous ont permis de remporter deux premières places à des concours internationaux, à savoir le Audio-Visual Emotion Challenge (AVEC'12) et le Facial Expression Recognition and Analysis challenge (FERA'15). / Collecting and labeling various and relevant data for training automatic facial information prediction systems is both hard and time-consuming. As a consequence, available data is often of limited size compared to the difficulty of the prediction tasks. This makes overfitting a particularly important issue in several face-related machine learning applications. In this PhD, we introduce a novel method for multi-dimensional label regression, namely Hard Multi-Task Metric Learning for Kernel Regression (H-MT-MLKR). Our proposed method has been designed taking a particular focus on overfitting reduction. The Metric Learning for Kernel Regression method (MLKR) that has been proposed by Kilian Q. Weinberger in 2007 aims at learning a subspace for minimizing the quadratic training error of a Nadaraya-Watson estimator. In our method, we extend MLKR for multi-dimensional label regression by adding a novel multi-task regularization that reduces the degrees of freedom of the learned model along with potential overfitting. We evaluate our regression method on two different applications, namely landmark localization and Action Unit intensity prediction. We also present our work on automatic emotion prediction in a continuous space which is based on the Nadaraya-Watson estimator as well. Two of our frameworks let us win international data science challenges, namely the Audio-Visual Emotion Challenge (AVEC’12) and the fully continuous Facial Expression Recognition and Analysis challenge (FERA’15). Apprentissage statistique Analyse faciale Multi-Tâches Expressions faciales Prédiction des émotions Localisation de points caractéristiques Action units Metric learning Multi-task 004

1

Page generated in 0.0472 seconds