Global ETD Search

1	Facial landmark detection with local and global motion modeling / Détection des points caractéristiques du visage par modélisation des mouvements locaux et globaux Belmonte, Romain 26 November 2019 (has links) La détection des points caractéristiques du visage est une tâche essentielle pour un grand nombre d’applications telles que l’analyse faciale (p. ex., identification, expression, reconstruction 3D), l’interaction homme-machine ou encore le multimédia (p. ex., recherche, indexation). Bien que de nombreuses approches aient été proposées, les performances en conditions non contrôlées ne sont toujours pas satisfaisantes. Les variations susceptibles d’impacter l’apparence du visage (p. ex., pose, expression, éclairage, occultation, flou cinétique) en font un problème encore difficile à résoudre. Dans cette thèse, une contribution est faite à la fois sur l’analyse des performances des approches actuelles mais aussi sur la modélisation de l’information temporelle pour la détection des points caractéristiques du visage basée sur la vidéo. Une étude expérimentale est réalisée à l’aide d’un jeu de données vidéo permettant d’évaluer l’impact des variations de pose et d’expression sur la détection des points caractéristiques. Cette évaluation permet notamment de mettre en évidence les poses et expressions posant le plus de difficultés. Elle permet également d’illustrer l’importance d’une modélisation temporelle capable de tenir compte efficacement de la nature dynamique du visage. L’accent est ensuite mis sur l’amélioration de la modélisation temporelle afin de considérer le mouvement local en plus du mouvement global. Plusieurs architectures sont conçues en s’appuyant sur les deux principaux modèles de la littérature : les réseaux de régression de coordonnées et les réseaux de régression de cartes de chaleur. Les expérimentations sur deux ensembles de données confirment que la modélisation du mouvement local améliore les résultats (p. ex. avec les expressions). Ces expérimentations sont étendues par une étude portant sur la complémentarité entre l’information spatiale et temporelle ainsi que le mouvement local et global dans le but d’améliorer la conception des architectures proposées. En exploitant davantage ces complémentarités, de meilleures performances, compétitives avec l’état de l’art, sont obtenues, et ce, malgré la simplicité des modèles proposés. / Facial landmark detection is an essential task for a large number of applications such as facial analysis (e.g., identification, expression, 3D reconstruction), human-computer interaction or even multimedia (e.g., content indexing and retrieval). Although many approaches have been proposed, performance under uncontrolled conditions is still not satisfactory. The variations that may impact facial appearance (e.g., pose, expression, illumination, occlusion, motion blur) make it a difficult problem to solve. In this thesis, a contribution to both the analysis of the performance of current approaches and the modeling of temporal information for video-based facial landmark detection is made. An experimental study is conducted using a video dataset to measure the impact of pose and expression variations on landmark detection. This evaluation highlights the most difficult poses and expressions to handle. It also illustrates the importance of a suitable temporal modeling to benefit from the dynamic nature of the face. A focus is then placed on improving temporal modeling to ensure consideration of local motion in addition to global motion. Several architectures are designed based on the two main models from the literature: coordinate regression networks and heatmap regression networks. Experiments on two datasets confirm that local motion modeling improves results (e.g. in the presence of expressions). These experiments are extended with a study on the complementarity between spatial and temporal information as well as local and global motion to improve the design of the proposed architectures. By leveraging these complementarities more effectively, competitive performance with current state-of-the-art approaches is achieved, despite the simplicity of the proposed models. Analyse faciale Points caractéristiques 006.37
2	Reading Faces. Using Hard Multi-Task Metric Learning for Kernel Regression / Analyse de visages à l'aide d'une régularisation multi-tâches contrainte pour un apprentissage de métrique adaptée à un régresseur par noyaux Nicolle, Jérémie 08 March 2016 (has links) Recueillir et labelliser un ensemble important et pertinent de données pour apprendre des systèmes de prédiction d'informations à partir de visages est à la fois difficile et long. Par conséquent, les données disponibles sont souvent de taille limitée comparée à la difficultés des tâches. Cela rend le problème du sur-apprentissage particulièrement important dans de nombreuses applications d'apprentissage statistique liées au visage. Dans cette thèse, nous proposons une nouvelle méthode de régression de labels multi-dimensionnels, nommée Hard Multi-Task Metric Learning for Kernel Regression (H-MT-MLKR). Notre méthode a été développée en focalisant sur la réduction du phénomène de sur-apprentissage. La méthode Metric Learning for Kernel Regression qui a été proposée par Kilian Q. Weinberger en 2007 vise à apprendre un sous-espace pour minimiser l'erreur quadratique d'un estimateur de Nadaraya-Watson sur la base d'apprentissage. Dans notre méthode, on étend la méthode MLKR pour une régression de labels multi-dimensionnels en ajoutant une nouvelle régularisation multi-tâches qui réduit les degrés de liberté du modèle appris ainsi que le sur-apprentissage. Nous évaluons notre méthode pour deux applications différentes, à savoir la localisation de points caractéristiques et la prédiction de l'intensité des Action Units. Nous présentons aussi un travail sur la prédiction des émotions en espace continu basé aussi sur l'estimateur de Nadaraya-Watson. Deux des systèmes proposés nous ont permis de remporter deux premières places à des concours internationaux, à savoir le Audio-Visual Emotion Challenge (AVEC'12) et le Facial Expression Recognition and Analysis challenge (FERA'15). / Collecting and labeling various and relevant data for training automatic facial information prediction systems is both hard and time-consuming. As a consequence, available data is often of limited size compared to the difficulty of the prediction tasks. This makes overfitting a particularly important issue in several face-related machine learning applications. In this PhD, we introduce a novel method for multi-dimensional label regression, namely Hard Multi-Task Metric Learning for Kernel Regression (H-MT-MLKR). Our proposed method has been designed taking a particular focus on overfitting reduction. The Metric Learning for Kernel Regression method (MLKR) that has been proposed by Kilian Q. Weinberger in 2007 aims at learning a subspace for minimizing the quadratic training error of a Nadaraya-Watson estimator. In our method, we extend MLKR for multi-dimensional label regression by adding a novel multi-task regularization that reduces the degrees of freedom of the learned model along with potential overfitting. We evaluate our regression method on two different applications, namely landmark localization and Action Unit intensity prediction. We also present our work on automatic emotion prediction in a continuous space which is based on the Nadaraya-Watson estimator as well. Two of our frameworks let us win international data science challenges, namely the Audio-Visual Emotion Challenge (AVEC’12) and the fully continuous Facial Expression Recognition and Analysis challenge (FERA’15). Apprentissage statistique Analyse faciale Multi-Tâches Expressions faciales Prédiction des émotions Localisation de points caractéristiques Action units Metric learning Multi-task 004
3	Détection d’objets en mouvement à l’aide d’une caméra mobile / Moving objects detection with a moving camera Chapel, Marie-Neige 22 September 2017 (has links) La détection d'objets mobiles dans des flux vidéo est une étape essentielle pour de nombreux algorithmes de vision par ordinateur. Cette tâche se complexifie lorsque la caméra utilisée est en mouvement. En effet, l'environnement capté par ce type de caméra apparaît en mouvement et il devient plus difficile de distinguer les objets qui effectuent réellement un mouvement de ceux qui constituent la partie statique de la scène. Dans cette thèse, nous apportons des contributions au problème de détection d'objets mobiles dans le flux vidéo d'une caméra mobile. L'idée principale qui nous permet de distinguer les éléments mobiles de ceux qui sont statiques repose sur un calcul de distance dans l'espace 3D. Les positions 3D de caractéristiques extraites des images sont estimées par triangulation puis leurs mouvements 3D sont analysés pour réaliser un étiquetage éparse statique/mobile de ces points. Afin de rendre la détection robuste au bruit, l'analyse des mouvements 3D des caractéristiques est comparée à d'autres points précédemment estimés statiques. Une mesure de confiance, mise à jour au cours du temps, est utilisée pour déterminer l'étiquette à attribuer à chacun des points. Nos contributions ont été appliquées à des jeux de données virtuelles (issus du projet Previz 2) et réelles (reconnus dans la communauté [Och+14]) et les comparaisons ont été réalisées avec l'état de l'art. Les résultats obtenus montrent que la contrainte 3D proposée dans cette thèse, couplée à une analyse statistique et temporelle des mouvements, permet de détecter des éléments mobiles dans le flux vidéo d'une caméra en mouvement et ce même dans des cas complexes où les mouvements apparents de la scène ne sont pas uniformes / Moving objects detection in video streams is a commonly used technique in many computer vision algorithms. The detection becomes more complex when the camera is moving. The environment observed by this type of camera appeared moving and it is more difficult to distinguish the objects which are in movement from the others that composed the static part of the scene. In this thesis we propose contributions for the detection of moving objects in the video stream of a moving camera. The main idea to differenciate between moving and static objects based on 3D distances. 3D positions of feature points extracted from images are estimated by triangulation and then their 3D motions are analyzed in order to provide a sparse static/moving labeling. To provide a more robust detection, the analysis of the 3D motions is compared to those of feature points previously estimated static. A confidance value updated over time is used to decide on labels to attribute to each point.We make experiments on virtual (from the Previz project 1) and real datasets (known by the community [Och+14]) and we compare the results with the state of the art. The results show that our 3D constraint coupled with a statistical and temporal analysis of motions allow to detect moving elements in the video stream of a moving camera even in complex cases where apparent motions of the scene are not similars Vision par ordinateur Détection d’objets mobiles Caméra mobile Points caractéristiques Contrainte géométrique 3D Computer vision Moving objects detection Moving camera Feature points 3D geometric constraint 004
4	Décomposition Modale Empirique : Contribution à la Modélisation Mathématique et Application en Traitement du Signal et de l'Image Niang, Oumar 20 September 2007 (has links) (PDF) La Décomposition Modale Empirique (EMD), est une méthode de décomposition multi-résolution de signaux en fonctions Modes Intrinsèques (IMF) et cela, de manière auto-adaptative. En la couplant avec la transformée de Hilbert, elle devient une méthode d'analyse Temps-Fréquence , la transformée de Hilbert-Huang, permettant d'étudier bon nombre de classes de signaux. Malgré ces nombreuses applications, l'une des plus importantes limites de l'EMD est son manque de formalisme mathématique. A la place d'une interpolation par splines cubiques utilisée dans l'EMD classique, nous avons estimé l'enveloppe moyenne par une solution d'un système d'EDP. Par une méthode variationnelle, nous avons établi un cadre théorique pour prouver les résultats de convergence, d'existence de modes et la propriété de presque orthogonalité de l'EMD. La comparaison avec des bancs de filtres itératifs et les ondelettes, montre l'aspect multi-résolution de l'EMD. Deux nouvelles applications en traitement du signal et de l'image sont présentées : l'extraction des intermittences et mode mixing et la restauration par shrinkage par EMD. Enfin le modèle peut servir de base pour l'étude de l'unicité de la décomposition. Décomposition Modale Empirique Modélisation mathématique Équations aux Dérivées Partielles Interpolation Enveloppe moyenne Analyse Temps-Fréquence Analyse Multi-résolution Ondelettes Algorithme de Poursuite Banc de Filtres Analyse d'Images Points Caractéristiques Méthodes Spectrales Régularisation de Tikhonov shrinkage par ondelettes shrinkage par EMD Inpainting

1

Page generated in 0.0718 seconds