L'analyse de la posture d'un humain à partir d'images est un problème difficile en raison à la fois de la complexité de l'objet étudié (causée entre autres par le nombre de degrés de liberté et la forte variabilité d'apparences entre les personnes) et des ambiguïtés visuelles introduites par le système d'observation (liées aux phénomènes d'auto-occultation et à la perte d'information sur la profondeur). La diversité de ses applications potentielles - comme la réalité virtuelle, l'interface homme machine, l'analyse du geste sportif...- en fait toutefois un sujet de recherche très actif. Cette thèse présente un système d'estimation de la configuration d'un modèle articulé du corps à partir des images acquises par un système de caméras fixes et calibrées, observant une personne évoluant dans une pièce. La méthode proposée ne suppose pas de connaissance sur les estimations précédentes dans la vidéo, et s'affranchit donc des éventuels problèmes d'initialisation ou de perte de suivi. L'objectif de ce travail est d'ouvrir la voie vers une analyse robuste et temps-réel de la posture pour l'interprétation de scènes et la vidéo surveillance. L'analyse s'appuie tout d'abord sur une extraction de la silhouette pour chacune des caméras par une méthode de soustraction de fond. Une reconstruction en voxels de l'enveloppe visuelle du corps est ensuite obtenue grâce à un algorithme de Shape from Silhouettes. Cette enveloppe 3D fusionne les primitives extraites des images et les informations sur la géométrie du système d'acquisition, et représente un moyen de rendre l'estimation plus indépendante du placement des caméras. L'estimation est ensuite basée sur une régression : l'application permettant de passer de la forme 3D reconstruite à la configuration du corps correspondante est modélisée durant une phase d'apprentissage. Les informations a priori intégrées dans le modèle appris permettent une prédiction directe de la pose à partir des données images (représentées par l'enveloppe visuelle). Le temps de calcul associé à l'estimation est réduit car le travail de modélisation est reporté sur la phase d'entrainement effectuée hors-ligne. Des bases v tel-00725684, version 1 - 27 Aug 2012 vi d'apprentissage synthétiques ont été créées grâce à des logiciels d'animation d'avatars et de rendu 3D. Pour encoder de manière concise la géométrie de l'enveloppe visuelle, un nouveau descripteur 3D a été proposé. Différentes possibilités sur la paramétrisation du mouvement du corps, la complexité du descripteur, la méthode de régression, la configuration des caméras...ont été envisagées et testées. Toutes les méthodes proposées sont évaluées quantitativement sur des données synthétiques, qui permettent une comparaison à la vérité terrain. La robustesse du système est éprouvée qualitativement grâce à des tests sur des séquences réelles, portant sur l'analyse des mouvements de marche et de bras.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00725684 |
Date | 05 May 2009 |
Creators | Gond, Laetitia |
Publisher | Université Blaise Pascal - Clermont-Ferrand II |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0017 seconds