• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Méthodes d'apprentissage pour l'estimation de la pose de la tête dans des images monoculaires

Bailly, Kévin 09 July 2010 (has links) (PDF)
Cette thèse s'inscrit dans le cadre de PILE, un projet médical d'analyse du regard, des gestes, et des productions vocales d'enfants en bas âge. Dans ce contexte, nous avons conçu et développé des méthodes de détermination de l'orientation de la tête, pierre angulaire des systèmes d'estimation de la direction du regard. D'un point de vue méthodologique, nous avons proposé BISAR (Boosted Input Selection Algorithm for Regression), une méthode de sélection de caractéristiques adaptée aux problèmes de régression. Elle consiste à sélectionner itérativement les entrées d'un réseau de neurones incrémental. Chaque entrée est associée à un descripteur sélectionné à l'aide d'un critère original qui mesure la dépendance fonctionnelle entre un descripteur et les valeurs à prédire. La complémentarité des descripteurs est assurée par un processus de boosting qui modifie, à chaque itération, la distribution des poids associés aux exemples d'apprentissage. Cet algorithme a été validé expérimentalement au travers de deux méthodes d'estimation de la pose de la tête. La première approche apprend directement la relation entre l'apparence d'un visage et sa pose. La seconde aligne un modèle de visage dans une image, puis estime géométriquement l'orientation de ce modèle. Le processus d'alignement repose sur une fonction de coût qui évalue la qualité de l'alignement. Cette fonction est apprise par BISAR à partir d'exemples de modèles plus ou moins bien alignés. Les évaluations de ces méthodes ont donné des résultats équivalents ou supérieurs aux méthodes de l'état de l'art sur différentes bases présentant de fortes variations de pose, d'identité, d'illumination et de conditions de prise de vues.
2

Tout est dans le regard : reconnaissance visuelle du comportement humain en vue subjective

Martinez, Francis 09 July 2013 (has links) (PDF)
Dans ce manuscrit, nous nous intéressons à l'analyse visuelle du comportement humain à partir de l'information du regard. A l'inverse des caméras statiques et externes, nous adoptons un point de vue subjectif, ce qui permet de placer le contexte d'étude au centre de l'être humain et de ses interactions avec l'environnement. Pour atteindre cet objectif, nous avons développé un eye-tracker porté, ainsi que des outils d'analyse associés, en particulier la reconnaissance d'attention dans le cadre d'interactions sociales et la reconnaissance d'activités subjectives. Dans la première partie de cette thèse, nous présentons un eye-tracker binoculaire tête porté à partir duquel nous estimons le regard du sujet. Contrairement à la plupart des systèmes basés sur l'éclairage infrarouge, notre approche fonctionne en éclairage visible. Pour cela, nous nous inspirons des méthodes basées apparence qui, au lieu, d'extraire des caractéristiques géométriques (par exemple, la pupille), exploitent l'image de l'oeil dans sa globalité et elles permettent donc de prendre en compte toutes les caractéristiques de l'oeil. Pour apprendre la relation entre les caractéristiques d'apparence et les coordonnées du point de regard dans l'image de la caméra scène, deux modèles de régression sont comparés : le Support Vector Regression et le Relevance Vector Regression. Nous proposons, ensuite, une nouvelle méthode de reconnaissance d'attention en vue subjective. Le regard subjectif est obtenu à l'aide de notre eye-tracker, tandis que le regard d'autrui est construit à partir de l'estimation de l'orientation de la tête par régression à noyaux multiples localisés. En combinant ces deux types de regard, nous calculons alors des scores d'attention qui permettent d'identifier des motifs attentionnels dyadiques tels que le regard mutuel, mais aussi des motifs d'ordre supérieur émanant de la nature triadique de notre expérience. Notre outil final d'analyse concerne la reconnaissance d'activités basée sur le regard et l'égo-mouvement. Ces mouvements sont quantifiés en fonction de leur direction et de leur amplitude et encodés sous forme de symboles. Des caractéristiques statistiques sont alors extraites via un codage multi-échelle et un partitionnement temporel. Pour la classification et la segmentation d'activités, nous décrivons une approche par apprentissage contextuel en intégrant des scores de prédiction d'un voisinage à longue portée. Une étude détaillée permet également de comprendre quelles caractéristiques jouent un rôle prédominant dans la représentation d'une activité.

Page generated in 0.0774 seconds