Global ETD Search

91	Nouvelles contributions à l'application des moments en asservissement visuel Yeremou Tamtsia, Aurélien 11 October 2013 (has links) (PDF) Cette thèse propose des contributions très prometteuses au sujet du choix des primitives visuelles en asservissement visuel utilisant les moments 2D extraits de l'image. Nous avons proposé une nouvelle manière de résoudre un problème important en asservissement visuel, à savoir la commande du mouvement de rotation suivant les axes orthogonaux à l'axe optique. Ce travail représente une amélioration significative des travaux précédents en asservissement visuel basé sur l'utilisation des moments 2D extraits de l'image pour commander les degrés de liberté des robots manipulateurs. La commande la plus utilisée est connue sous le nom de commande cinématique. L'approche emploie un descripteur global d'image basé sur des moments 2D "shifted" dont les invariants calculés à partir de ces moments 2D "shifted" utilisent des moments d'ordre faible connus pour être robustes au bruit. De plus, ces invariants choisis ne dépendant pas de la forme de l'objet, sont invariants au mouvement de translation, de rotation et d'échelle. Cette nouvelle façon de faire vient ainsi résoudre les problèmes vus dans les travaux précédents relatifs aux choix des combinaisons des moments invariants basés sur les moments centrés et qui dépendent de la forme de l'objet considéré. Dans les travaux précédents, ces invariants sont calculés avec des moments dont l'ordre est compris entre trois et cinq qui sont vulnérables aux bruits de mesure. D'un point de vue asservissement visuel, le travail est basé sur la détermination explicite de la matrice d'interaction calculée à partir des moments 2D "shifted" dont le choix des paramètres de décalages respectent les propriétés d'invariances aux mouvements de translation, de rotation et d'échelle. En procédant ainsi, les informations visuelles choisies montrent la capacité de représenter les objets de formes symétriques et non symétriques. Des résultats de simulations sont présentés pour illustrer la validité de notre proposition. [SPI:OTHER] Engineering Sciences/Other Moments 2D "shifted" Asservissement visuel Invariants
92	Recalage automatique de modèles 3D d'arcades dentaires à partir de photographies Destrez, Raphaël 13 December 2013 (has links) (PDF) En orthodontie, le diagnostic et la planification d'un traitement reposent sur la connaissance de l'architecture dentaire du patient relevée, entre autre, par un moulage en plâtre. Aujourd'hui, des logiciels permettent de manipuler des modèles numériques des arcades dentaires obtenus après numérisation des moulages. Afin d'observer l'engrènement des dents, il est nécessaire de mettre en occlusion les deux arcades numérisées séparément. Cette étape est actuellement manuelle et l'objet de ces travaux de thèse est de proposer une chaîne robuste de traitements permettant un recalage automatique des deux arcades guidé par plusieurs photos "en bouche" du patient. L'approche proposée consiste à définir trois types de points singuliers et à mettre en place des méthodes robustes de détection automatique à la fois sur les modèles 3D et les images couleur s'appuyant sur la courbure et la texture. Une fois mis en correspondance, ces points homologues 2D/3D permettent d'estimer les matrices de projection puis la transformation rigide (6ddl) pour positionner au mieux la mandibule par rapport au maxillaire en minimisant les erreurs de reprojection dans plusieurs vues. Afin de s'affranchir du bruit de détection, les positions 2D et/ou 3D des points sont améliorées au cours du processus d'optimisation. De nombreux tests sur des données virtuelles et réelles valident l'approche choisie. L'occlusion finale obtenue par recalage automatique est proche de la référence de l'expert. Les résultats sont encourageants pour fournir une alternative automatique à intégrer dans un outil d'aide au diagnostic. [SPI:OTHER] Engineering Sciences/Other Recalage visuel Orthodontie Détection automatique de points Matrice de projection
93	Robotisation de la réalisation de mosaïques d'images endomicroscopiques Rosa, Benoit 20 June 2013 (has links) (PDF) L'endomicroscopie confocale laser fibrée (pCLE, pour probe-based Confocal Laser Endomicroscopy) est une modalité d'imagerie qui permet d'obtenir des images d'un tissu en temps-réel, avec une résolution micrométrique, lorsque l'on place la sonde d'imagerie au contact de celui-ci. En chirurgie digestive, cette technologie peut être utilisée pour remplacer les biopsies extemporanées par des biopsies optiques, sans prélèvement de tissu. Ceci permet de réduire le temps opératoire et l'invasivité de l'opération. Généralement, afin de rendre un diagnostic clinique sur l'état cancéreux d'un tissu, les cliniciens analysent non seulement les cellules, mais également leur organisation relative. Cependant, pour des raisons techniques, il n'est pas possible d'avoir une sonde petite, donnant des images grand champ, et avec une résolution de l'ordre du micromètre. Ainsi, les images confocales sont la plupart du temps trop petites pour que les cliniciens puissent poser un diagnostic. Une solution possible à ce problème est de déplacer la sonde sur la surface du tissu afin de collecter une suite d'images que l'on recale afin grâce à un algorithme de mosaicing afin de reconstruire une image grand champ. Cette technique a fait l'objet de nombreuses études. Ces études ont essentiellement porté sur l'algorithme de mosaicing, et peu d'intérêt a été porté jusqu'à présent au mouvement de balayage de la sonde sur le tissu. La plupart du temps, ce mouvement est réalisé à la main en utilisant les manettes d'un fibroscope dans des applications de gastroentérologie. Ce type d'actionnement ne permet pas de contrôler la trajectoire de la sonde correctement, surtout en présence de mouvements physiologiques et de déformations des tissus sous l'action de la sonde. Notre travail porte sur la conception et le développement d'instruments minimalement invasifs robotisés permettant de réaliser des biopsies optiques dans la cavité abdominale. Premièrement, une méthode permettant d'estimer la vitesse dans les images endomicroscopiques est décrite et évaluée (chapitre 2). Cette méthode est alors utilisée pour mettre en évidence et modéliser les déformations des tissus mous lorsque la sonde est en mouvement à leur contact (chapitre 3). Un modèle phénoménologique simple utilisant un seul paramètre est proposé, ainsi qu'une procédure de calibration en ligne. Deux stratégies sont proposées afin de compenser les déformations, l'une utilisant une trajectoire ligne par ligne modifiée et l'autre utilisant un balayage en spirale qui permet de minimiser l'influence des déformations du tissu. Par ailleurs, un algorithme de commande par asservissement visuel est également proposé. Celui-ci est basé sur l'estimation de vitesse présentée dans le chapitre 2, et permet de contrôler précisément la position de la sonde tout en rejetant les déformations du tissus considérées comme une perturbation. Une variante de cet algorithme est également proposée pour contrôler la vitesse d'avance le long d'un balayage contraint à une trajectoire en spirale. On montre, lors d'expériences ex vivo réalisées avec un robot industriel de précision, que le bon contrôle de la position de la sonde le long de la trajectoire permet de réaliser des mosaïques significativement plus grandes que celles que l'on peut trouver dans la littérature existante. Enfin, les méthodes développées sont appliquées à des instruments minimalement invasifs. On propose ici une structure d'instrument qui combine des mouvements macroscopiques pour la navigation dans l'abdomen, un système passif de compensation des mouvements physiologiques, et un actionnement à l'échelle microscopique pour le balayage de la sonde. Deux systèmes de micro-actionnement sont proposés. Le premier utilise un actionnement hydraulique grâce à des micro-ballons et permet de réaliser des trajectoires arbitraires à la surface du tissu, tandis que le second a comme seul degré de liberté une rotation proximale qui est transformée en un mouvement de spirale grâce à un mécanisme distal. Des essais ex vivo et in vivo ont été menés avec succès afin de tester la précision et la robustesse des systèmes et algorithmes de commande proposés. Robotique médicale endomicroscopie confocale asservissement visuel micropositionnement
94	Shared-Neighbours methods for visual content structuring and mining Hamzaoui, Amel 10 May 2012 (has links) (PDF) This thesis investigates new clustering paradigms and algorithms based on the principle of the shared nearest-neighbors (SNN. As most other graph-based clustering approaches, SNN methods are actually well suited to overcome data complexity, heterogeneity and high-dimensionality.The first contribution of the thesis is to revisit existing shared neighbors methods in two points. We first introduce a new SNN formalism based on the theory of a contrario decision. This allows us to derive more reliable connectivity scores of candidate clusters and a more intuitive interpretation of locally optimum neighborhoods. We also propose a new factorization algorithm for speeding-up the intensive computation of the required sharedneighbors matrices.The second contribution of the thesis is a generalization of the SNN clustering approach to the multi-source case. Whereas SNN methods appear to be ideally suited to sets of heterogeneous information sources, this multi-source problem was surprisingly not addressed in the literature beforehand. The main originality of our approach is that we introduce an information source selection step in the computation of candidate cluster scores. As shown in the experiments, this source selection step makes our approach widely robust to the presence of locally outlier sources. This new method is applied to a wide range of problems including multimodal structuring of image collections and subspace-based clustering based on random projections. The third contribution of the thesis is an attempt to extend SNN methods to the context of bipartite k-nn graphs. We introduce new SNN relevance measures revisited for this asymmetric context and show that they can be used to select locally optimal bi-partite clusters. Accordingly, we propose a new bipartite SNN clustering algorithm that is applied to visual object's discovery based on a randomly precomputed matching graph. Experiments show that this new method outperformed state-of-the-art object mining results on OxfordBuilding dataset. Based on the discovered objects, we also introduce a new visual search paradigm, i.e. object-based visual query suggestion. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Shared-neighbours Clustering Multi-source Bipartite Graph Visuel suggestion
95	Asservissement visuel d'un éclairage opératoire Gauvin, Aurélien 05 June 2012 (has links) (PDF) Les travaux présentés dans ce manuscrit traitent de l'asservissement visuel d'un éclairage opératoire. Il s'agit d'une thèse CIFRE soutenue par l'entreprise MAQUET SAS et en collaboration avec le Laboratoire PRISME de l'Université d'Orléans. Les éclairages opératoires offrent à l'équipe chirurgicale des conditions d'éclairement suffisantes pour leur permettre d'accomplir leurs gestes. Leur positionnement est difficile en cours d'intervention et engendre fréquemment des heurts entre les membres de l'équipe. Les solutions déjà développées pour résoudre ce problème ne donnent pas satisfaction en raison de l'interaction forte entre le système et l'équipe chirurgicale. Nous proposons dans cette étude un éclairage opératoire asservi visuellement ne nécessitant pas d'information explicite, et opérationnel quel que soit le type de chirurgie. Il s'agit d'un système "intelligent" autrement dit capable de désigner de lui-même la zone où éclairer et "autonome", c'est-à-dire apte à se déplacer seul une fois les coordonnées de la cible connues. Ces deux points constituent la problématique de cette étude. Pour rendre "intelligent" l'éclairage opératoire, nous proposons un processus de désignation basé sur la reconnaissance d'objets spécifiques : le sang, la peau, les champs stériles et les instruments. Pour ce faire nous utilisons une fusion des attributs forme, couleur et mouvement basée sur le cadre crédibiliste. Nous résolvons les problèmes d'inhomogénéité de l'image dus à la puissance de l'éclairement par l'ajout d'une étape de fusion intermédiaire. Une fois l'ensemble des objets reconnus, nous procédons à la désignation de la zone à éclairer à l'aide de la théorie de la décision. L'autonomie du système est quant à elle assurée par une boucle d'asservissement visuel 2D, qui permet de faire converger l'éclairage vers la zone précédemment désignée. Nous avons réalisé au cours de cette étude un prototype quia permis de valider l'approche dans des conditions réelles. [SPI:OTHER] Engineering Sciences/Other Reconnaissance d'objets spécifiques Asservissement visuel
96	Modèles procéduraux littéraires et création sur ordinateur Rucar, Yan 27 January 2011 (has links) Cette thèse a pour problématique la relation entre le texte électronique et la notion de contrainte. Afin d’étudier la rencontre de la création contrainte avec l’environnement électronique, le corpus est constitué de deux séries d’oeuvres positionnées différemment par rapport au média numérique. Les sections 1 et 2 du Chapitre I traitent de textes contraints produits par des auteurs hors du contexte numérique et qui furent intégrés à l’écran d’ordinateur lors de la transmédiatisation de l’oeuvre imprimée. Ces sections exposent les principes d’écriture contrainte employés dans ces oeuvres, les versions électroniques de celles-ci étant analysées dans le chapitre II. La seconde partie du corpus est comprise par des oeuvres dont la procédure contraignante est électronique, des textes imprimés étant appropriés via des algorithmes. Ces procédures électroniques font intervenir des générateurs combinatoires de textes, qui redistribuent aléatoirement les composants des textes appropriés. Lorsque le texte n’est pas semblablement transformé, l’écrit approprié est livré à une autre forme de systématisme, qui altère l’oeuvre originale en la faisant défiler sur l’écran selon des lois perturbant l’appréhension du texte. Les spécificités générales des générateurs de textes sont exposées dans la section 3 du chapitre I. Les générateurs inclus dans le corpus sont analysés dans le chapitre III. L’étude de l’interaction entre la contrainte écrite et l’environnement électronique, entre des textes appropriés et des procédures électroniques, l’analyse des divergences et convergences entre ces deux formes de productions contraintes, permettra de définir une textualité électronique fondée sur un système. littérature électronique contrainte clinamen générateur de texte appropriation adaptation visuel interactivité mécanicité illisibilité interférence
97	Recalage automatique de modèles 3D d'arcades dentaires à partir de photographies / Automatic registration of 3D dental models from photographs Destrez, Raphaël 13 December 2013 (has links) En orthodontie, le diagnostic et la planification d'un traitement reposent sur la connaissance de l'architecture dentaire du patient relevée, entre autre, par un moulage en plâtre. Aujourd’hui, des logiciels permettent de manipuler des modèles numériques des arcades dentaires obtenus après numérisation des moulages. Afin d’observer l’engrènement des dents, il est nécessaire de mettre en occlusion les deux arcades numérisées séparément. Cette étape est actuellement manuelle et l’objet de ces travaux de thèse est de proposer une chaîne robuste de traitements permettant un recalage automatique des deux arcades guidé par plusieurs photos "en bouche" du patient. L'approche proposée consiste à définir trois types de points singuliers et à mettre en place des méthodes robustes de détection automatique à la fois sur les modèles 3D et les images couleur s’appuyant sur la courbure et la texture. Une fois mis en correspondance, ces points homologues 2D/3D permettent d'estimer les matrices de projection puis la transformation rigide (6ddl) pour positionner au mieux la mandibule par rapport au maxillaire en minimisant les erreurs de reprojection dans plusieurs vues. Afin de s’affranchir du bruit de détection, les positions 2D et/ou 3D des points sont améliorées au cours du processus d’optimisation. De nombreux tests sur des données virtuelles et réelles valident l'approche choisie. L’occlusion finale obtenue par recalage automatique est proche de la référence de l’expert. Les résultats sont encourageants pour fournir une alternative automatique à intégrer dans un outil d'aide au diagnostic. / In orthodontics, the diagnosis and the planning of a treatment rest on the knowledge of the dental architecture of the patient using, among others, a dental cast in plaster. Today, dedicated software allow to manipulate digital models of the dental arches obtained after digitalization of the casts. To observe the contact of teeth, it is necessary to register both arches scanned separately. This stage is at present manual and the object of this thesis research is to propose a robust chain processing allowing an automatic registration of both arches guided by several photos of the patient mouth. The proposed approach consists in defining three types of singular points and in setting up strong methods of automatic detection at the same time on the 3D models and the color images leaning on the curvature and the texture. Once put in correspondence, these 2D / 3D equivalent points allow to estimate the projection matrices then the rigid transformation (6ddl) to position at best the mandible in relation to the maxillary by minimizing the reprojection errors in several views. To free itself from the noise of detection, the 2D and/or 3D positions of the singular points are improved during the optimization process. Numerous tests on virtual and real data validate the proposed approach. The final occlusion obtained on the real data by automatic registration is close to the reference of the expert. These are encouraging results to supply an automatic alternative to be integrated into a help tool for the diagnosis. Recalage visuel Orthodontie Détection automatique de points Matrice de projection Visual registration Orthodontics Automatic point detection Projection matrix
98	Nouvelles contributions à l'application des moments en asservissement visuel / New contributions to the application of moments in visual servoing Yeremou Tamtsia, Aurélien 11 October 2013 (has links) Cette thèse propose des contributions très prometteuses au sujet du choix des primitives visuelles en asservissement visuel utilisant les moments 2D extraits de l’image. Nous avons proposé une nouvelle manière de résoudre un problème important en asservissement visuel, à savoir la commande du mouvement de rotation suivant les axes orthogonaux à l’axe optique. Ce travail représente une amélioration significative des travaux précédents en asservissement visuel basé sur l’utilisation des moments 2D extraits de l’image pour commander les degrés de liberté des robots manipulateurs. La commande la plus utilisée est connue sous le nom de commande cinématique. L’approche emploie un descripteur global d’image basé sur des moments 2D "shifted" dont les invariants calculés à partir de ces moments 2D "shifted" utilisent des moments d’ordre faible connus pour être robustes au bruit. De plus, ces invariants choisis ne dépendant pas de la forme de l’objet, sont invariants au mouvement de translation, de rotation et d’échelle. Cette nouvelle façon de faire vient ainsi résoudre les problèmes vus dans les travaux précédents relatifs aux choix des combinaisons des moments invariants basés sur les moments centrés et qui dépendent de la forme de l’objet considéré. Dans les travaux précédents, ces invariants sont calculés avec des moments dont l’ordre est compris entre trois et cinq qui sont vulnérables aux bruits de mesure. D’un point de vue asservissement visuel, le travail est basé sur la détermination explicite de la matrice d’interaction calculée à partir des moments 2D "shifted" dont le choix des paramètres de décalages respectent les propriétés d’invariances aux mouvements de translation, de rotation et d’échelle. En procédant ainsi, les informations visuelles choisies montrent la capacité de représenter les objets de formes symétriques et non symétriques. Des résultats de simulations sont présentés pour illustrer la validité de notre proposition. / This thesis proposes nice and very promising contributions about the choice of visual features in image moments-based visual servoing. We proposed a new way towards solving an important problem in Visual Servoing, namely control of non-optic axis rotational degrees of freedom. This work represents a significant improvement respect to previous works on image-based visual servoing of robot manipulators, with the camera in-hand configuration and under the control scheme known as kinematic control. The approach uses global image features that are based on shifted image moments of a planar target. The improvement consists in a particular selection of a combination of shifted image moments of low order such that they do not depend on the planar target shape ; thus solving the problem seen in related previous works where the selection of central or regular image moments combinations depended on the planar target shapes. From a visual servoing point of view, the work is based on the explicit resolution of the interaction matrix related to any shifted image moment, on the appropriate combination of these moments and on the proper selection of the shifted parameters. By doing so, the new features show improved ability to represent symmetrical objects and several kinds of objects defined from closed contours or from a set of points. Six visual features are selected to design a decoupled control scheme when the object is parallel to the image plane. This nice property is then generalized to the case where the desired object position is not parallel to the image plane. Finally simulated results are presented to illustrate the validity of our proposal. Moments 2D "shifted" Asservissement visuel Invariants Image- moments shifted Visual servoing Invariants
99	Robust visual detection and tracking of complex objects : applications to space autonomous rendez-vous and proximity operations / Détection et suivi visuels robustes d'objets complexes : applications au rendezvous spatial autonome Petit, Antoine 19 December 2013 (has links) Dans cette thèse nous étudions le fait de localiser complètement un objet connu par vision artificielle, en utilisant une caméra monoculaire, ce qui constitue un problème majeur dans des domaines comme la robotique. Une attention particulière est ici portée sur des applications de robotique spatiale, dans le but de concevoir un système de localisation visuelle pour des opérations de rendez-vous spatial autonome. Deux composantes principales du problème sont abordées: celle de la localisation initiale de l'objet ciblé, puis celle du suivi de cet objet image par image, donnant la pose complète entre la caméra et l'objet, connaissant le modèle 3D de l'objet. Pour la détection, l'estimation de pose est basée sur une segmentation de l'objet en mouvement et sur une procédure probabiliste d'appariement et d'alignement basée contours de vues synthétiques de l'objet avec une séquence d'images initiales. Pour la phase de suivi, l'estimation de pose repose sur un algorithme de suivi basé modèle 3D, pour lequel nous proposons trois différents types de primitives visuelles, dans l'idée de décrire l'objet considéré par ses contours, sa silhouette et par un ensemble de points d'intérêts. L'intégrité du système de localisation est elle évaluée en propageant l'incertitude sur les primitives visuelles. Cette incertitude est par ailleurs utilisée au sein d'un filtre de Kalman linéaire sur les paramètres de vitesse. Des tests qualitatifs et quantitatifs ont été réalisés, sur des données synthétiques et réelles, avec notamment des conditions d'image difficiles, montrant ainsi l'efficacité et les avantages des différentes contributions proposées, et leur conformité avec un contexte de rendez vous spatial. / In this thesis, we address the issue of fully localizing a known object through computer vision, using a monocular camera, what is a central problem in robotics. A particular attention is here paid on space robotics applications, with the aims of providing a unified visual localization system for autonomous navigation purposes for space rendezvous and proximity operations. Two main challenges of the problem are tackled: initially detecting the targeted object and then tracking it frame-by-frame, providing the complete pose between the camera and the object, knowing the 3D CAD model of the object. For detection, the pose estimation process is based on the segmentation of the moving object and on an efficient probabilistic edge-based matching and alignment procedure of a set of synthetic views of the object with a sequence of initial images. For the tracking phase, pose estimation is handled through a 3D model-based tracking algorithm, for which we propose three different types of visual features, pertinently representing the object with its edges, its silhouette and with a set of interest points. The reliability of the localization process is evaluated by propagating the uncertainty from the errors of the visual features. This uncertainty besides feeds a linear Kalman filter on the camera velocity parameters. Qualitative and quantitative experiments have been performed on various synthetic and real data, with challenging imaging conditions, showing the efficiency and the benefits of the different contributions, and their compliance with space rendezvous applications. Suivi visuel Détection d’objets Segmentation Robotique spatiale Visual tracking Object detection Moving object segmentation Space robotics
100	Localisation et suivi de visages à partir d'images et de sons : une approche Bayésienne temporelle et commumative / From images and sounds to face localization and tracking : a switching dynamical Bayesian framework Drouard, Vincent 18 December 2017 (has links) Dans cette thèse, nous abordons le problème de l’estimation de pose de visage dans le contexte des interactions homme-robot. Nous abordons la résolution de cette tâche à l’aide d’une approche en deux étapes. Tout d’abord en nous inspirant de [Deleforge 15], nous proposons une nouvelle façon d’estimer la pose d’un visage, en apprenant un lien entre deux espaces, l’espace des paramètres de pose et un espace de grande dimension représentant les observations perçues par une caméra. L’apprentissage de ce lien se fait à l’aide d’une approche probabiliste, utilisant un mélange de regressions affines. Par rapport aux méthodes d’estimation de pose de visage déjà existantes, nous incorporons de nouvelles informations à l’espace des paramètres de pose, ces additions sont nécessaires afin de pouvoir prendre en compte la diversité des observations, comme les differents visages et expressions mais aussi lesdécalages entre les positions des visages détectés et leurs positions réelles, cela permet d’avoir une méthode robuste aux conditions réelles. Les évaluations ont montrées que cette méthode permettait d’avoir de meilleurs résultats que les méthodes de regression standard et des résultats similaires aux méthodes de l’état de l’art qui pour certaines utilisent plus d’informations, comme la profondeur, pour estimer la pose. Dans un second temps, nous développons un modèle temporel qui utilise les capacités des traqueurs pour combiner l’information du présent avec celle du passé. Le but à travers cela est de produire une estimation de la pose plus lisse dans le temps, mais aussi de corriger les oscillations entre deux estimations consécutives indépendantes. Le modèle proposé intègre le précédent modèle de régression dans une structure de filtrage de Kalman. Cette extension fait partie de la famille des modèles dynamiques commutatifs et garde tous les avantages du mélange de regressionsaffines précédent. Globalement, le modèle temporel proposé permet d’obtenir des estimations de pose plus précises et plus lisses sur une vidéo. Le modèle dynamique commutatif donne de meilleurs résultats qu’un modèle de suivi utilsant un filtre de Kalman standard. Bien qu’appliqué à l’estimation de pose de visage le modèle presenté dans cette thèse est très général et peut être utilisé pour résoudre d’autres problèmes de régressions et de suivis. / In this thesis, we address the well-known problem of head-pose estimationin the context of human-robot interaction (HRI). We accomplish this taskin a two step approach. First, we focus on the estimation of the head pose from visual features. We design features that could represent the face under different orientations and various resolutions in the image. The resulting is a high-dimensional representation of a face from an RGB image. Inspired from [Deleforge 15] we propose to solve the head-pose estimation problem by building a link between the head-pose parameters and the high-dimensional features perceived by a camera. This link is learned using a high-to-low probabilistic regression built using probabilistic mixture of affine transformations. With respect to classic head-pose estimation methods we extend the head-pose parameters by adding some variables to take into account variety in the observations (e.g. misaligned face bounding-box), to obtain a robust method under realistic conditions. Evaluation of the methods shows that our approach achieve better results than classic regression methods and similar results thanstate of the art methods in head pose that use additional cues to estimate the head pose (e.g depth information). Secondly, we propose a temporal model by using tracker ability to combine information from both the present and the past. Our aim through this is to give a smoother estimation output, and to correct oscillations between two consecutives independent observations. The proposed approach embeds the previous regression into a temporal filtering framework. This extention is part of the family of switching dynamic models and keeps all the advantages of the mixture of affine regressions used. Overall the proposed tracker gives a more accurate and smoother estimation of the head pose on a video sequence. In addition, the proposed switching dynamic model gives better results than standard tracking models such as Kalman filter. While being applied to the head-pose estimation problem the methodology presented in this thesis is really general and can be used to solve various regression and tracking problems, e.g. we applied it to the tracking of a sound source in an image. Modèle probabiliste Interactions homme robots Audio-Visuel Probabilistic models Human-Robot interactions Audio-Visual 004

Search results