Spelling suggestions: "subject:"suivi duu envisage"" "subject:"suivi dud envisage""
1 |
Une technique de relaxation pour la mise en correspondance d'images: Application à la reconnaissance d'objets et au suivi du visage.Sidibe, Dro Désiré 07 December 2007 (has links) (PDF)
Le principal intérêt de l'utilisation des invariants locaux pour la mise en correspondance de différentes vues d'une même scène est le caractère local qui les rend robustes aux occultations et aux changements de point de vue et d'échelle. Néanmoins, cette localité limite le pouvoir discriminant des descripteurs locaux qui échouent dans les cas dificiles où l'ambiguité est élevée. Dans une première partie, nous proposons une méthode de mise en correspondance basée sur la relaxation qui prend en compte une information plus globale, dite contextuelle, afin de garantir des résultats corrects même dans les cas les plus dificiles. Nous présentons une application dans le cadre de la reconnaissance d'objets dans des scènes complexes. Dans une seconde partie, nous abordons le problème de la détection et du suivi du visage dans une séquence d'image. Nous proposons une méthode simple et eficace pour la détection du visage dans une image couleur, et nous montrons comment l'algorithme de mise en correspondance peut être utilisé pour suivre eficacement le visage dans une séquence d'images.
|
2 |
Vision par ordinateur pour l'interaction homme-machine fortement coupléeBérard, François 30 November 1999 (has links) (PDF)
Cette thèse traite de l'usage de la vision par ordinateur pour des situations d'interaction fortement couplée (IFC) entre l'Homme et la machine. Une interaction est fortement couplée sur un intervalle de temps donné lorsque les systèmes humain et artificiel sont engagés de manière continue dans l'accomplissement d'actions physiques mutuellement observables et dépendantes sur cet intervalle. Le déplacement d'un objet graphique avec la souris relève de l'IFC. Nous modélisons l'IFC sous la forme d'un système en boucle fermée constitué de deux sous-systèmes de type stimulus-réponse. Ce modèle permet d'identifier des requis applicables à la conception, à la réalisation ou à l'évaluation de dispositifs utilisables en IFC. En particulier, nous recommandons une latence inférieure à 50 ms., une résolution adaptée à la tâche utilisateur et la satisfaction de la stabilité statique. Nous considérons ensuite l'usage de la vision par ordinateur dans ce contexte. Une revue des deux approches dominantes du domaine, vision orientée modèle et vision par apparence, nous permet de justifier notre choix de la seconde dont les techniques, de plus faible complexité de calcul, sont susceptibles de satisfaire le requis de latence. Nous présentons ensuite les techniques de vision par ordinateur que nous avons réalisées en adoptant une approche résolument dirigée par la tâche utilisateur. Les deux derniers chapitres détaillent nos expérimentations à la fois techniques et ergonomiques avec la mise en ¦uvre de deux prototypes : le tableau magique et la fenêtre perceptuelle. Le premier utilise un suivi du doigt en vision par ordinateur pour la désignation d'inscriptions sur un tableau blanc physique amplifié de services électroniques. La fenêtre perceptuelle, quant à elle, utilise un suivi du visage comme nouveau flux d'entrée spatiale dans une interface graphique usuelle. Ce flux est utilisé pour la navigation dans une fenêtre.
|
3 |
Machine Observation of the Direction of Human Visual Focus of AttentionGourier, Nicolas 19 October 2006 (has links) (PDF)
Les personnes dirigent souvent leur attention vers les objets avec lesquels ils interagissent. Une premiere etape que doivent franchir les systemes informatiques pour s'adapter aux utilisateurs et ameliorer leurs interactions avec eux est de localiser leur emplacement, et en particulier la position de leur tete dans l'image. L'etape suivante est de suivre leur foyer d'attention. C'est pourquoi nous nous interessons aux techniques permettant d'estimer et de suivre le regard des utilisateurs, et en particulier l'orientation de leur tete.<br /><br />Cette these presente une approche completement automatique et independante de l'identite de la personne pour estimer la pose d'un visage a partir d'images basse resolution sous conditions non contraintes. La methode developpee ici est evaluee et validee avec une base de donnees d'images echantillonnee. Nous<br />proposons une nouvelle approche a 2 niveaux qui utilise les apparences globales et locales pour estimer l'orientation de la tete. Cette methode est simple, facile a implementer et robuste a l'occlusion partielle. Les images de visage sont normalisees en<br />taille dans des images de faible resolution a l'aide d'un<br />algorithme de suivi de visage. Ces imagettes sont ensuite projetees dans des memoires autoassociatives et entraineespar la regle d'apprentissage de Widrow-Hoff. Les memoires autoassociatives ne necessitent que peu de parametres et evitent l'usage de couches cachees, ce qui permet la sauvegarde et le chargement de prototypes de poses du visage humain. Nous obtenons une premiere estimation de l'orientation de la tete sur des sujets connus et inconnus.<br /><br />Nous cherchons ensuite dans l'image les traits faciaux saillants du visage pertinents pour chaque pose. Ces traits sont decrits par des champs receptifs gaussiens normalises a l'echelle intrinseque. Ces descripteurs ont des proprietes interessantes et sont moins couteux que les ondelettes de Gabor. Les traits saillants du visage detectes par les champs receptifs gaussiens motivent la construction d'un modele de graphe pour chaque pose. Chaque noeud du graphe peut etre deplace localement en fonction de la saillance du point facial qu'il represente. Nous recherchons parmi les poses voisines de celle trouvee par les memoires autoassociatives le graphe qui correspond le mieux a l'image de test. La pose correspondante est selectionnee comme la pose du visage de la personne sur l'image. Cette methode n'utilise pas d'heuristique, d'annotation manuelle ou de connaissances prealables sur le visage et peut etre adaptee pour estimer la pose d'autres objets deformables.
|
4 |
Extraction d’une image dans une vidéo en vue de la reconnaissance du visage / Extraction of an image in order to apply face recognition methodsPyun, Nam Jun 09 November 2015 (has links)
Une vidéo est une source particulièrement riche en informations. Parmi tous les objets que nous pouvons y trouver, les visages humains sont assurément les plus saillants, ceux qui attirent le plus l’attention des spectateurs. Considérons une séquence vidéo dont chaque trame contient un ou plusieurs visages en mouvement. Ils peuvent appartenir à des personnes connues ou qui apparaissent de manière récurrente dans la vidéo Cette thèse a pour but de créer une méthodologie afin d’extraire une ou plusieurs images de visage en vue d’appliquer, par la suite, un algorithme de reconnaissance du visage. La principale hypothèse de cette thèse réside dans le fait que certains exemplaires d’un visage sont meilleurs que d’autres en vue de sa reconnaissance. Un visage est un objet 3D non rigide projeté sur un plan pour obtenir une image. Ainsi, en fonction de la position relative de l’objectif par rapport au visage, l’apparence de ce dernier change. Considérant les études sur la reconnaissance de visages, on peut supposer que les exemplaires d’un visage, les mieux reconnus sont ceux de face. Afin d’extraire les exemplaires les plus frontaux possibles, nous devons d’une part estimer la pose de ce visage. D’autre part, il est essentiel de pouvoir suivre le visage tout au long de la séquence. Faute de quoi, extraire des exemplaires représentatifs d’un visage perd tout son sens. Les travaux de cette thèse présentent trois parties majeures. Dans un premier temps, lorsqu’un visage est détecté dans une séquence, nous cherchons à extraire position et taille des yeux, du nez et de la bouche. Notre approche se base sur la création de cartes d’énergie locale principalement à direction horizontale. Dans un second temps, nous estimons la pose du visage en utilisant notamment les positions relatives des éléments que nous avons extraits. Un visage 3D a trois degrés de liberté : le roulis, le lacet et le tangage. Le roulis est estimé grâce à la maximisation d’une fonction d’énergie horizontale globale au visage. Il correspond à la rotation qui s’effectue parallèlement au plan de l’image. Il est donc possible de le corriger pour qu’il soit nul, contrairement aux autres rotations. Enfin, nous proposons un algorithme de suivi de visage basé sur le suivi des yeux dans une séquence vidéo. Ce suivi repose sur la maximisation de la corrélation des cartes d’énergie binarisées ainsi que sur le suivi des éléments connexes de cette carte binaire. L’ensemble de ces trois méthodes permet alors tout d’abord d’évaluer la pose d’un visage qui se trouve dans une trame donnée puis de lier tous les visages d’une même personne dans une séquence vidéo, pour finalement extraire plusieurs exemplaires de ce visage afin de les soumettre à un algorithme de reconnaissance du visage. / The aim of this thesis is to create a methodology in order to extract one or a few representative face images of a video sequence with a view to apply a face recognition algorithm. A video is a media particularly rich. Among all the objects present in the video, human faces are, for sure, the most salient objects. Let us consider a video sequence where each frame contains a face of the same person. The primary assumption of this thesis is that some samples of this face are better than the others in terms of face recognition. A face is a non-rigid 3D object that is projected on a plan to form an image. Hence, the face appearance changes according to the relative positions of the camera and the face. Many works in the field of face recognition require faces as frontal as possible. To extract the most frontal face samples, on the one hand, we have to estimate the head pose. On the other hand, tracking the face is also essential. Otherwise, extraction representative face samples are senseless. This thesis contains three main parts. First, once a face has been detected in a sequence, we try to extract the positions and sizes of the eyes, the nose and the mouth. Our approach is based on local energy maps mainly with a horizontal direction. In the second part, we estimate the head pose using the relative positions and sizes of the salient elements detected in the first part. A 3D face has 3 degrees of freedom: the roll, the yaw and the pitch. The roll is estimated by the maximization of a global energy function computed on the whole face. Since this roll corresponds to the rotation which is parallel to the image plan, it is possible to correct it to have a null roll value face, contrary to other rotations. In the last part, we propose a face tracking algorithm based on the tracking of the region containing both eyes. This tracking is based on the maximization of a similarity measure between two consecutive frames. Therefore, we are able to estimate the pose of the face present in a video frame, then we are also able to link all the faces of the same person in a video sequence. Finally, we can extract several samples of this face in order to apply a face recognition algorithm on them.
|
Page generated in 0.0848 seconds