Global ETD Search

341	Reconnaissance de gestes à partir de séquences vidéos Kaâniche, Mohamed-Bécha 28 October 2009 (has links) (PDF) Dans cette thèse, nous voulons reconnaître les gestes (par ex. lever la main) et plus généralement les actions brèves (par ex. tomber, se baisser) effectués par un individu. De nombreux travaux ont été proposés afin de reconnaître des gestes dans un contexte précis (par ex. en laboratoire) à l'aide d'une multiplicité de capteurs (par ex. réseaux de cameras ou individu observé muni de marqueurs). Malgré ces hypothèses simplificatrices, la reconnaissance de gestes reste souvent ambigüe en fonction de la position de l'individu par rapport aux caméras. Nous proposons de réduire ces hypothèses afin de concevoir un algorithme général permettant de reconnaître des gestes d'un individu évoluant dans un environnement quelconque et observé à l'aide d'un nombre réduit de caméras. Il s'agit d'estimer la vraisemblance de la reconnaissance des gestes en fonction des conditions d'observation. Notre méthode consiste à classifier un ensemble de gestes à partir de l'apprentissage de descripteurs de mouvement. Les descripteurs de mouvement sont des signatures locales du mouvement de points d'intérêt associés aux descriptions locales de la texture du voisinage des points considérés. L'approche a été validée sur les bases de données de gestes publiques KTH et IXMAS; des résultats encourageants ont été obtenus. reconnaissance de gestes vision par ordinateur reconnaissance de comportements suivie de points d'intérêts descripteurs de mouvements filtres de Kalman apprentissage de gestes classification statistique
342	La perception des visages en vidéos: Contributions à un modèle saillance visuelle et son application sur les GPU Rahman, Anis 13 April 2013 (has links) (PDF) Les études menées dans cette thèse portent sur le rôle des visages dans l'attention visuelle. Nous avons cherché à mieux comprendre l'influence des visages dans les vidéos sur les mouvements oculaires, afin de proposer un modèle de saillance visuelle pour la prédiction de la direction du regard. Pour cela, nous avons analysé l'effet des visages sur les fixations oculaires d'observateurs regardant librement (sans consigne ni tâche particulière) des vidéos. Nous avons étudié l'impact du nombre de visages, de leur emplacement et de leur taille. Il est apparu clairement que les visages dans une scène dynamique (à l'instar de ce qui se passe sur les images fixes) modifie fortement les mouvements oculaires. En nous appuyant sur ces résultats, nous avons proposé un modèle de saillance visuelle, qui combine des caractéristiques classiques de bas-niveau (orientations et fréquences spatiales, amplitude du mouvement des objets) avec cette caractéristique importante de plus haut-niveau que constitue les visages. Enfin, afin de permettre des traitements plus proches du temps réel, nous avons développé une implémentation parallèle de ce modèle de saillance visuelle sur une plateforme multi-GPU. Le gain en vitesse est d'environ 130x par rapport à une implémentation sur un processeur multithread. perception des visages saillance visuelle GPGPU
343	Détection, localisation et suivi des obstacles et objets mobiles à partir d'une plate-forme de stéréovision Lefaudeux, Benjamin 30 September 2013 (has links) (PDF) Les véhicules autonomes se mouvant dans un environnement quelconque peuvent être confrontés à la présence de nombreux objets mobiles, dont la localisation et la trajectoire sont indépendantes. Cette problématique est particulièrement présente dans la thématique du transport en milieu urbain, mais sa portée est plus générale. On présente dans cette thèse une solution de perception d'un environnement dynamique, à partir d'une paire de caméra, qui vise à fournir en temps réel une cartographie en trois dimensions de l'environnement courant, ainsi que la vitesse indépendante des points suivis. Cette solution propose par ailleurs des algorithmes de détection, segmentation et suivi des objets mobiles, et fourni donc une liste des objets mobiles de l'environnement, dont les positions, dimensions et vitesses sont connues. [INFO:INFO_RB] Computer Science/Robotics [INFO:INFO_RB] Informatique/Robotique robotique perception traitement d'images SLAM SLAMMOT segmentation suivi multi-cibles cartographie stéréo-vision
344	Stratégie de perception pour la compréhension de scènes par une approche focalisante, application à la reconnaissance d'objets Trujillo Morales, Noël 13 December 2007 (has links) (PDF) La problématique scientifique abordée concerne la reconnaissance visuelle d'objets s'inscrivant dans une scène observée. Nous proposons une méthodologie qui va de la définition et la construction du modèle de l'objet, jusqu'à la définition de la stratégie pour la reconnaissance ultérieure de celui-ci. Du point de vue de la représentation, cette approche est capable de modéliser aussi bien la structure de l'objet que son apparence ; à partir de caractéristiques multiples. Celles-ci servent d'indices d'attention lors de la phase de reconnaissance. Dans ce cadre, reconnaître l'objet revient à " instancier " ce modèle dans la scène courante. La tâche de reconnaissance correspond à un processus actif de génération/vérification d'hypothèses régi par le principe de focalisation. Ce dernier agissant sur quatre niveaux du " spectre attentionnel " : la sélection des opérateurs pour le traitement bas niveau, la sélection de l'intervalle d'action de ceux-ci, la sélection de la résolution et la sélection de la région d'intérêt dans l'image. Le fait d'agir sur tous ces niveaux, entraîne une diminution de la combinatoire implicite dans une problématique de recherche visuelle. Sous un regard plutôt unifié, le mécanisme de contrôle de l'attention, du type bottom-up$top-down, reste implicite dans la stratégie globale de reconnaissance. La " focalisation progressive " et la représentation hybride du modèle, permettent de tirer profit des deux types de représentation classiques. D'une part, la structure de l'objet permet de focaliser le processus de reconnaissance à partir d'observations locales, d'autre part, une fois détectée la région probable de l'objet, la décision finale est faite à partir de l'apparence de celui-ci. Dans le cadre proposé, en intégrant des connaissances sur la structure de la scène (paramètres 3D), d'autres tâches comme celles de la localisation et du suivi sont intégrées d'une façon naturelle. La prise en compte de ces paramètres permet d'estimer l'évolution de la zone d'intérêt dans l'image, lorsque l'objet évolue dans le monde 3D. La méthodologie proposée a été testée pour la reconnaissance, la localisation et le suivi de visages et de piétons. Vision par ordinateur Vision artificielle (robotique) Reconnaissance des formes (informatique) Perception visuelle Perception des formes Perception des visages Imagerie tridimensionnelle Analyse de scènes (informatique)
345	Vidéosurveillance intelligente pour la détection de chutes chez les personnes âgées Rougier, Caroline 03 1900 (has links) Les pays industrialisés comme le Canada doivent faire face au vieillissement de leur population. En particulier, la majorité des personnes âgées, vivant à domicile et souvent seules, font face à des situations à risques telles que des chutes. Dans ce contexte, la vidéosurveillance est une solution innovante qui peut leur permettre de vivre normalement dans un environnement sécurisé. L’idée serait de placer un réseau de caméras dans l’appartement de la personne pour détecter automatiquement une chute. En cas de problème, un message pourrait être envoyé suivant l’urgence aux secours ou à la famille via une connexion internet sécurisée. Pour un système bas coût, nous avons limité le nombre de caméras à une seule par pièce ce qui nous a poussé à explorer les méthodes monoculaires de détection de chutes. Nous avons d’abord exploré le problème d’un point de vue 2D (image) en nous intéressant aux changements importants de la silhouette de la personne lors d’une chute. Les données d’activités normales d’une personne âgée ont été modélisées par un mélange de gaussiennes nous permettant de détecter tout événement anormal. Notre méthode a été validée à l’aide d’une vidéothèque de chutes simulées et d’activités normales réalistes. Cependant, une information 3D telle que la localisation de la personne par rapport à son environnement peut être très intéressante pour un système d’analyse de comportement. Bien qu’il soit préférable d’utiliser un système multi-caméras pour obtenir une information 3D, nous avons prouvé qu’avec une seule caméra calibrée, il était possible de localiser une personne dans son environnement grâce à sa tête. Concrêtement, la tête de la personne, modélisée par une ellipsoide, est suivie dans la séquence d’images à l’aide d’un ﬁltre à particules. La précision de la localisation 3D de la tête a été évaluée avec une bibliothèque de séquence vidéos contenant les vraies localisations 3D obtenues par un système de capture de mouvement (Motion Capture). Un exemple d’application utilisant la trajectoire 3D de la tête est proposée dans le cadre de la détection de chutes. En conclusion, un système de vidéosurveillance pour la détection de chutes avec une seule caméra par pièce est parfaitement envisageable. Pour réduire au maximum les risques de fausses alarmes, une méthode hybride combinant des informations 2D et 3D pourrait être envisagée. / Developed countries like Canada have to adapt to a growing population of seniors. A majority of seniors reside in private homes and most of them live alone, which can be dangerous in case of a fall, particularly if the person cannot call for help. Video surveillance is a new and promising solution for healthcare systems to ensure the safety of elderly people at home. Concretely, a camera network would be placed in the apartment of the person in order to automatically detect a fall. When a fall is detected, a message would be sent to the emergency center or to the family through a secure Internet connection. For a low cost system, we must limit the number of cameras to only one per room, which leads us to explore monocular methods for fall detection. We ﬁrst studied 2D information (images) by analyzing the shape deformation during a fall. Normal activities of an elderly person were used to train a Gaussian Mixture Model (GMM) to detect any abnormal event. Our method was tested with a realistic video data set of simulated falls and normal activities. However, 3D information like the spatial localization of a person in a room can be very useful for action recognition. Although a multi-camera system is usually preferable to acquire 3D information, we have demonstrated that, with only one calibrated camera, it is possible to localize a person in his/her environment using the person’s head. Concretely, the head, modeled by a 3D ellipsoid, was tracked in the video sequence using particle ﬁlters. The precision of the 3D head localization was evaluated with a video data set containing the real 3D head localizations obtained with a Motion Capture system. An application example using the 3D head trajectory for fall detection is also proposed. In conclusion, we have conﬁrmed that a video surveillance system for fall detection with only one camera per room is feasible. To reduce the risk of false alarms, a hybrid method combining 2D and 3D information could be considered. Vision par ordinateur Computer vision Vidéo surveillance Videosurveillance Détection de chutes Fall detection Détection de mouvement Motion detection Suivi d’une cible Tracking Analyse de forme Shape analysis Localisation 3D 3D localization
346	Le cinéma omnistéréo ou l'art d'avoir des yeux tout le tour de la tête Chapdelaine-Couture, Vincent 12 1900 (has links) Cette thèse s'intéresse à des aspects du tournage, de la projection et de la perception du cinéma stéréo panoramique, appelé aussi cinéma omnistéréo. Elle s'inscrit en grande partie dans le domaine de la vision par ordinateur, mais elle touche aussi aux domaines de l'infographie et de la perception visuelle humaine. Le cinéma omnistéréo projette sur des écrans immersifs des vidéos qui fournissent de l'information sur la profondeur de la scène tout autour des spectateurs. Ce type de cinéma comporte des défis liés notamment au tournage de vidéos omnistéréo de scènes dynamiques, à la projection polarisée sur écrans très réfléchissants rendant difficile l'estimation de leur forme par reconstruction active, aux distorsions introduites par l'omnistéréo pouvant fausser la perception des profondeurs de la scène. Notre thèse a tenté de relever ces défis en apportant trois contributions majeures. Premièrement, nous avons développé la toute première méthode de création de vidéos omnistéréo par assemblage d'images pour des mouvements stochastiques et localisés. Nous avons mis au point une expérience psychophysique qui montre l'efficacité de la méthode pour des scènes sans structure isolée, comme des courants d'eau. Nous proposons aussi une méthode de tournage qui ajoute à ces vidéos des mouvements moins contraints, comme ceux d'acteurs. Deuxièmement, nous avons introduit de nouveaux motifs lumineux qui permettent à une caméra et un projecteur de retrouver la forme d'objets susceptibles de produire des interréflexions. Ces motifs sont assez généraux pour reconstruire non seulement les écrans omnistéréo, mais aussi des objets très complexes qui comportent des discontinuités de profondeur du point de vue de la caméra. Troisièmement, nous avons montré que les distorsions omnistéréo sont négligeables pour un spectateur placé au centre d'un écran cylindrique, puisqu'elles se situent à la périphérie du champ visuel où l'acuité devient moins précise. / This thesis deals with aspects of shooting, projection and perception of stereo panoramic cinema, also called omnistereo cinema. It falls largely in the field of computer vision, but it also in the areas of computer graphics and human visual perception. Omnistereo cinema uses immersive screens to project videos that provide depth information of a scene all around the spectators. Many challenges remain in omnistereo cinema, in particular shooting omnistereo videos for dynamic scenes, polarized projection on highly reflective screens making difficult the process to recover their shape by active reconstruction, and perception of depth distortions introduced by omnistereo images. Our thesis addressed these challenges by making three major contributions. First, we developed the first mosaicing method of omnistereo videos for stochastic and localized motions. We developed a psychophysical experiment that shows the effectiveness of the method for scenes without isolated structure, such as water flows. We also propose a shooting method that adds to these videos foreground motions that are not as constrained, like a moving actor. Second, we introduced new light patterns that allow a camera and a projector to recover the shape of objects likely to produce interreflections. These patterns are general enough to not only recover the shape of omnistereo screens, but also very complex objects that have depth discontinuities from the viewpoint of the camera. Third, we showed that omnistereo distortions are negligible for a viewer located at the center of a cylindrical screen, as they are in the periphery of the visual field where the human visual system becomes less accurate. cinéma cinema omnistéréo omnistereo immersion immersion panoramique panoramic stéréo stereo vision par ordinateur computer vision perception visuelle visual perception reconstruction active active reconstruction expérience psychophysique psychophysic experiment
347	Robust visual detection and tracking of complex objects : applications to space autonomous rendez-vous and proximity operations Petit, Antoine 19 December 2013 (has links) (PDF) In this thesis, we address the issue of fully localizing a known object through computer vision, using a monocular camera, what is a central problem in robotics. A particular attention is here paid on space robotics applications, with the aims of providing a unified visual localization system for autonomous navigation purposes for space rendezvous and proximity operations. Two main challenges of the problem are tackled: initially detecting the targeted object and then tracking it frame-by-frame, providing the complete pose between the camera and the object, knowing the 3D CAD model of the object. For detection, the pose estimation process is based on the segmentation of the moving object and on an efficient probabilistic edge-based matching and alignment procedure of a set of synthetic views of the object with a sequence of initial images. For the tracking phase, pose estimation is handled through a 3D model-based tracking algorithm, for which we propose three different types of visual features, pertinently representing the object with its edges, its silhouette and with a set of interest points. The reliability of the localization process is evaluated by propagating the uncertainty from the errors of the visual features. This uncertainty besides feeds a linear Kalman filter on the camera velocity parameters. Qualitative and quantitative experiments have been performed on various synthetic and real data, with challenging imaging conditions, showing the efficiency and the benefits of the different contributions, and their compliance with space rendezvous applications. [INFO:INFO_RB] Computer Science/Robotics [INFO:INFO_RB] Informatique/Robotique Visual tracking Object detection Moving object segmentation Space robotics
348	Interaction en réalité augmentée spatiale pour le dessin physique Laviole, Jérémy 05 December 2013 (has links) (PDF) Cette dissertation décrit le design, implémentation et évaluation de nouvelles applications en Réalité Augmentée Spatiale (RAS). Ces applications sont concentrées sur l'amélioration du dessin physique tel que les dessins au crayons ou peintures en projetant des outils numériques.Tout d'abord, nous décrivons notre système de RAS et ses possibilités. Il prend en comptes les paramètres internes et externes d'un couple caméra/projecteur pour permettre une projection précise sur des feuilles de papier. De plus, il permet la détection du toucher des feuilles et de la position de la main au dessus de celles-ci grâce à une caméra de profondeur. Par conséquent, il permet la création d'écrans tactiles interactifs sur des feuilles de papier posées sur une table.Ensuite, nous nous penchons sur la création d'art visuel, plus précisément sur les premières étapes de la création quand l'artiste créer la structure. Nous oﬀrons la possibilité de créer et d'éditer des lignes de construction numériques (LCN) projetées sur le papier. Ces outils sont des outils de Réalité Augmentée (RA), c'est-à-dire qu'ils s'ajoutent aux outils existants: toute l'interface utilisateur est sur la table, et l'utilisateur n'utilise jamais ni une souris, ni un clavier ni un écran. En plus des simples LCN (lignes et courbes), nous proposons une spécialisation pour les dessins spéciﬁques tels que les dessins en perspective, les dessins de personnages ainsi que les dessins à partir d'un modèle 3D. Nous proposons de nouvelles méthodes pour aﬃcher et interagir avec des objets 3D sur papier. Nous proposons également de créer des dessins mixtes:art visuel interactif qui tire parti à la fois des possibilités physiques et numériques.Pour ﬁnir, nous décrivons des nouveaux usages pour notre système de RAS de nombreux contextes diﬀérents à travers des démonstrations publiques. L'acceptabilité de ce genre de système a été très bonne, et "magique" par la plupart des utilisateurs. Ils ont juste vu et interagis avec des feuilles de papier sans remarquer le système de projection et suivi. Réalité augmentée spatial Projection Papier Interaction tangible Caméra de profondeur Création Artistique Code créatif Interaction spatiale
349	Calcul neuronal distribué pour la perception visuelle du mouvement Cerda, Mauricio 14 October 2011 (has links) (PDF) Le travail présenté dans cette thèse propose des modèles de calcul pour l'extraction du mouvement et la reconnaissance de formes dynamiques à partir du flux d'informations visuelles, en s'inspirant des mécanismes correspondants mis en jeu dans le cerveau. Plus précisément, nous proposons des hypothèses sur la façon dont le mécanisme cérébral de ces tâches peut fonctionner et nous nous efforçons de déterminer comment des neurones avec un petit champ récepteur sont en mesure de fournir des réponses cohérentes et de coder des formes dynamiques complexes. Nous étudions chaque aspect du traitement réalisé dans le cerveau que nous avons modélisé dans un cadre connexionniste, en montrant comment ces systèmes distribués peuvent être utilisés pour des tâches complexes telles que la détection de mouvement et la reconnaissance de formes dynamiques. Du point de vue informatique ces modèles offrent de nouveaux algorithmes, avec des propriétés intéressantes telles que l'utilisation de mémoire distribuée et la robustesse. La détection de mouvement et la discrimination de motifs visuels complexes à partir de ce signal (ou "vision cognitive") structurent les deux parties dans lesquelles le manuscrit se divise. La première partie porte sur la détection de mouvement en étudiant la façon dont l'extraction de caractéristiques visuelles est effectuée à partir du flux d'information visuel, et en particulier la façon dont les problèmes dus à la petite taille et la gamme de détection réduite des détecteurs de mouvement locaux peuvent être résolus. Dans la deuxième partie nous étudions la façon dont la classification des motifs visuels dynamiques complexes est réalisée à partir du traitement fourni par le système primaire de vision pour réaliser ce que nous appelons la vision cognitive, en évaluant au passage différentes techniques d'extraction de caractéristiques visuelles. Sciences cognitives perception du mouvement mouvement biologique réseaux neuronaux
350	Construction et analyse de transformées discrètes en ondelettes : spéciﬁcité de l'image et de la couleur Carré, Philippe 17 November 2011 (has links) (PDF) La problématique centrale de mes travaux est l'étude de méthodes de décomposition discrète Temps-échelle. Ils s'inscrivent pleinement dans l'équipe projet ICONES, dont j'assure l'animation. Dans ce cadre, je me suis concentré, dès mon intégration dans le laboratoire sur les décompositions atomiques discrètes reconstructibles définies dans le domaine général des ondelettes. Toutes ces méthodes possèdent maintenant un cadre général et notamment la transformée en ondelettes standard. Cependant, il existe encore certaines limites : construction d'une représentation efficace d'éléments géométriques 2-D de l'image, généralisation de ces transformées à des signaux à valeurs vectorielles reste. L'objectif recherché est donc une représentation liée à une structure de données sous forme de primitives, facilement calculable par un algorithme, telle que l'ensemble de ces primitives permettent la reconstruction de la donnée d'origine. Il faut par ailleurs que l'on puisse ordonner ces primitives et que l'on puisse donner un sens à ces primitives. Dans ce cadre, mon travail va se découper suivant trois axes de recherche et un axe applicatif fort. Approche géométrique. Nous avons étudié un outil qui permet la représentation d'images d'une manière optimale (au sens des ruptures linéaires) : la transformée Ridgelet. Grâce à une collaboration avec les chercheurs en géométrie discrète du département XLIM-SIC nous avons proposé une transformée Ridgelet/Curvelets paramétrable, rapide et inversible, obtenant des résultats en termes de restauration de données 2-D très satisfaisants, notamment en vidéo. De plus, la simplicité et la rigueur dans la définition apportée par la géométrie discrète nous a permis d'étendre ce travail à toute dimension. Suivant ce même but, à savoir capter la géométrie pour adapter la transformée, nous avons proposé dans le cadre d'un partenariat avec OrangeLab une représentation en ondelettes géodésiques qui se propose d'introduire une modélisation de la topologie dans un schéma numérique de calcul du type Lifting Scheme. Il s'appuie sur la construction d'un graphe qui doit capter l'organisation structurelle de l'image à traiter. De ce graphe, une distance entre chaque pixel de l'image est estimée et introduite dans l'algorithme de décomposition. Couleur et MultiCanaux. L'objet de ce second axe a été d'examiner des approches plus globales pour l'extension des briques élémentaires issues du signal dans le cadre des images couleur. Suivant cette idée, j'ai débuté dès 2001 une étude concernant l'utilisation des quaternions. Cette recherche a concerné la redéfinition des traitements classiques couleur en termes quaternionique, comme le filtrage, la modification des caractéristiques couleur ... Ceci a fait l'objet d'une thèse, notamment à travers la redéfinition des manipulations couleur avec un formalisme lié à l'algèbre géométrique. Approche orientée. Le simple découpage horizontal, vertical et selon les deux diagonales, lié à l'approche classique, n'est pas suffisant à la fois en termes de description du signal mais aussi par rapport à ce que l'on connait du système visuel humain. L'objectif est de définir une représentation associée à des directions d'analyse plus adaptatives, invariante soit à la translation soit à la rotation. La transformée en ondelettes complexes suivant l'arbre dual constitue une réponse possible. A partir de ces travaux, nous étudions une approche alternative reposant sur les travaux de Bulow et al. et Choi et al. sur le signal analytique 2-D à partir des nombres quaternioniques. Ce travail permet de mettre en place une transformée en ondelettes quaternioniques pour la compression et la classification introduisant une nouvelle information : une notion de phase. La généralisation de ce travail nous mène à la définition d'ondelettes monogéniques qui peuvent être considérées en termes signalistique, comme les décompositions les plus abouties. Cependant de nombreuses questions restent ouvertes, et la première d'entre-elles étant la définition d'un schéma numérique stable. Sécurité. Depuis plusieurs années maintenant, j'ai développé un travail sur la protection électronique des images et vidéo, qui a donné lieu à 2 brevets sur le tatouage basé ondelettes, et intégrant des données psychovisuelles de perception des couleurs. Ces travaux se sont maintenant poursuivis dans le cadre d'une collaboration avec le département DMI de XLIM. L'objectif visé est l'intégration des différentes familles de codes correcteurs d'erreur afin d'améliorer la robustesse d'une stratégie de tatouage. Les résultats montrent effectivement une amélioration de la robustesse de l'algorithme breveté. Nous poursuivons ce travail sous un angle un peu différent à travers la définition d'algorithme de stétaganalyse en utilisant les compétences de l'équipe Icones autour des métriques de qualité. Ondelette couleur image

Search results