Global ETD Search

171	Analyse du comportement humain à partir de la vidéo en étudiant l'orientation du mouvement Benabbas, Yassine 19 November 2012 (has links) (PDF) La reconnaissance du comportement et la prédiction des activités des personnes depuis la vidéo sont des préoccupations majeures dans le domaine de la vision par ordinateur. L'objectif principal de mon travail de thèse est de proposer des algorithmes qui permettent d'analyser des objets en mouvement à partir de la vidéo pour extraire des comportements humains. Cette analyse est effectuée dans des environnements intérieurs ou extérieurs filmés par des simples webcams ou par des caméras plus sophistiquée. La scène analysée peut être de deux types en fonction du nombre de personnes présentes. On distingue les scènes de foule où le nombre de personnes est important. Dans ce type de scène, nous nous intéressons aux problèmes de la détection d'évènements de foule, à l'analyse des flux et à l'extraction des motifs de mouvement. Le deuxième type de scène se caractérise par la présence d'une seule personne à la fois dans le champ de la caméra. Elle est appelée scène individuelle. Nous y traitons le problème de reconnaissance d'actions humaines. Pour atteindre ces objectifs, nous proposons une approche basée sur trois niveaux d'analyse. Le premier est l'extraction des caractéristiques de bas niveau récupérés les images constituant un flux vidéo (ex. les zones en mouvement). Le deuxième construit des descripteurs pour l'analyse du comportement humain (ex. la direction et la vitesse de mouvement moyennes). Le niveau le plus haut se sert des descripteurs de l'étape intermédiaire afin de fournir aux utilisateurs des résultats concrets sur l'analyse du comportement humain (ex. telle personne marche, une autre court, etc.). Des expérimentations sur des benchmarks connus ont validé nos approches, avec un positionnement très intéressant par rapport à l'état de l'art. Analyse du comportement vision par ordinateur classification détection d'évènements reconnaissance d'actions comptage motifs de mouvement
172	Estimation du regard dans un environnement contrôlé Lablack, Adel 03 February 2010 (has links) (PDF) L'objectif principal de mon travail de thèse est l'extraction de la direction du regard (attention visuelle) d'une personne à partir de la vidéo. Cette analyse est effectuée dans un environnement composé d'une scène cible et d'une zone d'observation. La scène cible est une région d'intérêt définie pour être analysée (e.g. un écran plasma large, une image projetée sur un mur, une affiche publicitaire, un linéaire dans un magasin, ou la vitrine d'un magasin). La zone surveillée quant à elle est l'emplacement d'où les personnes regardent la scène cible (e.g. la rue, un couloir ou bien les allées d'un supermarché). Les connaissances qui sont extraites sont alors utilisées pour comprendre le comportement visuel de personnes ainsi que pour la réorganisation de la scène cible. Pour atteindre cet objectif, nous proposons une approche basée sur l'estimation de l'orientation de la tête et la projection du champ visuel pour localiser la région d'intérêt. Nous avons utilisé une méthode d'estimation de l'orientation de la tête basée sur l'apparence globale et sur un modèle cylindrique, et une méthode de projection géométrique pour extraire les régions d'intérêts basée sur les données physiologiques de la vision humaine. L'analyse du comportement visuel des personnes a été effectuée à l'aide d'un ensemble de métriques. Les méthodes proposées ont été validées sur des données vidéos et images. Vision par ordinateur extraction d'information direction du regard orientation de la tête régions d'intérêt
173	Contributions à un modèle générique pour l'asservissement visuel des robots parallèles par l'observation des éléments cinématiques Dallej, Tej 06 December 2007 (has links) (PDF) La contrainte de fermeture des chaînes cinématiques des robots parallèles rend leur modélisation et leur commande complexes. Pourtant, cette architecture leur confère des performances remarquables en terme de charges supportées, de rigidité et de rapidité. Pour bénéficier de ces qualités et simplifier les modèles, nous avons proposé d'utiliser un capteur de vision pour remplacer les modèles géométriques dans la commande et offrir une mesure de l'état au lieu d'une estimation. En premier lieu, nous avons revisité l'asservissement visuel 3D par observation de l'organe terminal dans le cadre specifique des robots parallèles. Dans ce cas, nous avons choisi la pose comme signal µa réguler et montré que la commande ainsi obtenue est une régulation dans l'espace d'etat (qui est egalement l'espace de la tâche). En deuxième lieu, nous nous sommes penché sur le choix d'un signal capteur qui permet une bonne adéquation entre les informations visuelles et les modèles utilisés dans la commande. C'est ainsi que nous avons proposé une architecture dédiée à la commande, unissant plusieurs familles de robots parallèles, qui repose sur l'exhibition dans la chaîne cinématique. Par la suite, nous avons développé une approche innovante basée sur l'observation des éléments référents et les modèles de projection de droite. En utilisant une mesure de la position de ces éléments, cette dernière méthode permet de se passer d'une cible extérieure au robot et d'un calcul de pose additionnel tout en permettant une représentation optimale de la cinématique du robot et en offrant des méthodes d'étalonnage qui utilisent directement le signal capteur. Ces méthodes permettent aussi de se passer des variables articulaires, ce qui peut offrir aux robots parallèles une meilleure autonomie et simplifier leur conception. Robots parallèles vision par ordinateur asservissement visuel robotique commande modélisation identification
174	Algorithmes et analyses perceptuelles pour la navigation interactive basée image Chaurasia, Gaurav 18 February 2014 (has links) (PDF) Nous présentons une approche de rendu à base d'images (IBR) qui permet, à partir de photos, de naviguer librement et générer des points de vue quelconques dans des scènes urbaines. Les approches précédentes dépendent des modèles 3D et donnent lieu à des rendus de qualité réduite avec beaucoup d'artefacts. Dans cette thèse, nous proposons une approximation basée sur l'image pour compenser le manque de précision de la géométrie 3D. Nous utilisons un warp d'image guidé par des cartes de profondeur quasi-denses qui donnent lieu à beaucoup moins d'artefacts. En se basant sur cette approche, nous avons développé une méthode entièrement automatique permettant de traiter les scènes complexes. Nous sur-segmentons les images d'entrées en superpixels qui limitent les occlusions sur les bords des objets. Nous introduisons la synthèse de profondeur pour créer une approximation de cette profondeur mal reconstruite dans certaines régions et calculons les warps sur les superpixels pour synthétiser le résultat final. Nous comparons nos résultats à de nombreuses approches récentes. Nous avons analysé les artefacts de l'IBR d'un point de vue perceptif en comparant les artefacts générés par le mélange de plusieurs images avec ceux des transitions temporelles brusques et avons élaboré une méthodologie pour la sélection d'un compromis idéal entre les deux. Nous avons également analysé les distorsions perspectives et avons développé un modèle quantitatif qui permet de prédire les distorsions en fonction des paramètres de capture et de visualisation. Comme application, nous avons mis en œuvre un système de réalité virtuelle qui utilise l'IBR à la place de l'infographie traditionnelle. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Vision par ordinateur Infographie Rendu à base d'images Reconstruction 3D Perception Réalité virtuelle
175	EXTENSION DU MODELE PAR SAC DE MOTS VISUELS POUR LA CLASSIFICATION D'IMAGES Avila, Sandra 14 June 2013 (has links) (PDF) L'information visuelle, représentée sous la forme d'images ou de vidéos numériques, est devenue si omniprésente dans le monde numérique d'aujourd'hui, qu'elle ne peut plus être considérée comme un "citoyen de seconde zone", par rapport à l'information textuelle. Néanmoins, contrairement aux documents textuels, les images sont constituées de pixels ne portant pas d'information sémantique directement accessible, ajoutant ainsi une difficulté à la tâche d'interprétation. Dans ce contexte, la classification d'images est devenue une tâche critique. En particulier, l'identification automatique d'objets complexes et de concepts sémantiques dans les images, a suscité de nombreux travaux récents, aussi bien en Recherche d'Information, Vision par Ordinateur, Traitement d'Image qu'en Intelligence Artificielle. Dans cette thèse, nous traitons le problème de la représentation des images. Notre objectif est la détection de concepts à partir d'une analyse du contenu visuel des images et des vidéos. Pour cela, nous introduisons une nouvelle représentation qui enrichit le modèle classique par sacs de mots visuels. S'appuyant sur la quantification de descripteurs locaux, et l'agrégation de ces descripteurs quantifiés en un vecteur de caractéristique unique, le modèle par sacs de mots visuels a émergé comme l'approche la plus efficace pour la classification d'images. Nous proposons BossaNova, une nouvelle représentation d'images permettant de conserver plus d'information lors de l'opération d'agrégation (pooling) en exploitant la distribution des distances entre les descripteurs locaux et les mots visuels. L'évaluation expérimentale sur plusieurs bases de données de classification d'images, telles que ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC et 15-Scenes, a montré l'intérêt de Bossanova vis-à-vis des techniques traditionnelles, même sans utiliser de combinaisons complexes de multiples descripteurs locaux. classification d'image reconnaissance des formes
176	Fusion de données visuo-inertielles pour l'estimation de pose et l'autocalibrage Scandaroli, Glauco Garcia 14 June 2013 (has links) (PDF) Les systèmes multi-capteurs exploitent les complémentarités des différentes sources sensorielles. Par exemple, le capteur visuo-inertiel permet d'estimer la pose à haute fréquence et avec une grande précision. Les méthodes de vision mesurent la pose à basse fréquence mais limitent la dérive causée par l'intégration des données inertielles. Les centrales inertielles mesurent des incréments du déplacement à haute fréquence, ce que permet d'initialiser la vision et de compenser la perte momentanée de celle-ci. Cette thèse analyse deux aspects du problème. Premièrement, nous étudions les méthodes visuelles directes pour l'estimation de pose, et proposons une nouvelle technique basée sur la corrélation entre des images et la pondération des régions et des pixels, avec une optimisation inspirée de la méthode de Newton. Notre technique estime la pose même en présence des changements d'illumination extrêmes. Deuxièmement, nous étudions la fusion des données a partir de la théorie de la commande. Nos résultats principaux concernent le développement d'observateurs pour l'estimation de pose, biais IMU et l'autocalibrage. Nous analysons la dynamique de rotation d'un point de vue non linéaire, et fournissons des observateurs stables dans le groupe des matrices de rotation. Par ailleurs, nous analysons la dynamique de translation en tant que système linéaire variant dans le temps, et proposons des conditions d'observabilité uniforme. Les analyses d'observabilité nous permettent de démontrer la stabilité uniforme des observateurs proposés. La méthode visuelle et les observateurs sont testés et comparés aux méthodes classiques avec des simulations et de vraies données visuo-inertielles. [SPI:OTHER] Engineering Sciences/Other Estimation d'état Observateurs d'état Observabilité Fonctions de Lyapunov Estimation de pose Calibrage caméra-centrale inertielle Vision par ordinateur
177	Restauration des images par l'elimination du flou et des occlusions Whyte, Oliver 15 March 2012 (has links) (PDF) This thesis investigates the removal of spatially-variant blur from photographs degraded by camera shake, and the removal of large occluding objects from photographs of popular places. We examine these problems in the case where the photographs are taken with standard consumer cameras, and we have no particular information about the scene being photographed. Most existing deblurring methods model the observed blurry image as the convolution of a sharp image with a uniform blur kernel. However, we show that blur from camera shake is in general mostly due to the 3D rotation of the camera, resulting in a blur that can be significantly non-uniform across the image. We model this blur using a weighted set of camera poses, which induce homographies on the image being captured. The blur in a particular image is parameterised by the set of weights, which provides a compact global descriptor for the blur, analogous to a convolution kernel. This descriptor fully captures the spatially-variant blur at all pixels, and is able to model camera shake more accurately than previous methods. We demonstrate direct estimation of the blur weights from single and multiple blurry images captured by conventional cameras. This permits a sharp image to be recovered from a blurry "shaken" image without any user interaction or additional infor- mation about the camera motion. For single image deblurring, we adapt an existing marginalisation-based algorithm and a maximum a posteriori-based algorithm, which are both compatible with our model of spatially-variant blur. In order to reduce the computational cost of our homography-based model, we introduce an efficient approximation based on local-uniformity of the blur. By grouping pixels into local regions which share a single PSF, we are able to take advantage of fast, frequency domain convolutions to perform the blur computation. We apply this approximation to single image deblurring, obtaining an order of magnitude reduction in computation time with no visible reduction in quality. For deblurring images with saturated pixels, we propose a modification of the forward model to include this non-linearity, and re-derive the Richardson-Lucy algorithm with this new model. To prevent ringing artefacts from propagating in the deblurred image, we propose separate updates for those pixels affected by saturation, and those not affected. This prevents the loss of information caused by clipping from propagating to the rest of the image. In order to remove large occluders from photos, we automatically retrieve a set of exemplar images of the same scene from the Internet, using a visual search engine. We extract multiple homographies between each of these images and the target image to provide pixel correspondences. Finally we combine pixels from several exemplars in a seamless manner to replace the occluded pixels, by solving an energy minimisation problem on a conditional random field. Experimental results are shown on both synthetic images and real photographs captured by consumer cameras or downloaded from the Internet. computer vision deblurring
178	Statistiques Supervisées pour la Reconnaissance d'Actions Humaines dans les Vidéos Muneeb Ullah, Muhammad 23 October 2012 (has links) (PDF) This thesis addresses the problem of human action recognition in realistic video data, such as movies and online videos. Automatic and accurate recognition of human actions in video is a fascinating capability. The potential applications range from surveillance and robotics to medical diagnosis, content-based video retrieval, and intelligent human- computer interfaces. The task is highly challenging due to the large variations in person appearances, dynamic backgrounds, view-point changes, lighting conditions, action styles and other factors. Statistical video representations based on local space-time features have been recently shown successful for action recognition in realistic scenarios. Their success can be at- tributed to the mild assumptions about the data and robustness to several variations in the video. Such representations, however, often encode videos by disordered collection of low-level primitives. This thesis extends current methods by developing more discrimi- native features and integrating additional supervision into Bag-of-Features based video representations, aiming to improve action recognition in unconstrained and challenging video data. We start by evaluating a range of available local space-time feature detectors and descriptors under the standard Bag-of-Features framework. We then propose to improve the basic Bag-of-Features model by integrating additional supervision in the form of non-local region-level information. We further investigate an attribute-based representation, wherein the attributes range from objects (e.g., car, chair, table, etc.) to human poses and actions. We demonstrate that such representation captures high-level information in video, and provides complementary information to the low-level features. We finally propose a novel local representation for human action recognition in video, denoted as Actlets. Actlets are body part detectors undergoing characteristic motion patterns. We train Actlets using a large synthetic video dataset of rendered avatars and demonstrate the advantages of Actlets for action recognition in realistic data. All methods proposed and developed in this thesis represent alternative ways of construct- ing supervised video representations and demonstrate improvements of human action recognition in realistic settings. computer vision action recognition
179	Optimization convexe pour cosegmentation Joulin, Armand 17 December 2012 (has links) (PDF) Les hommes et la plupart des animaux ont une capacité naturelle à voir le monde et à le comprendre sans effort. La simplicité apparente avec laquelle un humain perçoit ce qui l'entoure suggère que le processus impliqué ne nécessite pas, dans une certaine mesure, un haut degré de réflexion. Cette observation suggère que notre perception visuelle du monde peut être simulée sur un ordinateur. La vision par ordinateur est le domaine de la recherche consacré au problème de la création d'une forme de perception visuelle pour des ordinateurs. Les premiers travaux dans ce domaine remontent aux années cinquante, mais la puissance de calcul des ordinateurs de cette époque ne permettait pas de traiter et d'analyser les données visuelles nécessaires à l'elaboration d'une perception visuelle virtuelle. Ce n'est que récemment que la puissance de calcul et la capacité de stockage ont permis à ce domaine de vrai- ment émerger. Depuis maintenant deux décennies, la vision par ordinateur a permis de répondre à problèmes pratiques ou industrielles comme par exemple, la détection des visages, de personnes au comportement suspect dans une foule ou de défauts de fabrication dans des chaînes de production. En revanche, en ce qui concerne l'émergence d'une perception visuelle virtuelle non spécifique à une tâche donnée, peu de progrès ont été réalisés et la communauté est toujours confrontée à des problèmes fondamentaux. Un de ces problèmes est de segmenter une image ou une video en régions porteuses de sens, ou en d'autres termes, en objets ou actions. La segmentation de scène est non seulement naturelle pour les humains, mais aussi essentielle pour comprendre pleinement son environnement. Malheureusement elle est aussi extrêmement difficile à reproduire sur un ordinateur. Une des raisons est qu'il n'existe pas de définition claire de ce qu'est une région "significative". En effet, en fonction de la scène ou de la situation, une région peut avoir des interprétations différentes. Par exemple, étant donnée une scène se passant dans la rue, on peut considérer que distinguer un piéton est important dans cette situation, par contre ses vêtements ne le semblent pas nécessairement. Si maintenant nous considérons une scène ayant lieu pendant un défilé de mode, un vêtement devient un élément important, donc une région significative. Dans cette thèse, nous nous concentrons sur ce problème de segmentation et nous l'abordons sous un angle particulier afin d'éviter cette difficulté fondamentale. Nous allons considérer la segmentation comme un problème d'apprentissage faible- ment supervisé, c'est-à-dire qu'au lieu de segmenter des images selon une certaine définition prédéfinie de régions "significatives", nous développons des méthodes per- mettant de segmenter simultanément un ensemble d'images en régions qui apparais- sent régulièrement. En d'autres termes, nous définissons une région "significative" d'un point de vue statistique: Ce sont les régions qui apparaissent régulièrement dans l'ensemble des images données. Pour cela nous concevons des modèles ayant une portée qui va au-delà de l'application à la vision. Notre approche prend ses racines dans l'apprentissage statistique, dont l'objectif est de concevoir des méthodes efficaces pour extraire et/ou apprendre des motifs récurrents dans des jeux de données. Ce domaine a récemment connu une forte popularité en raison de l'augmentation du nombre, de la taille des bases de données disponibles et la nécessité de traiter les données automatiquement. Dans cette thèse, nous nous concentrons sur des méthodes conçues pour découvrir l'information "cachée" dans une base de données à partir d'annotations incomplètes ou inexistantes. Enfin, nos travaux prennent aussi racines dans le domaine de l'optimisation numérique afin d'élaborer des algorithmes efficaces et adaptés spécialement à nos prob- lèmes. En particulier, nous utilisons et adaptons des outils récemment développés afin de relaxer des problèmes combinatoires complexes en des problèmes convexes pour lesquels il est garanti de trouver la solution optimale à l'aide de procedures developpees en optimisation convexe. Nous illustrons la qualité de nos formulations et algorithmes aussi sur des problèmes tirés de domaines autres que la vision par ordinateur. En particulier, nous montrons que nos travaux peuvent être utilisés dans la classification de texte et en biologie cellulaire. computer vision object recognition cosegmentation
180	Alignement élastique d'images pour la reconnaissance d'objet Duchenne, Olivier 29 November 2012 (has links) (PDF) The objective of this thesis is to explore the use of graph matching in object recognition systems. In the continuity of the previously described articles, rather than using descriptors invariant to misalignment, this work directly tries to find explicit correspondences between prototypes and test images, in order to build a robust similarity measure and infer the class of the test images. In chapter 2, we will present a method that given interest points in two images tries to find correspondences between them. It extends previous graph matching approaches [Leordeanu and Hebert, 2005a] to handle interactions between more than two feature correspondences. This allows us to build a more discriminative and/or more invariant matching method. The main contributions of this chapter are: The introduction of an high-order objective function for hyper-graph matching (Section 2.3.1). The application of the tensor power iteration method to the high-order matching task, combined with a relaxation based on constraints on the row norms of assignment matrices, which is tighter than previous methods (Section 2.3.1). An l1-norm instead of the classical l2-norm relaxation, that provides solutions that are more interpretable but still allows an efficient power iteration algorithm (Section 2.3.5). The design of appropriate similarity measures that can be chosen either to improve the invariance of matching, or to improve the expressivity of the model (Section 2.3.6). The proposed approach has been implemented, and it is compared to stateof-the-art algorithms on both synthetic and real data. As shown by our experiments (Section 2.5), our implementation is, overall, as fast as these methods in spite of the higher complexity of the model, with better accuracy on standard databases. In chapter 3, we build a graph-matching method for object categorization. The main contributions of this chapter are: Generalizing [Caputo and Jie, 2009; Wallraven et al., 2003], we propose in Section 3.3 to use the optimum value of the graph-matching problem associated with two images as a (non positive definite) kernel, suitable for SVM classification. We propose in Section 3.4 a novel extension of Ishikawa's method [Ishikawa, 2003] for optimizing MRFs which is orders of magnitude faster than competing algorithms (e.g., [Kim and Grauman, 2010; Kolmogorov and Zabih, 2004; Leordeanu and Hebert, 2005a]) for the grids with a few hundred nodes considered in this article). In turn, this allows us to combine our kernel with SVMs in image classification tasks. We demonstrate in Section 3.5 through experiments with standard benchmarks (Caltech 101, Caltech 256, and Scenes datasets) that our method matches and in some cases exceeds the state of the art for methods using a single type of features. In chapter 4, we introduce our work about object detection that perform fast image alignment. The main contributions of this chapter are: We propose a novel image similarity measure that allows for arbitrary deformations of the image pattern within some given disparity range and can be evaluated very efficiently [Lemire, 2006], with a cost equal to a small constant times that of correlation in a sliding-window mode. Our similarity measure relies on a hierarchical notion of parts based on simple rectangular image primitives and HOG cells [Dalal and Triggs, 2005a], and does not require manual part specification [Felzenszwalb and Huttenlocher, 2005b; Bourdev and Malik, 2009; Felzenszwalb et al., 2010] or automated discovery [Lazebnik et al., 2005; Kushal et al., 2007]. computer vision object recognition image matching

Search results