Global ETD Search

31	Reconstruction tridimensionnelle de l'environnement d'un robot mobile, à partir d'informations de vision omnidirectionnelle, pour la préparation d'interventions. Boutteau, Rémi 19 April 2010 (has links) (PDF) Les travaux présentés dans cette thèse concernent la reconstruction tridimensionnelle de l'environnement d'un robot mobile, à partir d'informations de vision omnidirectionnelle, pour la préparation d'interventions. Nous nous intéressons dans un premier temps à la conception d'une architecture matérielle adaptée aux problématiques de la reconstruction 3D et de la navigation autonome. Le calibrage d'un système de vision est une étape indispensable dès lors que celui-ci est destiné à effectuer des mesures sur son environnement. Cette phase consiste à modéliser le système pour établir la relation mathématique liant les points 3D et leurs projections dans les images. Après une discussion sur le choix du modèle, nous présentons une méthodologie pour estimer les paramètres du modèle retenu. La structure stéréoscopique du capteur que nous avons développé rend possible la reconstruction tridimensionnelle de l'environnement sans déplacement. Nous proposons donc des algorithmes permettant la reconstruction dense de l'environnement, ainsi que des algorithmes de détection de primitives dans les images omnidirectionnelles. Lorsque le capteur est en mouvement, nous exploitons ses déplacements pour enrichir le modèle 3D. Notre principale contribution porte sur le développement d'un algorithme d'ajustement de faisceaux pour les capteurs stéréoscopiques omnidirectionnels qui permet d'obtenir une estimation des déplacements en ne nécessitant que des données visuelles. vision par ordinateur vision omnidirectionnelle capteur catadioptrique étalonnage stéréovision reconstruction 3D estimation de déplacements
32	Détection et ré-identification de piétons par points d'intérêt entre caméras disjointes Hamdoun, Omar 16 December 2010 (has links) (PDF) Avec le développement de la vidéo-protection, le nombre de caméras déployées augmente rapidement. Pour exploiter efficacement ces vidéos, il est indispensable de concevoir des outils d'aide à la surveillance qui automatisent au moins partiellement leur analyse. Un des problèmes difficiles est le suivi de personnes dans un grand espace (métro, centre commercial, aéroport, etc.) couvert par un réseau de caméras sans recouvrement. Dans cette thèse nous proposons et expérimentons une nouvelle méthode pour la ré-identification de piétons entre caméras disjointes. Notre technique est fondée sur la détection et l'accumulation de points d'intérêt caractérisés par un descripteur local. D'abord, on propose puis évalue une méthode utilisant les points d'intérêts pour la modélisation de scène, puis la détection d'objets mobiles. Ensuite, la ré-identification des personnes se fait en collectant un ensemble de points d'intérêt durant une fenêtre temporelle, puis en cherchant pour chacun d'eux leur correspondant le plus similaire parmi tous les descripteurs enregistrés précédemment, et stockés dans un KD-tree. Enfin, nous proposons et testons des pistes d'amélioration, en particulier pour la sélection automatique des instants ou des points d'intérêt, afin d'obtenir pour chaque individu un ensemble de points qui soient à la fois les plus variés possibles, et les plus discriminants par rapport aux autres personnes. Les performances de ré-identification de notre algorithme, environ 95% d'identification correcte au premier rang parmi 40 personnes, dépassent l'état de l'art, ainsi que celles obtenues dans nos comparaisons avec d'autres descripteurs (histogramme de couleur, HOG, SIFT). vidéosurveillance réseaux de caméras points d'intérêt ré-identification détection ré-acquisition
33	Architectures massivement parallèles et vision artificielle bas-niveau Plyer, Aurélien 20 February 2013 (has links) (PDF) Ce travail de thèse étudie l'apport à la vision bas-niveau des architectures de calcul massivement parallèles. Nous reprenons l'évolution récente de l'architecture des ordinateurs, en mettant en avant les solutions massivement parallèles qui se sont imposées récemment, les GPU. L'exploitation des potentialités de ces architectures impose une modification des méthodes de programmation. Nous montrons qu'il est possible d'utiliser un nombre restreint de schémas ("patterns") de calcul pour résoudre un grand nombre de problématiques de vision bas niveau. Nous présentons ensuite un nouveau modèle pour estimer la complexité de ces solutions. La suite du travail consiste à appliquer ces modèles de programmation à des problématiques de vision bas-niveau. Nous abordons d'abord le calcul du flot optique, qui est le champ de déplacement d'une image à une autre, et dont l'estimation est une brique de base de très nombreuses applications en traitement vidéo. Nous présentons un code sur GPU, nommé FOLKI qui permet d'atteindre une très bonne qualité de résultats sur séquences réelles pour un temps de calcul bien plus faible que les solutions concurrentes actuelles. Une application importante de ces travaux concerne la vélocimétrie par imagerie de particules dans le domaine de la mécanique des fluides expérimentale. La seconde problématique abordée est la super-résolution (SR). Nous proposons d'abord un algorithme très rapide de SR utilisant le flot optique FOLKI pour recaler les images. Ensuite différentes solutions à coût de calcul croissant sont développées, qui permettent une amélioration de précision et de robustesse. Nous présentons des résultats très originaux de SR sur des séquences affectées de mouvement complexes, comme des séquences de piétons ou des séquences aériennes de véhicules en mouvement. Enfin le dernier chapitre aborde rapidement des extensions en cours de nos travaux à des contextes de mesure 3D, dans des domaines comme la physique expérimentale ou la robotique. flot optique vision par ordinateur gpgpu super-résolution traitement vidéo adéquation algorithme architecture
34	Approches géométriques pour l'analyse d'images et de textures Xia, Gui-Song 18 March 2011 (has links) (PDF) Cette thèse se concentre sur l'étude de l'extraction et de la caractérisation des structures locales, dans le contexte de l'analyse d'images et des textures. S'appuyant sur les lignes de niveau des images ou sur la notion duale et moins structuré e d'orientation du gradient, les contributions de cette thèse se concentrent sur trois thèmes suivants: La première partie présente une nouvelle méthode pour l'analyse de texture qui dans l'esprit est similaire a la granulométrie morphologique, tout en permettant un haut degré d'invariance géométrique et radiométrique. Avec l'aide de la représentation par carte topographique, la deuxième partie de cette thèse développe une approche générale pour l'abstraction d'images, dont le but est de générer automatiquement des images abstraites à partir de photographies réalistes. Le sujet de la dernière partie de cette thèse est la détection des jonctions dans les images naturelles. L'approche s'appuie sur les directions locales de lignes de niveau à travers l'orientation du gradient de l'image. Nous introduisons un système générique d'analyse de jonction. Le premier avantage de la procédure proposée est un critère pour la détection automatique de jonctions. Celui-ci permet de traiter des parties texturées de l'image dans lesquelles aucune détection n'est attendue. Deuxièmement, la méthode donne une caractérisation des jonction en L-, Y et en X, y compris un calcul précis de leur type, de leur localisation et de leur échelle. Contrairement aux approches classiques, la caractérisation de l'échelle ne repose pas sur un espace-échelle linéaire, et permet donc d'obtenir une bonne précision géométrique. Texture analyse d'images détection d'image structure synthèses d'images
35	Vision 3D multi-images : contribution à l'obtention de solutions globales par optimisation polynomiale et théorie des moments Bugarin, Florian 05 October 2012 (has links) (PDF) L'objectif général de cette thèse est d'appliquer une méthode d'optimisation polynomiale basée sur la théorie des moments à certains problèmes de vision artificielle. Ces problèmes sont en général non convexes et classiquement résolus à l'aide de méthodes d'optimisation locale. Ces techniques ne convergent généralement pas vers le minimum global et nécessitent de fournir une estimée initiale proche de la solution exacte. Les méthodes d'optimisation globale permettent d'éviter ces inconvénients. L'optimisation polynomiale basée sur la théorie des moments présente en outre l'avantage de prendre en compte des contraintes. Dans cette thèse nous étendrons cette méthode aux problèmes de minimisation d'une somme d'un grand nombre de fractions rationnelles. De plus, sous certaines hypothèses de "faible couplage" ou de "parcimonie" des variables du problème, nous montrerons qu'il est possible de considérer un nombre important de variables tout en conservant des temps de calcul raisonnables. Enfin nous appliquerons les méthodes proposées aux problèmes de vision par ordinateur suivants : minimisation des distorsions projectives induites par le processus de rectification d'images, estimation de la matrice fondamentale, reconstruction 3D multi-vues avec et sans distorsions radiales. Optimisation Globale Optimisation polynomiale Théorie des moments Reconstruction 3D
36	Analyse du comportement humain à partir de la vidéo en étudiant l'orientation du mouvement Benabbas, Yassine 19 November 2012 (has links) (PDF) La reconnaissance du comportement et la prédiction des activités des personnes depuis la vidéo sont des préoccupations majeures dans le domaine de la vision par ordinateur. L'objectif principal de mon travail de thèse est de proposer des algorithmes qui permettent d'analyser des objets en mouvement à partir de la vidéo pour extraire des comportements humains. Cette analyse est effectuée dans des environnements intérieurs ou extérieurs filmés par des simples webcams ou par des caméras plus sophistiquée. La scène analysée peut être de deux types en fonction du nombre de personnes présentes. On distingue les scènes de foule où le nombre de personnes est important. Dans ce type de scène, nous nous intéressons aux problèmes de la détection d'évènements de foule, à l'analyse des flux et à l'extraction des motifs de mouvement. Le deuxième type de scène se caractérise par la présence d'une seule personne à la fois dans le champ de la caméra. Elle est appelée scène individuelle. Nous y traitons le problème de reconnaissance d'actions humaines. Pour atteindre ces objectifs, nous proposons une approche basée sur trois niveaux d'analyse. Le premier est l'extraction des caractéristiques de bas niveau récupérés les images constituant un flux vidéo (ex. les zones en mouvement). Le deuxième construit des descripteurs pour l'analyse du comportement humain (ex. la direction et la vitesse de mouvement moyennes). Le niveau le plus haut se sert des descripteurs de l'étape intermédiaire afin de fournir aux utilisateurs des résultats concrets sur l'analyse du comportement humain (ex. telle personne marche, une autre court, etc.). Des expérimentations sur des benchmarks connus ont validé nos approches, avec un positionnement très intéressant par rapport à l'état de l'art. Analyse du comportement vision par ordinateur classification détection d'évènements reconnaissance d'actions comptage motifs de mouvement
37	Estimation du regard dans un environnement contrôlé Lablack, Adel 03 February 2010 (has links) (PDF) L'objectif principal de mon travail de thèse est l'extraction de la direction du regard (attention visuelle) d'une personne à partir de la vidéo. Cette analyse est effectuée dans un environnement composé d'une scène cible et d'une zone d'observation. La scène cible est une région d'intérêt définie pour être analysée (e.g. un écran plasma large, une image projetée sur un mur, une affiche publicitaire, un linéaire dans un magasin, ou la vitrine d'un magasin). La zone surveillée quant à elle est l'emplacement d'où les personnes regardent la scène cible (e.g. la rue, un couloir ou bien les allées d'un supermarché). Les connaissances qui sont extraites sont alors utilisées pour comprendre le comportement visuel de personnes ainsi que pour la réorganisation de la scène cible. Pour atteindre cet objectif, nous proposons une approche basée sur l'estimation de l'orientation de la tête et la projection du champ visuel pour localiser la région d'intérêt. Nous avons utilisé une méthode d'estimation de l'orientation de la tête basée sur l'apparence globale et sur un modèle cylindrique, et une méthode de projection géométrique pour extraire les régions d'intérêts basée sur les données physiologiques de la vision humaine. L'analyse du comportement visuel des personnes a été effectuée à l'aide d'un ensemble de métriques. Les méthodes proposées ont été validées sur des données vidéos et images. Vision par ordinateur extraction d'information direction du regard orientation de la tête régions d'intérêt
38	EXTENSION DU MODELE PAR SAC DE MOTS VISUELS POUR LA CLASSIFICATION D'IMAGES Avila, Sandra 14 June 2013 (has links) (PDF) L'information visuelle, représentée sous la forme d'images ou de vidéos numériques, est devenue si omniprésente dans le monde numérique d'aujourd'hui, qu'elle ne peut plus être considérée comme un "citoyen de seconde zone", par rapport à l'information textuelle. Néanmoins, contrairement aux documents textuels, les images sont constituées de pixels ne portant pas d'information sémantique directement accessible, ajoutant ainsi une difficulté à la tâche d'interprétation. Dans ce contexte, la classification d'images est devenue une tâche critique. En particulier, l'identification automatique d'objets complexes et de concepts sémantiques dans les images, a suscité de nombreux travaux récents, aussi bien en Recherche d'Information, Vision par Ordinateur, Traitement d'Image qu'en Intelligence Artificielle. Dans cette thèse, nous traitons le problème de la représentation des images. Notre objectif est la détection de concepts à partir d'une analyse du contenu visuel des images et des vidéos. Pour cela, nous introduisons une nouvelle représentation qui enrichit le modèle classique par sacs de mots visuels. S'appuyant sur la quantification de descripteurs locaux, et l'agrégation de ces descripteurs quantifiés en un vecteur de caractéristique unique, le modèle par sacs de mots visuels a émergé comme l'approche la plus efficace pour la classification d'images. Nous proposons BossaNova, une nouvelle représentation d'images permettant de conserver plus d'information lors de l'opération d'agrégation (pooling) en exploitant la distribution des distances entre les descripteurs locaux et les mots visuels. L'évaluation expérimentale sur plusieurs bases de données de classification d'images, telles que ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC et 15-Scenes, a montré l'intérêt de Bossanova vis-à-vis des techniques traditionnelles, même sans utiliser de combinaisons complexes de multiples descripteurs locaux. classification d'image reconnaissance des formes
39	Restauration des images par l'elimination du flou et des occlusions Whyte, Oliver 15 March 2012 (has links) (PDF) This thesis investigates the removal of spatially-variant blur from photographs degraded by camera shake, and the removal of large occluding objects from photographs of popular places. We examine these problems in the case where the photographs are taken with standard consumer cameras, and we have no particular information about the scene being photographed. Most existing deblurring methods model the observed blurry image as the convolution of a sharp image with a uniform blur kernel. However, we show that blur from camera shake is in general mostly due to the 3D rotation of the camera, resulting in a blur that can be significantly non-uniform across the image. We model this blur using a weighted set of camera poses, which induce homographies on the image being captured. The blur in a particular image is parameterised by the set of weights, which provides a compact global descriptor for the blur, analogous to a convolution kernel. This descriptor fully captures the spatially-variant blur at all pixels, and is able to model camera shake more accurately than previous methods. We demonstrate direct estimation of the blur weights from single and multiple blurry images captured by conventional cameras. This permits a sharp image to be recovered from a blurry "shaken" image without any user interaction or additional infor- mation about the camera motion. For single image deblurring, we adapt an existing marginalisation-based algorithm and a maximum a posteriori-based algorithm, which are both compatible with our model of spatially-variant blur. In order to reduce the computational cost of our homography-based model, we introduce an efficient approximation based on local-uniformity of the blur. By grouping pixels into local regions which share a single PSF, we are able to take advantage of fast, frequency domain convolutions to perform the blur computation. We apply this approximation to single image deblurring, obtaining an order of magnitude reduction in computation time with no visible reduction in quality. For deblurring images with saturated pixels, we propose a modification of the forward model to include this non-linearity, and re-derive the Richardson-Lucy algorithm with this new model. To prevent ringing artefacts from propagating in the deblurred image, we propose separate updates for those pixels affected by saturation, and those not affected. This prevents the loss of information caused by clipping from propagating to the rest of the image. In order to remove large occluders from photos, we automatically retrieve a set of exemplar images of the same scene from the Internet, using a visual search engine. We extract multiple homographies between each of these images and the target image to provide pixel correspondences. Finally we combine pixels from several exemplars in a seamless manner to replace the occluded pixels, by solving an energy minimisation problem on a conditional random field. Experimental results are shown on both synthetic images and real photographs captured by consumer cameras or downloaded from the Internet. computer vision deblurring
40	Statistiques Supervisées pour la Reconnaissance d'Actions Humaines dans les Vidéos Muneeb Ullah, Muhammad 23 October 2012 (has links) (PDF) This thesis addresses the problem of human action recognition in realistic video data, such as movies and online videos. Automatic and accurate recognition of human actions in video is a fascinating capability. The potential applications range from surveillance and robotics to medical diagnosis, content-based video retrieval, and intelligent human- computer interfaces. The task is highly challenging due to the large variations in person appearances, dynamic backgrounds, view-point changes, lighting conditions, action styles and other factors. Statistical video representations based on local space-time features have been recently shown successful for action recognition in realistic scenarios. Their success can be at- tributed to the mild assumptions about the data and robustness to several variations in the video. Such representations, however, often encode videos by disordered collection of low-level primitives. This thesis extends current methods by developing more discrimi- native features and integrating additional supervision into Bag-of-Features based video representations, aiming to improve action recognition in unconstrained and challenging video data. We start by evaluating a range of available local space-time feature detectors and descriptors under the standard Bag-of-Features framework. We then propose to improve the basic Bag-of-Features model by integrating additional supervision in the form of non-local region-level information. We further investigate an attribute-based representation, wherein the attributes range from objects (e.g., car, chair, table, etc.) to human poses and actions. We demonstrate that such representation captures high-level information in video, and provides complementary information to the low-level features. We finally propose a novel local representation for human action recognition in video, denoted as Actlets. Actlets are body part detectors undergoing characteristic motion patterns. We train Actlets using a large synthetic video dataset of rendered avatars and demonstrate the advantages of Actlets for action recognition in realistic data. All methods proposed and developed in this thesis represent alternative ways of construct- ing supervised video representations and demonstrate improvements of human action recognition in realistic settings. computer vision action recognition

Search results