Global ETD Search

141	Modélisation des environnements dynamiques pour la localisation Decrouez, Marion 07 May 2013 (has links) (PDF) Les travaux effectués dans cette thèse s'inscrivent dans les problématiques de modélisation d'environnement pour la localisation par vision monoculaire. Nous nous intéressons tout particulièrement à la modélisation des environnements intérieurs dynamiques. Les environnements intérieurs sont constitués d'une multitude d'objets susceptibles d'être déplacés. Ces déplacements modifient de façon notable la structure et l'apparence de l'environnement et perturbent les méthodes actuelles de localisation par vision. Nous présentons dans ces travaux une nouvelle approche pour la modélisation d'un environnement et son évolution au fil du temps. Dans cette approche, nous définissons la scène explicitement comme une structure statique et un ensemble d'objets dynamiques. L'objet est défini comme une entité rigide qu'un utilisateur peut prendre et déplacer et qui est repérable visuellement. Nous présentons tout d'abord comment détecter et apprendre automatiquement les objets d'un environnement dynamique. Alors que les méthodes actuelles de localisation filtrent les incohérences dues aux modifications de la scène, nous souhaitons analyser ces modifications pour extraire des informations supplémentaires. Sans aucune connaissance a priori, un objet est défini comme une structure rigide ayant un mouvement cohérent par rapport à la structure statique de la scène. En associant deux méthodes de localisation par vision reposant sur des paradigmes différents, nous comparons les multiples passages d'une caméra dans un même environnement. La comparaison permet de détecter des objets ayant bougé entre deux passages. Nous pouvons alors, pour chaque objet détecté, apprendre un modèle géométrique et un modèle d'apparence et retenir les positions occupées par l'objet dans les différentes explorations. D'autre part, à chaque nouveau passage, la connaissance de l'environnement est enrichie en mettant à jour les cartes métrique et topologique de la structure statique de la scène. La découverte d'objet par le mouvement repose en grande partie sur un nouvel algorithme de détection de multiples structures entre deux vues que nous proposons dans ces travaux. Etant donné un ensemble de correspondances entre deux vues similaires, l'algorithme, reposant sur le RANSAC, segmente les structures correspondant aux différentes paramétrisations d'un modèle mathématique. La méthode est appliquée à la détection de multiples homographies pour détecter les plans de la scène et à la détection de multiples matrices fondamentales pour détecter les objets rigides en mouvement. La modélisation de l'environnement que nous proposons est utilisée dans une nouvelle formulation de reconnaissance de lieu prenant en compte la connaissance d'objets dynamiques susceptibles d'être présents dans l'environnement. Le modèle du lieu est constitué de l'apparence de la structure statique observée dans ce lieu. Une base de données d'objets est apprise à partir des précédentes observations de l'environnement avec la méthode de découverte par le mouvement. La méthode proposée permet à la fois de détecter les objets mobiles présents dans le lieu et de rejeter les erreurs de détection dues à la présence de ces objets. L'ensemble des approches proposées sont évaluées sur des données synthétiques et réelles. Des résultats qualitatifs et quantitatifs sont présentés tout au long du mémoire. reconnaissance de lieu
142	Analyse vidéo de comportements humains dans les points de ventes en temps-réel Sicre, Ronan 24 May 2011 (has links) Cette thèse est effectuée en collaboration entre le LaBRI (Laboratoire bordelais de recherche en informatique) et MIRANE S.A.S., le leader français en Publicité sur Lieu de Vente (PLV) Dynamique. Notre but est d'analyser des comportements humains dans un point de vente. Le long de cette thèse, nous présentons un système d'analyse vidéo composé de plusieurs procédés de divers niveaux. Nous présentons, dans un premier temps, l'analyse vidéo de bas niveau composée de la détection de mouvement et du suivi d'objets. Puis nous analysons le comportement de ces objets suivis, lors de l'analyse de niveau moyen. Finalement, l'analyse de haut-niveau est composée d'une interprétation sémantique de ces comportements et d'une détection de scenarios de haut-niveau. / Along this thesis various subjects are studied, from the lowest to the higher level of video analysis. We first present motion detection and object tracking that compose the low-level processing part of our system. Motion detection aims at detecting moving areas, which correspond to foreground, of an image. The result of motion detection is a foreground mask that is used as input for the object tracking process. Tracking matches and identifies foreground regions across frames. Then, we analyze the behavior of the tracked objects, as the mid-level analysis. At each frame, we detect the current state of action of each tracked object currently in the scene. Finally, the system generates a semantic interpretation of these behaviors and we analyze high-level scenarios as the high-level part of our system. These two processes analyze the series of states of each object. The semantic interpretation generates sentences when state changes occur. Scenario recognition detect three different scenarios by analyzing the temporal constraints between the states. Vision par ordinateur Analyse de comportements humains Vidéo-surveillance Marketing Computer vision Human behavior understanding Video-surveillance Marketing
143	Reconstruction active et passive en vision par ordinateur Tardif, Jean-Philippe January 2007 (has links) Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal. Calibrage Auto-calibrage Vision omnidirectionnelle Distorsion radiale Mise en correspondance Lumière structurée Factorisation Reconstruction 3D Vision par ordinateur
144	Person re-identification in images with deep learning / Ré-identification de personnes dans des images par apprentissage automatique Chen, Yiqiang 12 October 2018 (has links) La vidéosurveillance est d’une grande valeur pour la sécurité publique. En tant que l’un des plus importantes applications de vidéosurveillance, la ré-identification de personnes est définie comme le problème de l’identification d’individus dans des images captées par différentes caméras de surveillance à champs non-recouvrants. Cependant, cette tâche est difficile à cause d’une série de défis liés à l’apparence de la personne, tels que les variations de poses, de point de vue et de l’éclairage etc. Pour régler ces différents problèmes, dans cette thèse, nous proposons plusieurs approches basées sur l’apprentissage profond de sorte d’améliorer de différentes manières la performance de ré-identification. Dans la première approche, nous utilisons les attributs des piétons tels que genre, accessoires et vêtements. Nous proposons un système basé sur un réseau de neurones à convolution(CNN) qui est composé de deux branches : une pour la classification d’identité et l’autre pour la reconnaissance d’attributs. Nous fusionnons ensuite ces deux branches pour la ré-identification. Deuxièmement, nous proposons un CNN prenant en compte différentes orientations du corps humain. Le système fait une estimation de l’orientation et, de plus, combine les caractéristiques de différentes orientations extraites pour être plus robuste au changement de point de vue. Comme troisième contribution de cette thèse, nous proposons une nouvelle fonction de coût basée sur une liste d’exemples. Elle introduit une pondération basée sur le désordre du classement et permet d’optimiser directement les mesures d’évaluation. Enfin, pour un groupe de personnes, nous proposons d’extraire une représentation de caractéristiques visuelles invariante à la position d’un individu dans une image de group. Cette prise en compte de contexte de groupe réduit ainsi l’ambigüité de ré-identification. Pour chacune de ces quatre contributions, nous avons effectué de nombreuses expériences sur les différentes bases de données publiques pour montrer l’efficacité des approches proposées. / Video surveillance systems are of a great value for public safety. As one of the most import surveillance applications, person re-identification is defined as the problem of identifying people across images that have been captured by different surveillance cameras without overlapping fields of view. With the increasing need for automated video analysis, this task is increasingly receiving attention. However, this problem is challenging due to the large variations of lighting, pose, viewpoint and background. To tackle these different difficulties, in this thesis, we propose several deep learning based approaches to obtain a better person re-identification performance in different ways. In the first proposed approach, we use pedestrian attributes to enhance the person re-identification. The attributes are defined as semantic mid-level descriptions of persons, such as gender, accessories, clothing etc. They could be helpful to extract characteristics that are invariant to the pose and viewpoint variations thanks to the descriptor being on a higher semantic level. In order to make use of the attributes, we propose a CNN-based person re-identification framework composed of an identity classification branch and of an attribute recognition branch. At a later stage, these two cues are combined to perform person re-identification. Secondly, among the challenges, one of the most difficult is the variation under different viewpoint. The same person shows very different appearances from different points of view. To deal with this issue, we consider that the images under various orientations are from different domains. We propose an orientation-specific CNN. This framework performs body orientation regression in a gating branch, and in another branch learns separate orientation-specific layers as local experts. The combined orientation-specific CNN feature representations are used for the person re-identification task. Thirdly, learning a similarity metric for person images is a crucial aspect of person re-identification. As the third contribution, we propose a novel listwise loss function taking into account the order in the ranking of gallery images with respect to different probe images. Further, an evaluation gain-based weighting is introduced in the loss function to optimize directly the evaluation measures of person re-identification. At the end, in a large gallery set, many people could have similar clothing. In this case, using only the appearance of single person leads to strong ambiguities. In realistic settings, people often walk in groups rather than alone. As the last contribution, we propose to learn a deep feature representation with displacement invariance for group context and introduce a method to combine the group context and single-person appearance. For all the four contributions of this thesis, we carry out extensive experiments on popular benchmarks and datasets to demonstrate the effectiveness of the proposed systems. Informatique Vision par ordinateur Apprentissage automatique Ré-Identification de personne Information Technology Computer vision Deep Learning Person re-Identification 006.407 2
145	Reconstruction 3D de scènes d'intérieurs à partir de photographies / 3D reconstruction of low-texture indoor scenes from pictures Salaün, Yohann 06 July 2017 (has links) Les méthodes actuelles de photogrammétrie permettent de reconstruire en 3D de nombreux objets et/ou scènes à partir de leurs photographies. Pour ce faire, les méthodes classiques détectent des points saillants dans les images et les mettent en correspondance entre plusieurs images. Ces correspondances permettent d'obtenir une information de calibration entre les différentes positions d'où la scène a été photographiée. Une fois ces positions déterminées, il est alors possible d'obtenir une reconstruction dense de la scène en triangulant les parties de la scène vues dans plusieurs images. La détection et la mise en correspondance de points saillants jouent un rôle crucial dans le procédé de reconstruction 3D. C'est pourquoi certaines scènes ou objets sont encore difficiles à reconstruire à partir de méthode de photogrammétrie. C'est notamment le cas des scènes d'intérieur, souvent constituées de larges pans de mur peu texturés où la détection et la mise en correspondance de points sont souvent défaillantes. De plus, la très grande présence de motifs planaires, cas dégénérés des méthodes de calibration usuelles, rend ces scènes très difficiles à calibrer. Dans cette thèse, nous nous intéressons à l'utilisation de segments pour compenser la faible efficacité des points dans le cas des scènes d'intérieur. Dans un premier temps, nous introduisons une méthode de détection de segments plus robuste au manque de contraste des scènes d'intérieur. C'est une méthode multi-échelle qui permet également d'obtenir d'aussi bons résultats quelle que soit la résolution de l'image utilisée. Nous utilisons pour cela des critères inspirés des méthodes emph{a contrario} pour éviter l'utilisation de nombreux paramètres. Nous présentons ensuite une méthode de calibration bifocale utilisant à la fois les segments et les points pour obtenir une méthode robuste au manque de texture et à la planarité de la scène tout en conservant la précision des méthodes de points. Nous introduisons alors une variante du RANSAC emph{a contrario} pour déterminer lorsqu'il vaut mieux utiliser les segments plutôt que les points pour calibrer. Enfin, pour compenser le manque de recouvrement entre photographies dans le cadre des scènes d'intérieur, nous introduisons une méthode de calibration multi-vue utilisant des contraintes de coplanarité entre segments sans avoir besoin de contraintes trifocales. Nous expliquons enfin comment modifier les contraintes trifocales usuelles pour les ajouter aux contraintes de coplanarité et ainsi obtenir une méthode plus robuste mais aussi précise que les méthodes usuelles / The 3D reconstruction of many objects and/or scenes from their photographies is made possible by current photogrammetry methods. To do so, usual methods detect salient points in every pictures and then match them between each pictures. These matches then give information on the position of every camera that took a picture of the scene. Once these positions are obtained, a dense reconstruction of the scene can be obtained by triangulating the parts seen in different pictures. Point detection and matching are crucial parts of these 3D reconstruction methods. That is why some scenes or objects are still hard to reconstruct in 3D with photogrammetry methods. Indoor scenes belong to these difficult cases, with their lack of texture that causes point detection and matching to give poor results. Moreover, the planarity of these scenes is a degenerate case for usual calibration methods. Combined, these drawbacks explain the difficulty to calibrate such scenes. In this thesis, we explain how to use segments to compensate for the lack of robustness of point methods in the case of indoor scenes. First, we introduce a segment detection method that is more robust to the lack of contrast in indoor scenes. This multi-scale method also gives good results whatever the image resolution is. We use criterion inspired from emph{a contrario} methods to avoid usage of several parameters. We then present a bifocal calibration method that uses both line segments and points. Segments allow the method to still work in low-texture and/or planar scenes and points allow the method to be as accurate as other point methods. To do so, we introduce an emph{a contrario} RANSAC variant to choose, for each scene, whether points or line segments should be used for calibration. Finally, to deal with the lack of overlap between consecutive pictures in indoor scenes, we introduce a multi-view calibration method that uses coplanarity constraints between segments when there are no trifocal constraints. We explain how to modify usual trifocal constraints to combine them with coplanarity constrains in order to obtain a method as accurate as usual methods but more robust in wide-baseline scenes Vision par ordinateur Calibration Faible texture Lignes Reconstruction 3D Computer vision Calibration Low texture Lines 3D reconstruction
146	Etude et optimisation d'algorithmes pour le suivi d'objets couleur / Analysis and optimisation of algorithms for color object tracking Laguzet, Florence 27 September 2013 (has links) Les travaux de cette thèse portent sur l'amélioration et l'optimisation de l'algorithme de suivi d'objet couleur Mean-Shift à la fois d’un point de vue robustesse du suivi et d’un point de vue architectural pour améliorer la vitesse d’exécution. La première partie des travaux a consisté en l'amélioration de la robustesse du suivi. Pour cela, l'impact des espaces de représentation couleur a été étudié, puis une méthode permettant la sélection de l'espace couleur représentant le mieux l'objet à suivre a été proposée. L'environnement de la cible changeant au cours du temps, une stratégie est mise en place pour resélectionner un espace couleur au moment opportun. Afin d'améliorer la robustesse dans le cas de séquences particulièrement difficile, le Mean-Shift avec stratégie de sélection a été couplé avec un autre algorithme plus coûteux en temps d'exécution : le suivi par covariance. L’objectif de ces travaux est d’obtenir un système complet fonctionnant en temps réel sur processeurs multi-cœurs SIMD. Une phase d’étude et d'optimisation a donc été réalisée afin de rendre les algorithmes paramétrables en complexité pour qu’ils puissent s’exécuter en temps réel sur différentes plateformes, pour différentes tailles d’images et d’objets suivi. Dans cette optique de compromis vitesse / performance, il devient ainsi possible de faire du suivi temps-réel sur des processeurs ARM type Cortex A9. / The work of this thesis focuses on the improvement and optimization of the Mean-Shift color object tracking algorithm, both from a theoretical and architectural point of view to improve both the accuracy and the execution speed. The first part of the work consisted in improving the robustness of the tracking. For this, the impact of color space representation on the quality of tracking has been studied, and a method for the selection of the color space that best represents the object to be tracked has been proposed. The method has been coupled with a strategy determining the appropriate time to recalculate the model. Color space selection method was also used in collaboration with another object tracking algorithm to further improve the tracking robustness for particularly difficult sequences : the covariance tracking which is more time consuming. The objective of this work is to obtain an entire real time system running on multi-core SIMD processors. A study and optimization phase has been made in order to obtain algorithms with a complexity that is configurable so that they can run in real time on different platforms, for various sizes of images and object tracking. In this context of compromise between speed and performance, it becomes possible to do real-time tracking on processors like ARM Cortex A9. Vision par ordinateur Suivi d'objets couleur Architectures parallèles Optimisation de code Computer Vision Color object tracking Parallel architectures Code optimisation
147	Analyse de l'illumination et des propriétés de réflectance en utilisant des collections d'images / Illumination and Photometric Properties using Photo Collections Diaz, Mauricio 26 October 2011 (has links) L'utilisation de collections d'images pour les applications de vision par ordinateur devient de plus en plus commune des nos jours. L'objectif principal de cette thèse est d'exploiter et d'extraire des informations importantes d'images de scènes d'extérieur a partir de ce type de collections : l'illumination présente au moment de la prise, les propriétés de reflectance des matériaux composant les objets dans la scène et les propriétés radiométriques des appareils photo utilisés. Pour atteindre notre objectif, cette thèse est composée de deux parties principales. Dans un premier temps nous allons réaliser une analyse de différentes représentations du ciel et une comparaison des images basée sur l'apparence de celui-ci. Une grande partie de l'information visuelle perçue dans les images d'extérieures est due a l'illumination en provenance du ciel. Ce facteur est représenté par les rayons du soleil réfléchis et réfractés dans l'atmosphère en créant une illumination globale de l'environnement. En même temps cet environnement détermine la façon de percevoir les objets du monde réel. Etant donné l'importance du ciel comme source d'illumination, nous formulons un processus générique en trois temps, segmentation, modélisation et comparaison des pixels du ciel, pour trouver des images similaires en se basant sur leurs apparences. Différentes méthodes sont adoptées dans les phases de modélisation et de comparaison. La performance des algorithmes est validée en trouvant des images similaires dans de grandes collections de photos. La deuxième partie de cette thèse consiste a exploiter l'information géométrique additionnelle pour en déduire les caractéristiques photométriques de la scène. A partir d'une structure 3D récupérée en utilisant des méthodes disponibles, nous analysons le processus de formation de l'image a partir de modèles simples, puis nous estimons les paramètres qui les régissent. Les collections de photos sont généralement capturées par différents appareils photos, d'où l'importance d'insister sur leur calibrage radiométrique. Notre formulation estime cet étalonnage pour tous les appareils photos en même temps, en utilisant une connaissance a priori sur l'espace des fonctions de réponse des caméras possibles. Nous proposons ensuite, un cadre d'estimation conjoint pour calculer une représentation de l'illumination globale dans chaque image, l'albedo de la surface qui compose la structure 3D et le calibrage radiométrique pour tous les appareils photos. / The main objective of this thesis is to exploit the photometric information avail- able in large photo collections of outdoor scenes to infer characteristics of the illumination, the objects and the cameras. To achieve this goal two problems are addressed. In a preliminary work, we explore opti- mal representations for the sky and compare images based on its appearance. Much of the information perceived in outdoor scenes is due to the illumination coming from the sky. The solar beams are reflected and refracted in the atmosphere, creating a global illumination ambiance. In turn, this environment determines the way that we perceive objects in the real world. Given the importance of the sky as an illumination source, we formulate a generic 3–step process in order to compare images based on its appearance. These three stages are: segmentation, modeling and comparing of the sky pixels. Different approaches are adopted for the modeling and comparing phases. Performance of the algorithms is validated by finding similar images in large photo collections. A second part of the thesis aims to exploit additional geometric information in order to deduce the photometric characteristics of the scene. From a 3D structure recovered using available multi–view stereo methods, we trace back the image formation process and estimate the models for the components involved on it. Since photo collections are usually acquired with different cameras, our formulation emphasizes the estimation of the radiometric calibration for all the cameras at the same time, using a strong prior on the possible space of camera response functions. Then, in a joint estimation framework, we also propose a robust computation of the global illumination for each image, the surface albedo for the 3D structure and the radiometric calibration for all the cameras. Vision par Ordinateur Photométrie Mesure des couleurs Calibration du camera Photometry Image collections Radiometric calibration Machine VIsion Color measurement 510
148	Reconstruction tridimensionnelle en vision par ordinateur : cas des cameras non etalonnees Boufama, Boubakeur 16 December 1994 (has links) (PDF) Cette these concerne principalement la reconstruction tridimensionnelle a partir d'images issues de cameras non etalonnees. Deux autres sujets lies a la reconstruction ont ete traites : le calcul de la geometrie epipolaire et la mise en correspondance des points dans les images. Nous nous placons dans le cas general d'une sequence d'images obtenues avec une ou plusieurs cameras de carateristiques inconnues. Quand seuls les points observes dans les images sont utilisees la seule reconstruction possible est de type projective. Nous proposons d'abord une methode pour calculer la reconstruction projective, ensuite, montrons comment passer d'une telle reconstruction a une reconstruction euclidienne. Ce passage utilise des contraintes euclidiennes issues de connaissances a priori sur la scene tridimensionnelle. Enfin, nous proposons une methode de reconstruction euclidienne lorsque les parametres intrinseques des cameras sont approximativement connus. Cette methode utilise un parametrage permettant une grande stabilite dans les calculs Toutes les methodes proposees sont validees avec des exemples d'images reelles ou simulees. vision par ordinateur geometrie epipolaire mise en correspondance de points geometrie projective reconstruction tridimensionnelle calcul du mouvement
149	APPROCHE DIRECTE DE L'ESTIMATION AUTOMATIQUE DE L'ORIENTATION 3D D'IMAGES Kalantari, Mahzad 04 September 2009 (has links) (PDF) Récemment, la géomatique grand public s'est emparée de la représentation 3D des bâtiments. Le besoin d'acquérir des images et de les restituer en 3D, sous forme de maquettes parfaitement fidèles à la réalité, est ainsi devenu immense. On a donc vu depuis une décennie, se construire des véhicules capables de photographier en stéréoscopie des villes entières, et il a fallu concevoir les algorithmes capables de traiter ces énormes quantités d'images. Très naturellement, les industriels en charge de ces problèmes se sont tournés vers les outils de vision par ordinateur et de robotique, très bien adaptés aux calculs temps réel, oubliant l'essentiel de l'héritage de la photogrammétrie, orientée quant à elle vers une extrême précision, jugée ici comme une moindre priorité. Néanmoins, les algorithmes publiés en vision par ordinateur présentaient de réels défauts lorsqu'ils étaient appliqués à des surfaces planes alors que ce cas est extrêmement courant dans des scènes urbaines pour traiter les façades de bâtiments. Les recherches que nous avons menées ont porté sur la recherche de solutions nouvelles, capables d'exploiter les spécificités de telles images : tout d'abord, nos travaux ont cherché à accélérer l'orientation relative des images, en tirant bénéfice des points de fuite figurant dans celles-ci. Pour ce faire, de nouvelles méthodes d'extraction automatique de ces points ont été mises au point et évaluées plus performantes que celles disponibles jusqu'ici. Ensuite, nos recherches ont porté sur les moyens de corriger le défaut évoqué précédemment pour les surfaces planes, et de nouveaux algorithmes capables de donner en temps quasi-réel de bonnes solutions d'orientation relative pour de telles scènes ont été développés. A cette fin, de nouveaux outils mathématiques ont été utilisés : les bases de Gröbner. En rupture complète avec les solutions linéaires habituelles, ils permettent en effet une résolution directe des équations sous leur forme polynomiale. Ils évitent de passer par l'habituelle linéarisation, qui nécessitait une solution approchée parfois difficile à trouver dans les usages de photogrammétrie terrestre. Finalement, nos travaux ont porté sur les moyens d'accélérer les méthodes d'orientation relative en exploitant opportunément la connaissance de la direction verticale, obtenue par exemple à l'aide du nouvel algorithme de détection des points de fuite. Au total, la thèse présente une remise à plat générale des solutions permettant l'orientation et la localisation de tout un ensemble d'images. Photogrammétrie vision par ordinateur détection de points de fuite bases de Gröbner résolution directe
150	Déformation de courbes et de surfaces, gradients généralisés et application à l'analyse d'expressions faciales chez des patients épileptiques. Maurel, Pierre 03 December 2008 (has links) (PDF) Dans ce travail, nous commençons par étudier le recalage et la mise en correspondance de formes 2D ou 3D (courbes ou surfaces). Nous définissons et minimisons des distances entre ces formes. Afin d'avoir un certain contrôle sur le chemin suivi lors de la minimisation, nous introduisons une généralisation du gradient de forme permettant d'ajouter une contrainte sur la forme du gradient de différentes manières.<br />Dans une seconde partie plus applicative, nous présentons nos travaux sur l'analyse automatique d'expressions faciales appliquée à des patients épileptiques et explorons la possibilité d'utiliser cet outil pour l'aide au diagnostic. vision par ordinateur image forme recalage mise en correspondance minimisation expressions faciales imagerie médicale

Search results