• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 216
  • 150
  • 40
  • Tagged with
  • 409
  • 409
  • 409
  • 287
  • 161
  • 112
  • 110
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
141

Vision par ordinateur pour la reconnaissance des gestes: analyse et modélisation stochastique du geste dans l'interaction musicale

Manitsaris, Sotiris 18 March 2010 (has links) (PDF)
Cette thèse présente un système prototype de vision par ordinateur pour la reconnaissance des gestes dans l'’interaction entre le pianiste et l'’instrument. La vision par ordinateur est la seule technologie permettant la reconnaissance des gestes, sans interférence entre le pianiste et son instrument, et à un faible coût. Le système propose deux approches pour la reconnaissance : a) l'’approche statique, ou reconnaissance des doigtés, et b) l’'approche dynamique, extension de l’'approche statique. La reconnaissance statique s’'applique à chaque image de la vidéo. Elle repose sur l’'analyse et l'’interprétation des caractéristiques de l'’image, en les comparant avec le modèle déterministe du geste. La reconnaissance dynamique s'’applique à un ensemble de séquences d'’images vidéo. Elle se base sur l'’analyse et la modélisation stochastique du geste, à l'’aide de Modèles de Markov Cachés. Cette méthode peut être étendue à d’'autres champs d’'application tels que le suivi de personnes en perte d'’autonomie à domicile, la valorisation du patrimoine culturel, l'’étude du comportement humain ou encore l'’interaction homme-machine.
142

Vision stéréoscopique par ordinateur pour la détection et le suivi de cibles pour une application automobile

Morat, Julien 01 July 2008 (has links) (PDF)
La complexité croissante de l'environnement routier et le souci d'amélioration de la sécurité routière expliquent l'intérêt que porte les constructeurs automobiles aux travaux sur l'aide à la conduite. De nombreux systèmes équipent déjà les véhicules de la rue. Alors que la perception de l'état du véhicule (vitesse, position, etc.) est maîtrisée, celle de l'environnement reste une tache difficile. <br />Parmi tous les capteurs susceptibles de percevoir la complexité d'un environnement urbain, la stéréo-vision offre à la fois des performances intéressantes, une spectre d'applications très larges (détection de piéton, suivi de véhicules, détection de ligne blanches, etc.) et un prix compétitif. Pour ces raisons, Renault s'attache à identifier et résoudre les problèmes liés à l'implantation d'un tel système dans un véhicule de série, notamment pour une application de suivi de véhicules. <br />La première problématique à maîtriser concerne le calibrage du système <br />stéréoscopique. En effet, pour que le système puisse fournir une mesure, ses paramètres doivent être correctement estimés, y compris sous des conditions extrêmes (forte températures, chocs, vibrations, ...). Nous présentons donc une méthodologie d'évaluation permettant de répondre aux interrogations sur les dégradations de performances du système en fonction du calibrage.<br />Le deuxième problème concerne la détection des obstacles. La méthode mis au point utilise d'une originale les propriétés des rectifications. Le résultat est une segmentation de la route et des obstacles. <br />La dernière problématique concerne la calcul de vitesse des obstacles. Une grande majorité des approches de la littérature approxime la vitesse d'un obstacle à partir de ses positions successives. Lors de ce calcul, l'accumulation des incertitudes rendent cette estimation extrêmement bruitée. Notre approche combine efficacement les atouts de la stéréo-vision et du flux optique afin d'obtenir directement une mesure de vitesse 3-D robuste et précise.
143

Representations en Scattering pour la Reconaissance

Bruna, Joan 06 February 2013 (has links) (PDF)
Ma thèse étudie le problème de la reconnaissance des objets et des textures. Dans ce cadre, il est nécessaire de construire des représentations de signaux avec des propriétés d'invariance et de stabilité qui ne sont pas satisfaites par des approches linéaires. Les opérateurs de Scattering itèrent des décompositions en ondelettes et rectifications avec des modules complexes. Ces opérateurs définissent une transformée non-linéaire avec des propriétés remarquables ; en particulier, elle est localement invariante par translation et Lipschitz continue par rapport à l'action des difféomorphismes. De plus, les opérateurs de Scattering définissent une représentation des processus stationnaires qui capture les moments d'ordre supérieur, et qui peut être estimée avec faible variance à partir d'un petit nombre de réalisations. Dans cette thèse, nous obtenons des nouvelles propriétés mathématiques de la représentation en scattering, et nous montrons leur efficacité pour la reconnaissance des objets et textures. Grâce à sa continuité Lipschitz par rapport à l'action des difféomorphismes, la transformée en scattering est capable de linéariser les petites déformations. Cette propriété peut être exploitée en pratique avec un classificateur génératif affine, qui nous permet d'obtenir l'état de l'art sur la reconnaissance des chiffres manuscrites. Nous étudions ensuite les représentations en Scattering des textures dans le cadre des images et du son. Nous montrons leur capacité à discriminer des phénomènes non-gaussiens avec des estimateurs à faible variance, ce qui nous permet d'obtenir de l'état de l'art pour la reconnaissance des textures. Finalement, nous nous intéressons aux propriétés du Scattering pour l'analyse multifractale. Nous introduisons une renormalisation des coéfficients en Scattering qui permet d'identifier de façon efficace plusieurs paramètres multifractales; en particulier, nous obtenons une nouvelle caractérisation de l'intermittence à partir des coefficients de Scattering ré-normalisés, qui peuvent s'estimer de façon consistante.
144

Modélisation des environnements dynamiques pour la localisation

Decrouez, Marion 07 May 2013 (has links) (PDF)
Les travaux effectués dans cette thèse s'inscrivent dans les problématiques de modélisation d'environnement pour la localisation par vision monoculaire. Nous nous intéressons tout particulièrement à la modélisation des environnements intérieurs dynamiques. Les environnements intérieurs sont constitués d'une multitude d'objets susceptibles d'être déplacés. Ces déplacements modifient de façon notable la structure et l'apparence de l'environnement et perturbent les méthodes actuelles de localisation par vision. Nous présentons dans ces travaux une nouvelle approche pour la modélisation d'un environnement et son évolution au fil du temps. Dans cette approche, nous définissons la scène explicitement comme une structure statique et un ensemble d'objets dynamiques. L'objet est défini comme une entité rigide qu'un utilisateur peut prendre et déplacer et qui est repérable visuellement. Nous présentons tout d'abord comment détecter et apprendre automatiquement les objets d'un environnement dynamique. Alors que les méthodes actuelles de localisation filtrent les incohérences dues aux modifications de la scène, nous souhaitons analyser ces modifications pour extraire des informations supplémentaires. Sans aucune connaissance a priori, un objet est défini comme une structure rigide ayant un mouvement cohérent par rapport à la structure statique de la scène. En associant deux méthodes de localisation par vision reposant sur des paradigmes différents, nous comparons les multiples passages d'une caméra dans un même environnement. La comparaison permet de détecter des objets ayant bougé entre deux passages. Nous pouvons alors, pour chaque objet détecté, apprendre un modèle géométrique et un modèle d'apparence et retenir les positions occupées par l'objet dans les différentes explorations. D'autre part, à chaque nouveau passage, la connaissance de l'environnement est enrichie en mettant à jour les cartes métrique et topologique de la structure statique de la scène. La découverte d'objet par le mouvement repose en grande partie sur un nouvel algorithme de détection de multiples structures entre deux vues que nous proposons dans ces travaux. Etant donné un ensemble de correspondances entre deux vues similaires, l'algorithme, reposant sur le RANSAC, segmente les structures correspondant aux différentes paramétrisations d'un modèle mathématique. La méthode est appliquée à la détection de multiples homographies pour détecter les plans de la scène et à la détection de multiples matrices fondamentales pour détecter les objets rigides en mouvement. La modélisation de l'environnement que nous proposons est utilisée dans une nouvelle formulation de reconnaissance de lieu prenant en compte la connaissance d'objets dynamiques susceptibles d'être présents dans l'environnement. Le modèle du lieu est constitué de l'apparence de la structure statique observée dans ce lieu. Une base de données d'objets est apprise à partir des précédentes observations de l'environnement avec la méthode de découverte par le mouvement. La méthode proposée permet à la fois de détecter les objets mobiles présents dans le lieu et de rejeter les erreurs de détection dues à la présence de ces objets. L'ensemble des approches proposées sont évaluées sur des données synthétiques et réelles. Des résultats qualitatifs et quantitatifs sont présentés tout au long du mémoire.
145

Analyse vidéo de comportements humains dans les points de ventes en temps-réel

Sicre, Ronan 24 May 2011 (has links)
Cette thèse est effectuée en collaboration entre le LaBRI (Laboratoire bordelais de recherche en informatique) et MIRANE S.A.S., le leader français en Publicité sur Lieu de Vente (PLV) Dynamique. Notre but est d'analyser des comportements humains dans un point de vente. Le long de cette thèse, nous présentons un système d'analyse vidéo composé de plusieurs procédés de divers niveaux. Nous présentons, dans un premier temps, l'analyse vidéo de bas niveau composée de la détection de mouvement et du suivi d'objets. Puis nous analysons le comportement de ces objets suivis, lors de l'analyse de niveau moyen. Finalement, l'analyse de haut-niveau est composée d'une interprétation sémantique de ces comportements et d'une détection de scenarios de haut-niveau. / Along this thesis various subjects are studied, from the lowest to the higher level of video analysis. We first present motion detection and object tracking that compose the low-level processing part of our system. Motion detection aims at detecting moving areas, which correspond to foreground, of an image. The result of motion detection is a foreground mask that is used as input for the object tracking process. Tracking matches and identifies foreground regions across frames. Then, we analyze the behavior of the tracked objects, as the mid-level analysis. At each frame, we detect the current state of action of each tracked object currently in the scene. Finally, the system generates a semantic interpretation of these behaviors and we analyze high-level scenarios as the high-level part of our system. These two processes analyze the series of states of each object. The semantic interpretation generates sentences when state changes occur. Scenario recognition detect three different scenarios by analyzing the temporal constraints between the states.
146

Reconstruction active et passive en vision par ordinateur

Tardif, Jean-Philippe January 2007 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
147

Person re-identification in images with deep learning / Ré-identification de personnes dans des images par apprentissage automatique

Chen, Yiqiang 12 October 2018 (has links)
La vidéosurveillance est d’une grande valeur pour la sécurité publique. En tant que l’un des plus importantes applications de vidéosurveillance, la ré-identification de personnes est définie comme le problème de l’identification d’individus dans des images captées par différentes caméras de surveillance à champs non-recouvrants. Cependant, cette tâche est difficile à cause d’une série de défis liés à l’apparence de la personne, tels que les variations de poses, de point de vue et de l’éclairage etc. Pour régler ces différents problèmes, dans cette thèse, nous proposons plusieurs approches basées sur l’apprentissage profond de sorte d’améliorer de différentes manières la performance de ré-identification. Dans la première approche, nous utilisons les attributs des piétons tels que genre, accessoires et vêtements. Nous proposons un système basé sur un réseau de neurones à convolution(CNN) qui est composé de deux branches : une pour la classification d’identité et l’autre pour la reconnaissance d’attributs. Nous fusionnons ensuite ces deux branches pour la ré-identification. Deuxièmement, nous proposons un CNN prenant en compte différentes orientations du corps humain. Le système fait une estimation de l’orientation et, de plus, combine les caractéristiques de différentes orientations extraites pour être plus robuste au changement de point de vue. Comme troisième contribution de cette thèse, nous proposons une nouvelle fonction de coût basée sur une liste d’exemples. Elle introduit une pondération basée sur le désordre du classement et permet d’optimiser directement les mesures d’évaluation. Enfin, pour un groupe de personnes, nous proposons d’extraire une représentation de caractéristiques visuelles invariante à la position d’un individu dans une image de group. Cette prise en compte de contexte de groupe réduit ainsi l’ambigüité de ré-identification. Pour chacune de ces quatre contributions, nous avons effectué de nombreuses expériences sur les différentes bases de données publiques pour montrer l’efficacité des approches proposées. / Video surveillance systems are of a great value for public safety. As one of the most import surveillance applications, person re-identification is defined as the problem of identifying people across images that have been captured by different surveillance cameras without overlapping fields of view. With the increasing need for automated video analysis, this task is increasingly receiving attention. However, this problem is challenging due to the large variations of lighting, pose, viewpoint and background. To tackle these different difficulties, in this thesis, we propose several deep learning based approaches to obtain a better person re-identification performance in different ways. In the first proposed approach, we use pedestrian attributes to enhance the person re-identification. The attributes are defined as semantic mid-level descriptions of persons, such as gender, accessories, clothing etc. They could be helpful to extract characteristics that are invariant to the pose and viewpoint variations thanks to the descriptor being on a higher semantic level. In order to make use of the attributes, we propose a CNN-based person re-identification framework composed of an identity classification branch and of an attribute recognition branch. At a later stage, these two cues are combined to perform person re-identification. Secondly, among the challenges, one of the most difficult is the variation under different viewpoint. The same person shows very different appearances from different points of view. To deal with this issue, we consider that the images under various orientations are from different domains. We propose an orientation-specific CNN. This framework performs body orientation regression in a gating branch, and in another branch learns separate orientation-specific layers as local experts. The combined orientation-specific CNN feature representations are used for the person re-identification task. Thirdly, learning a similarity metric for person images is a crucial aspect of person re-identification. As the third contribution, we propose a novel listwise loss function taking into account the order in the ranking of gallery images with respect to different probe images. Further, an evaluation gain-based weighting is introduced in the loss function to optimize directly the evaluation measures of person re-identification. At the end, in a large gallery set, many people could have similar clothing. In this case, using only the appearance of single person leads to strong ambiguities. In realistic settings, people often walk in groups rather than alone. As the last contribution, we propose to learn a deep feature representation with displacement invariance for group context and introduce a method to combine the group context and single-person appearance. For all the four contributions of this thesis, we carry out extensive experiments on popular benchmarks and datasets to demonstrate the effectiveness of the proposed systems.
148

Reconstruction 3D de scènes d'intérieurs à partir de photographies / 3D reconstruction of low-texture indoor scenes from pictures

Salaün, Yohann 06 July 2017 (has links)
Les méthodes actuelles de photogrammétrie permettent de reconstruire en 3D de nombreux objets et/ou scènes à partir de leurs photographies. Pour ce faire, les méthodes classiques détectent des points saillants dans les images et les mettent en correspondance entre plusieurs images. Ces correspondances permettent d'obtenir une information de calibration entre les différentes positions d'où la scène a été photographiée. Une fois ces positions déterminées, il est alors possible d'obtenir une reconstruction dense de la scène en triangulant les parties de la scène vues dans plusieurs images. La détection et la mise en correspondance de points saillants jouent un rôle crucial dans le procédé de reconstruction 3D. C'est pourquoi certaines scènes ou objets sont encore difficiles à reconstruire à partir de méthode de photogrammétrie. C'est notamment le cas des scènes d'intérieur, souvent constituées de larges pans de mur peu texturés où la détection et la mise en correspondance de points sont souvent défaillantes. De plus, la très grande présence de motifs planaires, cas dégénérés des méthodes de calibration usuelles, rend ces scènes très difficiles à calibrer. Dans cette thèse, nous nous intéressons à l'utilisation de segments pour compenser la faible efficacité des points dans le cas des scènes d'intérieur. Dans un premier temps, nous introduisons une méthode de détection de segments plus robuste au manque de contraste des scènes d'intérieur. C'est une méthode multi-échelle qui permet également d'obtenir d'aussi bons résultats quelle que soit la résolution de l'image utilisée. Nous utilisons pour cela des critères inspirés des méthodes emph{a contrario} pour éviter l'utilisation de nombreux paramètres. Nous présentons ensuite une méthode de calibration bifocale utilisant à la fois les segments et les points pour obtenir une méthode robuste au manque de texture et à la planarité de la scène tout en conservant la précision des méthodes de points. Nous introduisons alors une variante du RANSAC emph{a contrario} pour déterminer lorsqu'il vaut mieux utiliser les segments plutôt que les points pour calibrer. Enfin, pour compenser le manque de recouvrement entre photographies dans le cadre des scènes d'intérieur, nous introduisons une méthode de calibration multi-vue utilisant des contraintes de coplanarité entre segments sans avoir besoin de contraintes trifocales. Nous expliquons enfin comment modifier les contraintes trifocales usuelles pour les ajouter aux contraintes de coplanarité et ainsi obtenir une méthode plus robuste mais aussi précise que les méthodes usuelles / The 3D reconstruction of many objects and/or scenes from their photographies is made possible by current photogrammetry methods. To do so, usual methods detect salient points in every pictures and then match them between each pictures. These matches then give information on the position of every camera that took a picture of the scene. Once these positions are obtained, a dense reconstruction of the scene can be obtained by triangulating the parts seen in different pictures. Point detection and matching are crucial parts of these 3D reconstruction methods. That is why some scenes or objects are still hard to reconstruct in 3D with photogrammetry methods. Indoor scenes belong to these difficult cases, with their lack of texture that causes point detection and matching to give poor results. Moreover, the planarity of these scenes is a degenerate case for usual calibration methods. Combined, these drawbacks explain the difficulty to calibrate such scenes. In this thesis, we explain how to use segments to compensate for the lack of robustness of point methods in the case of indoor scenes. First, we introduce a segment detection method that is more robust to the lack of contrast in indoor scenes. This multi-scale method also gives good results whatever the image resolution is. We use criterion inspired from emph{a contrario} methods to avoid usage of several parameters. We then present a bifocal calibration method that uses both line segments and points. Segments allow the method to still work in low-texture and/or planar scenes and points allow the method to be as accurate as other point methods. To do so, we introduce an emph{a contrario} RANSAC variant to choose, for each scene, whether points or line segments should be used for calibration. Finally, to deal with the lack of overlap between consecutive pictures in indoor scenes, we introduce a multi-view calibration method that uses coplanarity constraints between segments when there are no trifocal constraints. We explain how to modify usual trifocal constraints to combine them with coplanarity constrains in order to obtain a method as accurate as usual methods but more robust in wide-baseline scenes
149

Etude et optimisation d'algorithmes pour le suivi d'objets couleur / Analysis and optimisation of algorithms for color object tracking

Laguzet, Florence 27 September 2013 (has links)
Les travaux de cette thèse portent sur l'amélioration et l'optimisation de l'algorithme de suivi d'objet couleur Mean-Shift à la fois d’un point de vue robustesse du suivi et d’un point de vue architectural pour améliorer la vitesse d’exécution. La première partie des travaux a consisté en l'amélioration de la robustesse du suivi. Pour cela, l'impact des espaces de représentation couleur a été étudié, puis une méthode permettant la sélection de l'espace couleur représentant le mieux l'objet à suivre a été proposée. L'environnement de la cible changeant au cours du temps, une stratégie est mise en place pour resélectionner un espace couleur au moment opportun. Afin d'améliorer la robustesse dans le cas de séquences particulièrement difficile, le Mean-Shift avec stratégie de sélection a été couplé avec un autre algorithme plus coûteux en temps d'exécution : le suivi par covariance. L’objectif de ces travaux est d’obtenir un système complet fonctionnant en temps réel sur processeurs multi-cœurs SIMD. Une phase d’étude et d'optimisation a donc été réalisée afin de rendre les algorithmes paramétrables en complexité pour qu’ils puissent s’exécuter en temps réel sur différentes plateformes, pour différentes tailles d’images et d’objets suivi. Dans cette optique de compromis vitesse / performance, il devient ainsi possible de faire du suivi temps-réel sur des processeurs ARM type Cortex A9. / The work of this thesis focuses on the improvement and optimization of the Mean-Shift color object tracking algorithm, both from a theoretical and architectural point of view to improve both the accuracy and the execution speed. The first part of the work consisted in improving the robustness of the tracking. For this, the impact of color space representation on the quality of tracking has been studied, and a method for the selection of the color space that best represents the object to be tracked has been proposed. The method has been coupled with a strategy determining the appropriate time to recalculate the model. Color space selection method was also used in collaboration with another object tracking algorithm to further improve the tracking robustness for particularly difficult sequences : the covariance tracking which is more time consuming. The objective of this work is to obtain an entire real time system running on multi-core SIMD processors. A study and optimization phase has been made in order to obtain algorithms with a complexity that is configurable so that they can run in real time on different platforms, for various sizes of images and object tracking. In this context of compromise between speed and performance, it becomes possible to do real-time tracking on processors like ARM Cortex A9.
150

Analyse de l'illumination et des propriétés de réflectance en utilisant des collections d'images / Illumination and Photometric Properties using Photo Collections

Diaz, Mauricio 26 October 2011 (has links)
L'utilisation de collections d'images pour les applications de vision par ordinateur devient de plus en plus commune des nos jours. L'objectif principal de cette thèse est d'exploiter et d'extraire des informations importantes d'images de scènes d'extérieur a partir de ce type de collections : l'illumination présente au moment de la prise, les propriétés de reflectance des matériaux composant les objets dans la scène et les propriétés radiométriques des appareils photo utilisés. Pour atteindre notre objectif, cette thèse est composée de deux parties principales. Dans un premier temps nous allons réaliser une analyse de différentes représentations du ciel et une comparaison des images basée sur l'apparence de celui-ci. Une grande partie de l'information visuelle perçue dans les images d'extérieures est due a l'illumination en provenance du ciel. Ce facteur est représenté par les rayons du soleil réfléchis et réfractés dans l'atmosphère en créant une illumination globale de l'environnement. En même temps cet environnement détermine la façon de percevoir les objets du monde réel. Etant donné l'importance du ciel comme source d'illumination, nous formulons un processus générique en trois temps, segmentation, modélisation et comparaison des pixels du ciel, pour trouver des images similaires en se basant sur leurs apparences. Différentes méthodes sont adoptées dans les phases de modélisation et de comparaison. La performance des algorithmes est validée en trouvant des images similaires dans de grandes collections de photos. La deuxième partie de cette thèse consiste a exploiter l'information géométrique additionnelle pour en déduire les caractéristiques photométriques de la scène. A partir d'une structure 3D récupérée en utilisant des méthodes disponibles, nous analysons le processus de formation de l'image a partir de modèles simples, puis nous estimons les paramètres qui les régissent. Les collections de photos sont généralement capturées par différents appareils photos, d'où l'importance d'insister sur leur calibrage radiométrique. Notre formulation estime cet étalonnage pour tous les appareils photos en même temps, en utilisant une connaissance a priori sur l'espace des fonctions de réponse des caméras possibles. Nous proposons ensuite, un cadre d'estimation conjoint pour calculer une représentation de l'illumination globale dans chaque image, l'albedo de la surface qui compose la structure 3D et le calibrage radiométrique pour tous les appareils photos. / The main objective of this thesis is to exploit the photometric information avail- able in large photo collections of outdoor scenes to infer characteristics of the illumination, the objects and the cameras. To achieve this goal two problems are addressed. In a preliminary work, we explore opti- mal representations for the sky and compare images based on its appearance. Much of the information perceived in outdoor scenes is due to the illumination coming from the sky. The solar beams are reflected and refracted in the atmosphere, creating a global illumination ambiance. In turn, this environment determines the way that we perceive objects in the real world. Given the importance of the sky as an illumination source, we formulate a generic 3–step process in order to compare images based on its appearance. These three stages are: segmentation, modeling and comparing of the sky pixels. Different approaches are adopted for the modeling and comparing phases. Performance of the algorithms is validated by finding similar images in large photo collections. A second part of the thesis aims to exploit additional geometric information in order to deduce the photometric characteristics of the scene. From a 3D structure recovered using available multi–view stereo methods, we trace back the image formation process and estimate the models for the components involved on it. Since photo collections are usually acquired with different cameras, our formulation emphasizes the estimation of the radiometric calibration for all the cameras at the same time, using a strong prior on the possible space of camera response functions. Then, in a joint estimation framework, we also propose a robust computation of the global illumination for each image, the surface albedo for the 3D structure and the radiometric calibration for all the cameras.

Page generated in 0.1136 seconds