• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 214
  • 149
  • 39
  • Tagged with
  • 405
  • 405
  • 405
  • 286
  • 161
  • 111
  • 109
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
311

Object representation in local feature spaces : application to real-time tracking and detection / Représentation d'objets dans des espaces de caractéristiques locales : application à la poursuite de cibles temps-réel et à la détection

Tran, Antoine 25 October 2017 (has links)
La représentation visuelle est un problème fondamental en vision par ordinateur. Le but est de réduire l'information au strict nécessaire pour une tâche désirée. Plusieurs types de représentation existent, comme les caractéristiques de couleur (histogrammes, attributs de couleurs...), de forme (dérivées, points d'intérêt...) ou d'autres, comme les bancs de filtres.Les caractéristiques bas-niveau (locales) sont rapides à calculer. Elles ont un pouvoir de représentation limité, mais leur généricité présente un intérêt pour des systèmes autonomes et multi-tâches, puisque les caractéristiques haut-niveau découlent d'elles.Le but de cette thèse est de construire puis d'étudier l'impact de représentations fondées seulement sur des caractéristiques locales de bas-niveau (couleurs, dérivées spatiales) pour deux tâches : la poursuite d'objets génériques, nécessitant des caractéristiques robustes aux variations d'aspect de l'objet et du contexte au cours du temps; la détection d'objets, où la représentation doit décrire une classe d'objets en tenant compte des variations intra-classe. Plutôt que de construire des descripteurs d'objets globaux dédiés, nous nous appuyons entièrement sur les caractéristiques locales et sur des mécanismes statistiques flexibles visant à estimer leur distribution (histogrammes) et leurs co-occurrences (Transformée de Hough Généralisée). La Transformée de Hough Généralisée (THG), créée pour la détection de formes quelconques, consiste à créer une structure de données représentant un objet, une classe... Cette structure, d'abord indexée par l'orientation du gradient, a été étendue à d'autres caractéristiques. Travaillant sur des caractéristiques locales, nous voulons rester proche de la THG originale.En poursuite d'objets, après avoir présenté nos premiers travaux, combinant la THG avec un filtre particulaire (utilisant un histogramme de couleurs), nous présentons un algorithme plus léger et rapide (100fps), plus précis et robuste. Nous présentons une évaluation qualitative et étudierons l'impact des caractéristiques utilisées (espace de couleur, formulation des dérivées partielles...). En détection, nous avons utilisé l'algorithme de Gall appelé forêts de Hough. Notre but est de réduire l'espace de caractéristiques utilisé par Gall, en supprimant celles de type HOG, pour ne garder que les dérivées partielles et les caractéristiques de couleur. Pour compenser cette réduction, nous avons amélioré deux étapes de l'entraînement : le support des descripteurs locaux (patchs) est partiellement produit selon une mesure géométrique, et l'entraînement des nœuds se fait en générant une carte de probabilité spécifique prenant en compte les patchs utilisés pour cette étape. Avec l'espace de caractéristiques réduit, le détecteur n'est pas plus précis. Avec les mêmes caractéristiques que Gall, sur une même durée d'entraînement, nos travaux ont permis d'avoir des résultats identiques, mais avec une variance plus faible et donc une meilleure répétabilité. / Visual representation is a fundamental problem in computer vision. The aim is to reduce the information to the strict necessary for a query task. Many types of representation exist, like color features (histograms, color attributes...), shape ones (derivatives, keypoints...) or filterbanks.Low-level (and local) features are fast to compute. Their power of representation are limited, but their genericity have an interest for autonomous or multi-task systems, as higher level ones derivate from them. We aim to build, then study impact of low-level and local feature spaces (color and derivatives only) for two tasks: generic object tracking, requiring features robust to object and environment's aspect changes over the time; object detection, for which the representation should describe object class and cope with intra-class variations.Then, rather than using global object descriptors, we use entirely local features and statisticals mecanisms to estimate their distribution (histograms) and their co-occurrences (Generalized Hough Transform).The Generalized Hough Transform (GHT), created for detection of any shape, consists in building a codebook, originally indexed by gradient orientation, then to diverse features, modeling an object, a class. As we work on local features, we aim to remain close to the original GHT.In tracking, after presenting preliminary works combining the GHT with a particle filter (using color histograms), we present a lighter and fast (100 fps) tracker, more accurate and robust.We present a qualitative evaluation and study the impact of used features (color space, spatial derivative formulation).In detection, we used Gall's Hough Forest. We aim to reduce Gall's feature space and discard HOG features, to keep only derivatives and color ones.To compensate the reduction, we enhanced two steps: the support of local descriptors (patches) are partially chosen using a geometrical measure, and node training is done by using a specific probability map based on patches used at this step.With reduced feature space, the detector is less accurate than with Gall's feature space, but for the same training time, our works lead to identical results, but with higher stability and then better repeatability.
312

Earth Observation and Stereo Vision / Observation de la Terre et stéréoscopie

De Franchis, Carlo 05 October 2015 (has links)
Cette thèse étudie les problèmes posés par l’estimation automatique de modèles numériques d’élévation de la surface terrestre à partir de photographies prises par des satellites. Ce travail a bénéficié d’une collaboration avec le CNES (Centre National d’Etudes Spatiales) sur le développement d’outils de vision stéréoscopique pour Pléiades, le premier satellite d’observation de la Terre capable de produire des paires ou triplets d’images quasi-simultanées. Le premier chapitre de la thèse décrit un modèle simplifié de caméra pushbroom destiné aux satellites d’observation de la Terre, et aborde le problème de la correction des données de calibration en faisant intervenir des mesures externes. Ce chapitre propose un nouvel algorithme pour affiner les paramètres d’orientation du satellite à partir d’un jeu de points de contrôle. Il est utilisable pour tous les satellites munis de caméras pushbroom. Dans le but d’appliquer aux images satellitaires les nombreux algorithmes de mise en correspondance stéréoscopique développés en traitement d’images et en vision par ordinateur, le deuxième chapitre explore l’adaptation de la théorie de la rectification épipolaire aux images prises par des caméras pushbroom. La rectification épipolaire est utilisée habituellement pour réduire la complexité du problème de mise en correspondance stéréoscopique, et permet d’appliquer les algorithmes les plus récents à des images satellitaires. Le chapitre suivant étudie les effets des erreurs de calibration géométrique sur la rectification et propose une méthode pour éliminer leur impact sur la mise en correspondance. Le quatrième chapitre décrit et analyse en détails une implémentation de l’algorithme Semi-Global Matching (SGM), classé actuellement parmi les meilleurs algorithmes de mise en correspondance stéréoscopique. En se fondant sur une réinterprétation récente de SGM, ce chapitre en propose une variante qui permet de réduire d’un facteur cinq son écart en énergie par rapport aux algorithmes de référence pour la minimisation de champs aléatoires de Markov. En assemblant les blocs algorithmiques décrits dans les chapitres précédents, le cinquième chapitre décrit S2P, une chaîne stéréoscopique complète qui produit des modèles numériques d’élévation à partir d’images satellitaires. Un modèle d’évolution de paysage est présenté dans le sixième chapitre comme exemple d’application. Le modèle est utilisé pour simuler numériquement la structure fine du réseau hydrographique sur des modèles numériques d’élévation obtenus à partir d’images prises par Pléiades. Le code source de la chaîne S2P2 est distribué en tant que logiciel open source. Afin d’assurer la reproductibilité des résultats obtenus, les algorithmes implémentés dans S2P sont en cours de publication dans le journal IPOL, accompagnés de descriptions et d’analyses détaillées, de codes sources documentés et de démonstrateurs en ligne. / This thesis deals with the problem of computing accurate digital elevationmodels of the Earth's surface from optical images taken by pushbroomobservation satellites. It takes advantage of the collaboration of thedefendant with CNES (the French Space Agency) on the development ofstereo vision tools for Pléiades, the first Earth observation satelliteproducing quasi simultaneous stereo pairs or triplets with small baseline.The first chapter describes a simple pushbroom camera model for observationsatellites orbiting around the Earth and addresses the correction of theacquisition geometry by involving extrinsic information. This chapter proposesa new algorithm to refine the orientation parameters from a set of groundcontrol points, applicable to all pushbroom satellites.With the goal of testing for satellite imaging the thriving exploration ofstereo matching by the computer vision community, the second chapter exploresthe adaptation of the theory of epipolar resampling to pushbroom images.Epipolar resampling is traditionally used in stereo to reduce the matchingcomputational cost, and permits to test for satellite imaging the mostcompetitive computer vision algorithms. The third chapter discusses the effectsof geometric calibration inaccuracies and proposes a method to cancel itsimpact on stereo matching.The fourth chapter analyzes and describes a detailed implementation of theSemi-Global Matching (SGM) algorithm, which is currently among the top-rankedstereo vision algorithms. Based on a recently proposed interpretation of SGM asa min-sum Belief Propagation algorithm, a variant is proposed that allows toreduce by a factor five the energy gap of SGM with respect to referencealgorithms for Markov Random Fields with truncated smoothness terms.By wrapping together the algorithmic blocks described in the previous chapters,the fifth chapter describes S2P, a complete stereo pipeline for producingdigital elevation models from satellite images. As an application, a landscapeevolution model is presented in the sixth chapter. The model is used tosimulate numerically the fine structure of the river networks on digitalelevation models obtained from Pléiades Earth observation images.The source code of the S2P stereo pipeline is distributed as open source. Toensure reproducibility, the algorithms implemented in each step of the S2Ppipeline are submitted to the IPOL journal, with detailed descriptions of thealgorithms, documented source codes and online demonstrations for each block ofthe pipeline.
313

Human motion tracking from movie sequences

Nguyen, Nhat Tan 18 April 2018 (has links)
Cette thèse présente un ensemble d'outils ou cadre de développement (paradigme) pour suivre le mouvement de personnages humains dans les films. Beaucoup d'applications en forte demande, telle que la surveillance pour la sécurité ou l'interaction homme-machine, profiteraient d'un système qui pourrait détecter et suivre automatiquement des humains. L'exécution de séquences de film réelles pose un défi particulier compte tenu de la non-rigidité du mouvement du corps humains, ainsi que l'influence qu'ont plusieurs facteurs sur son apparence. Parmi eux se trouvrent la différence dans la gamme de conditions d'acquisition, la variation de l'environnement et de l'illumination, le mouvement de caméra et le peu de connaissances a priori dans le positionnement de la caméra. En tant que complément à l'analyse du mouvement humain, ce système vise à aider son utilisateur à détecter de façon automatique le mouvement de la caméra, à diviser la séquence de film en petits segments appelés "prises de vue" et à extraire des informations du mouvement humain en présence d'un arrière-scène complexe. Pour atteindre cet objectif, une estimation précise du flux optique est employée. Un processus d'image par image peut identifier six différents mouvements de la caméra, incluant une camera statique, en utilisant des gabarits prédéterminés. Il peut ensuite fournir une base de données de mouvements de caméra pour la séquence du film. Ces données sont très utiles pour l'annotation, l'indexage et la recherche de séquences vidéos. De plus, une Mixture de Gaussiennes (MoG) dotée d'un espace de couleur RGB normalisé est utilisée pour soustraire un arrière-scène statique, qui permet d'éviter les effets d'ombres. Lors d'un mouvement de caméra, nous optons pour une technique appelée "codage de couleur" pour convertir les champs de vecteurs de mouvement en image colorée et appliquer la soustraction d'arrière-plan conventionnelle à cette image de flux optique de couleurs. Ceci dit, un système de suivi multicouches déployé dans deux directions (d'ordre chronologique et d'ordre anti-chronologique) est aussi décrit dans la thèse. Finalement, l'évaluation de la performance du système est réalisée sur plusieurs séquences extraites des films réels. Les séquences ont été entièrement analysées indépendamment par un observateur humain pour fournir une base de référence réelle sur les mouvements de caméra aussi bien que sur le mouvement humain dans les séquences vidéos. La comparaison entre les résultats et la base de référence indique une performance très prometteuse des approches proposées tant par l'analyse de films que par les applications de surveillance.
314

Mise en correspondance stéréoscopique par approches variationnelles convexes ; application à la détection d'obstacles routiers

Souid-Miled, Wided 17 December 2007 (has links) (PDF)
Cette thèse porte sur la mise en correspondance stéréoscopique ainsi que sur son application à la détection des obstacles routiers à partir d'un système de vision stéréoscopique. La mise en correspondance est une étape cruciale dans la reconstruction de la structure tridimensionnelle de la scène observée. Elle consiste à retrouver les pixels homologues dans deux images prises de deux points de vue différents, et se ramène à un problème d'estimation d'un champ de disparité. La première partie de ma thèse a porté sur l'estimation de la disparité, dans le cadre d'une approche ensembliste, en minimisant une fonction objective convexe sur l'intersection d'ensembles convexes, construits à partir des connaissances a priori et des observations. Dans la plupart des applications de stéréovision, le champ de disparité doit être lisse dans les zones homogènes et les zones faiblement texturées. L'une de nos contributions a consisté à proposer différentes contraintes de régularisation satisfaisant cette propriété. Pour résoudre le problème d'optimisation considéré, nous utilisons un algorithme efficace itératif par bloc. La deuxième partie traite du problème d'estimation de la disparité en présence de changements d'illumination dans la scène observée. Nous considérons pour cela un modèle d'illumination multiplicatif qui permet de compenser les variations spatiales de luminosité de la scène. Enfin, dans la troisième partie, nous appliquons notre méthode d'estimation de la disparité robuste aux variations d'illumination pour la détection des obstacles routiers.
315

Contributions au recalage et à la reconstruction 3D de surfaces déformables

Gay-Bellile, Vincent 10 November 2008 (has links) (PDF)
Cette thèse porte sur le développement d'outils permettant le recalage d'images d'une surface déformable et la reconstruction tridimensionnelle de surfaces déformables à partir d'images prises par une seule caméra. Les surfaces que nous souhaitons traiter sont typiquement un visage ou une feuille de papier. Ces problématiques sont mal posées lorsque seule l'information présente dans les images est exploitée. Des informations a priori sur les déformations physiquement admissibles de la surface observée doivent être définies. Elles diffèrent en fonction du problème étudié. Par exemple, pour une feuille de papier, la courbure Gaussienne évaluée en chacun de ces points est nulle, cette propriété n'est pas valide pour un visage. Les applications visées sont l'insertion réaliste de logo 2D, de texte et aussi d'objets virtuels 3D dans des vidéos présentant une surface déformable. La première partie de cette thèse est consacrée au recalage d'images par modèles déformables. Après avoir brièvement introduit les notions de base sur les fonctions de déformation et sur leur estimation à partir de données images, nous donnons deux contributions. La première est un algorithme de recalage d'images d'une surface déformable, qui est efficace en terme de temps de calcul. Nous proposons une paramétrisation par primitives des fonctions de déformation permettant alors leur estimation par des algorithmes compositionnels habituellement réservés aux transformations formant un groupe. La deuxième contribution est la modélisation explicite des auto-occultations, en imposant la contraction de la fonction de déformation le long de la frontière d'auto-occultation. La deuxième partie de cette thèse aborde le problème de la reconstruction tridimensionnelle monoculaire de surfaces déformables. Nous nous basons sur le modèle de faible rang : les déformations sont approximées par une combinaison linéaire de modes de déformation inconnus. Nous supposons que ces derniers sont ordonnés par importance en terme d'amplitude de déformation capturée dans les images. Il en résulte une estimation hiérarchique des modes, facilitant l'emploi d'un modèle de caméra perspectif, la sélection automatique du nombre de modes et réduisant certaines ambiguïtés inhérentes au modèle. Nous explorons finalement la capture des déformations d'une surface peu texturée à partir de données issues d'un capteur 3D. L'information présente au niveau des contours de la surface est notamment utilisée. Nous avons implanté les différentes contributions décrites ci-dessous. Elles sont testées et comparées à l'état de l'art sur des données réelles et synthétiques. Les résultats sont présentés tout au long du tapuscrit.
316

Reconnaissance automatique des gestes de la langue française parlée complétée

Burger, Thomas 26 October 2007 (has links) (PDF)
Le LPC est un complément à la lecture labiale qui facilite la communication des malentendants. Sur le principe, il s'agit d'effectuer des gestes avec une main placée à côté du visage pour désambigüiser le mouvement des lèvres, qui pris isolément est insuffisant à la compréhension parfaite du message. Le projet RNTS TELMA a pour objectif de mettre en place un terminal téléphonique permettant la communication des malentendants en s'appuyant sur le LPC. Parmi les nombreuses fonctionnalités que cela implique, il est nécessaire de pouvoir reconnaître le geste manuel du LPC et de lui associer un sens. L'objet de ce travail est la segmentation vidéo, l'analyse et la reconnaissance des gestes de codeur LPC en situation de communication. Cela fait appel à des techniques de segmentation d'images, de classification, d'interprétation de geste, et de fusion de données. Afin de résoudre ce problème de reconnaissance de gestes, nous avons proposé plusieurs algorithmes originaux, parmi lesquels (1) un algorithme basé sur la persistance rétinienne permettant la catégorisation des images de geste cible et des images de geste de transition, (2) une amélioration des méthodes de multi-classification par SVM ou par classifieurs unaires via la théorie de l'évidence, assortie d'une méthode de conversion des probabilités subjectives en fonction de croyance, et (3) une méthode de décision partielle basée sur la généralisation de la Transformée Pignistique, afin d'autoriser les incertitudes dans l'interprétation de gestes ambigus.
317

Contributions à l'apprentissage grande échelle pour la classification d'images

Akata, Zeynep 06 January 2014 (has links) (PDF)
La construction d'algorithmes classifiant des images à grande échelle est devenue une tache essentielle du fait de la difficulté d'effectuer des recherches dans les immenses collections de données visuelles inetiquetées présentes sur Internet. Nous visons à classifier des images en fonction de leur contenu pour simplifier la gestion de telles bases de données. La classification d'images à grande échelle est un problème complèxe, de par l'importance de la taille des ensembles de données, tant en nombre d'images qu'en nombre de classes. Certaines de ces classes sont dites "fine-grained" (sémantiquement proches les unes des autres) et peuvent même ne contenir aucun représentant étiqueté. Dans cette thèse, nous utilisons des représentations état de l'art d'images et nous concentrons sur des méthodes d'apprentissage efficaces. Nos contributions sont (1) un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle et (2) un nouvel algorithme basé sur l'incorporation d'étiquettes pour apprendre sur des données peu abondantes. En premier lieu, nous introduisons un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle, dans le cadre entièrement supervisé. Il compare plusieurs fonctions objectifs pour apprendre des classifieurs linéaires, tels que "un contre tous", "multiclasse", "ranking", "ranking pondéré moyen" par descente de gradient stochastique. Ce banc d'essai se conclut en un ensemble de recommandations pour la classification à grande échelle. Avec une simple repondération des données, la stratégie "un contre tous" donne des performances meilleures que toutes les autres. Par ailleurs, en apprentissage en ligne, un pas d'apprentissage assez petit s'avère suffisant pour obtenir des résultats au niveau de l'état de l'art. Enfin, l'arrêt anticipé de la descente de gradient stochastique introduit une régularisation qui améliore la vitesse d'entraînement ainsi que la capacité de régularisation. Deuxièmement, face à des milliers de classes, il est parfois difficile de rassembler suffisamment de données d'entraînement pour chacune des classes. En particulier, certaines classes peuvent être entièrement dénuées d'exemples. En conséquence, nous proposons un nouvel algorithme adapté à ce scénario d'apprentissage dit "zero-shot". notre algorithme utilise des données parallèles, comme les attributs, pour incorporer les classes dans un espace euclidien. Nous introduisons par ailleurs une fonction pour mesurer la compatibilité entre image et étiquette. Les paramètres de cette fonction sont appris en utilisant un objectif de type "ranking". Notre algorithme dépasse l'état de l'art pour l'apprentissage "zero-shot", et fait preuve d'une grande flexibilité en permettant d'incorporer d'autres sources d'information parallèle, comme des hiérarchies. Il permet en outre une transition sans heurt du cas "zero-shot" au cas où peu d'exemples sont disponibles.
318

Reconstruction active par projection de lumière non structurée

Martin, Nicolas 04 1900 (has links)
Cette thèse porte sur la reconstruction active de modèles 3D à l’aide d’une caméra et d’un projecteur. Les méthodes de reconstruction standards utilisent des motifs de lumière codée qui ont leurs forces et leurs faiblesses. Nous introduisons de nouveaux motifs basés sur la lumière non structurée afin de pallier aux manques des méthodes existantes. Les travaux présentés s’articulent autour de trois axes : la robustesse, la précision et finalement la comparaison des patrons de lumière non structurée aux autres méthodes. Les patrons de lumière non structurée se différencient en premier lieu par leur robustesse aux interréflexions et aux discontinuités de profondeur. Ils sont conçus de sorte à homogénéiser la quantité d’illumination indirecte causée par la projection sur des surfaces difficiles. En contrepartie, la mise en correspondance des images projetées et capturées est plus complexe qu’avec les méthodes dites structurées. Une méthode d’appariement probabiliste et efficace est proposée afin de résoudre ce problème. Un autre aspect important des reconstructions basées sur la lumière non structurée est la capacité de retrouver des correspondances sous-pixels, c’est-à-dire à un niveau de précision plus fin que le pixel. Nous présentons une méthode de génération de code de très grande longueur à partir des motifs de lumière non structurée. Ces codes ont l’avantage double de permettre l’extraction de correspondances plus précises tout en requérant l’utilisation de moins d’images. Cette contribution place notre méthode parmi les meilleures au niveau de la précision tout en garantissant une très bonne robustesse. Finalement, la dernière partie de cette thèse s’intéresse à la comparaison des méthodes existantes, en particulier sur la relation entre la quantité d’images projetées et la qualité de la reconstruction. Bien que certaines méthodes nécessitent un nombre constant d’images, d’autres, comme la nôtre, peuvent se contenter d’en utiliser moins aux dépens d’une qualité moindre. Nous proposons une méthode simple pour établir une correspondance optimale pouvant servir de référence à des fins de comparaison. Enfin, nous présentons des méthodes hybrides qui donnent de très bons résultats avec peu d’images. / This thesis deals with active 3D reconstruction from camera-projector systems. Standard reconstruction methods use coded light patterns that come with their strengths and weaknesses. We introduce unstructured light patterns that feature several improvements compared to the current state of the art. The research presented revolves around three main axes : robustness, precision and comparison of existing unstructured light patterns to existing methods. Unstructured light patterns stand out first and foremost by their robustness to interreflections and depth discontinuities. They are specifically designed to homogenize the indirect lighting generated by their projection on hard to scan surfaces. The downside of these patterns is that matching projected and captured images is not straightforward anymore. A probabilistic correspondence method is formulated to solve this problem efficiently. Another important aspect of reconstruction obtained with unstructured light pat- terns is their ability to recover subpixel correspondences, that is with a precision finer than the pixel level. We present a method to produce long codes using unstructured light. These codes enable us to extract more precise correspondences while requiring less patterns. This contribution makes our method one of the most accurate - yet robust to standard challenges - method of active reconstruction in the domain. Finally, the last part of this thesis adresses the comparison of existing reconstruction methods on several aspects, but mainly on the impact of using less and less patterns on the quality of the reconstruction. While some methods need a fixed number of images, some, like ours, can accommodate fewer patterns in exchange for some quality loss. We devise a simple method to capture an optimal correspondence map that can be used as a groundtruth for comparison purposes. Last, we present several hybrid methods that perform quite well even with few images.
319

Vidéosurveillance intelligente pour la détection de chutes chez les personnes âgées

Rougier, Caroline 03 1900 (has links)
Les pays industrialisés comme le Canada doivent faire face au vieillissement de leur population. En particulier, la majorité des personnes âgées, vivant à domicile et souvent seules, font face à des situations à risques telles que des chutes. Dans ce contexte, la vidéosurveillance est une solution innovante qui peut leur permettre de vivre normalement dans un environnement sécurisé. L’idée serait de placer un réseau de caméras dans l’appartement de la personne pour détecter automatiquement une chute. En cas de problème, un message pourrait être envoyé suivant l’urgence aux secours ou à la famille via une connexion internet sécurisée. Pour un système bas coût, nous avons limité le nombre de caméras à une seule par pièce ce qui nous a poussé à explorer les méthodes monoculaires de détection de chutes. Nous avons d’abord exploré le problème d’un point de vue 2D (image) en nous intéressant aux changements importants de la silhouette de la personne lors d’une chute. Les données d’activités normales d’une personne âgée ont été modélisées par un mélange de gaussiennes nous permettant de détecter tout événement anormal. Notre méthode a été validée à l’aide d’une vidéothèque de chutes simulées et d’activités normales réalistes. Cependant, une information 3D telle que la localisation de la personne par rapport à son environnement peut être très intéressante pour un système d’analyse de comportement. Bien qu’il soit préférable d’utiliser un système multi-caméras pour obtenir une information 3D, nous avons prouvé qu’avec une seule caméra calibrée, il était possible de localiser une personne dans son environnement grâce à sa tête. Concrêtement, la tête de la personne, modélisée par une ellipsoide, est suivie dans la séquence d’images à l’aide d’un filtre à particules. La précision de la localisation 3D de la tête a été évaluée avec une bibliothèque de séquence vidéos contenant les vraies localisations 3D obtenues par un système de capture de mouvement (Motion Capture). Un exemple d’application utilisant la trajectoire 3D de la tête est proposée dans le cadre de la détection de chutes. En conclusion, un système de vidéosurveillance pour la détection de chutes avec une seule caméra par pièce est parfaitement envisageable. Pour réduire au maximum les risques de fausses alarmes, une méthode hybride combinant des informations 2D et 3D pourrait être envisagée. / Developed countries like Canada have to adapt to a growing population of seniors. A majority of seniors reside in private homes and most of them live alone, which can be dangerous in case of a fall, particularly if the person cannot call for help. Video surveillance is a new and promising solution for healthcare systems to ensure the safety of elderly people at home. Concretely, a camera network would be placed in the apartment of the person in order to automatically detect a fall. When a fall is detected, a message would be sent to the emergency center or to the family through a secure Internet connection. For a low cost system, we must limit the number of cameras to only one per room, which leads us to explore monocular methods for fall detection. We first studied 2D information (images) by analyzing the shape deformation during a fall. Normal activities of an elderly person were used to train a Gaussian Mixture Model (GMM) to detect any abnormal event. Our method was tested with a realistic video data set of simulated falls and normal activities. However, 3D information like the spatial localization of a person in a room can be very useful for action recognition. Although a multi-camera system is usually preferable to acquire 3D information, we have demonstrated that, with only one calibrated camera, it is possible to localize a person in his/her environment using the person’s head. Concretely, the head, modeled by a 3D ellipsoid, was tracked in the video sequence using particle filters. The precision of the 3D head localization was evaluated with a video data set containing the real 3D head localizations obtained with a Motion Capture system. An application example using the 3D head trajectory for fall detection is also proposed. In conclusion, we have confirmed that a video surveillance system for fall detection with only one camera per room is feasible. To reduce the risk of false alarms, a hybrid method combining 2D and 3D information could be considered.
320

Le cinéma omnistéréo ou l'art d'avoir des yeux tout le tour de la tête

Chapdelaine-Couture, Vincent 12 1900 (has links)
Cette thèse s'intéresse à des aspects du tournage, de la projection et de la perception du cinéma stéréo panoramique, appelé aussi cinéma omnistéréo. Elle s'inscrit en grande partie dans le domaine de la vision par ordinateur, mais elle touche aussi aux domaines de l'infographie et de la perception visuelle humaine. Le cinéma omnistéréo projette sur des écrans immersifs des vidéos qui fournissent de l'information sur la profondeur de la scène tout autour des spectateurs. Ce type de cinéma comporte des défis liés notamment au tournage de vidéos omnistéréo de scènes dynamiques, à la projection polarisée sur écrans très réfléchissants rendant difficile l'estimation de leur forme par reconstruction active, aux distorsions introduites par l'omnistéréo pouvant fausser la perception des profondeurs de la scène. Notre thèse a tenté de relever ces défis en apportant trois contributions majeures. Premièrement, nous avons développé la toute première méthode de création de vidéos omnistéréo par assemblage d'images pour des mouvements stochastiques et localisés. Nous avons mis au point une expérience psychophysique qui montre l'efficacité de la méthode pour des scènes sans structure isolée, comme des courants d'eau. Nous proposons aussi une méthode de tournage qui ajoute à ces vidéos des mouvements moins contraints, comme ceux d'acteurs. Deuxièmement, nous avons introduit de nouveaux motifs lumineux qui permettent à une caméra et un projecteur de retrouver la forme d'objets susceptibles de produire des interréflexions. Ces motifs sont assez généraux pour reconstruire non seulement les écrans omnistéréo, mais aussi des objets très complexes qui comportent des discontinuités de profondeur du point de vue de la caméra. Troisièmement, nous avons montré que les distorsions omnistéréo sont négligeables pour un spectateur placé au centre d'un écran cylindrique, puisqu'elles se situent à la périphérie du champ visuel où l'acuité devient moins précise. / This thesis deals with aspects of shooting, projection and perception of stereo panoramic cinema, also called omnistereo cinema. It falls largely in the field of computer vision, but it also in the areas of computer graphics and human visual perception. Omnistereo cinema uses immersive screens to project videos that provide depth information of a scene all around the spectators. Many challenges remain in omnistereo cinema, in particular shooting omnistereo videos for dynamic scenes, polarized projection on highly reflective screens making difficult the process to recover their shape by active reconstruction, and perception of depth distortions introduced by omnistereo images. Our thesis addressed these challenges by making three major contributions. First, we developed the first mosaicing method of omnistereo videos for stochastic and localized motions. We developed a psychophysical experiment that shows the effectiveness of the method for scenes without isolated structure, such as water flows. We also propose a shooting method that adds to these videos foreground motions that are not as constrained, like a moving actor. Second, we introduced new light patterns that allow a camera and a projector to recover the shape of objects likely to produce interreflections. These patterns are general enough to not only recover the shape of omnistereo screens, but also very complex objects that have depth discontinuities from the viewpoint of the camera. Third, we showed that omnistereo distortions are negligible for a viewer located at the center of a cylindrical screen, as they are in the periphery of the visual field where the human visual system becomes less accurate.

Page generated in 0.1309 seconds