• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 214
  • 149
  • 39
  • Tagged with
  • 405
  • 405
  • 405
  • 286
  • 161
  • 111
  • 109
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
291

Perceptual content and tone adaptation for HDR display technologies / Adaptation perceptuelle du contenu et des tons pour les technologies d'affichage HDR

Abebe, Mekides Assefa 07 October 2016 (has links)
Les technologies de capture et d'affichage d'images ont fait un grand pas durant la dernière décennie en termes de capacités de reproduction de la couleur, de gamme de dynamique et de détails des scènes réelles. Les caméras et les écrans à large gamme de dynamique (HDR: high dynamic range) sont d'ores et déjà disponibles, offrant ainsi plus de flexibilité pour les créateurs de contenus afin de produire des scènes plus réalistes.Dans le même temps, à cause des limitations des appareils conventionnels, il existe un gap important en terme de reproduction de contenu et d'apparence colorée entre les deux technologies. Cela a accentué le besoin pour des algorithmes prenant en compte ces considérations et assurant aux créateurs de contenus une reproduction cross-média fidèle.Dans cette thèse, nous focalisons sur l'adaptation et la reproduction des contenus à gamme de dynamique standard sur des dispositifs HDR. Tout d'abord, les modèles d'apparence colorée ainsi que les opérateurs de mappage tonal inverse ont été étudiés subjectivement quant à leur fidélité couleur lors de l'expansion de contenus antérieurs. Par la suite, les attributs perceptuels de clarté, chroma et saturation ont été analysés pour des stimuli émissifs ayant des niveaux de luminance de plus hautes gammes et ce en menant une étude psychophysique basée sur la méthode de mise à l'échelle de partitions. Les résultats expérimentaux ont permis de mener à la définition d'un nouvel espace couleur HDR efficace et précis, optimisé pour les applications d'adaptation de la gamme de dynamique. Enfin, dans l'optique de récupérer les détails perdus lors de captures d'images standard et d'améliorer la qualité perçue du contenu antérieur avant d'être visualisé sur un dispositif HDR, deux approches de correction des zones surexposées ou ayant subi un écrêtage couleur ont été proposées. Les modèles et algorithmes proposés ont été évalués en comparaison avec une vérité terrain HDR, menant à la conclusion que les résultats obtenus sont plus proches des scènes réelles que les autres approches de la littérature. / Camera and display technologies have greatly advanced in their capacities of reproducing color, dynamic range and details of real scenes in recent years. New and powerful high dynamic range (HDR) camera and display technologies are currently available in the market and, recently, these new HDR technologies offer higher flexibility to content creators, allowing them to produce a more precise representation of real world scenes.At the same time, limitations of conventional camera and display technologies mean that there is a significant gap in terms of content and color appearance reproduction between new and existing technologies. These mismatches lead to an increased demand for appearance studies and algorithms which take such under consideration and help content creators to perform accurate cross-media reproductions.In this thesis we mainly considered the adaptation and reproduction of standard dynamic range content towards HDR displays. First, existing color appearance models and reverse tone mapping operators were subjectively studied for their color fidelity during dynamic range expansion of legacy contents. Then perceptual lightness, chroma and saturation attributes were analyzed for emissive stimuli with higher range of luminance levels using adapted psycho-visual experimental setups based on the partition scaling method. The experimental results lead to a new, more efficient and accurate HDR color space, specifically optimized for dynamic range adaptation applications. Finally, to recover lost details and enhance the visual quality of legacy content before visualizing on an HDR display, two methods for color-clipping and over-exposure correction were introduced. The models and algorithms presented, were evaluated relative to HDR ground truth content, showing that our results are closer to the real scene than can be achieved with previous methods.
292

Selection of optimal narrowband multispectral images for face recognition / Sélection des bandes spectrales optimales pour la reconnaissance des visages

Bouchech, Hamdi 26 January 2015 (has links)
Les performances des systèmes de reconnaissance des visages en utilisant des images RGB baissent rapidement quand ils sont appliqués dans des conditions d’illumination extrêmes. L’utilisation des images multispectrales représente une alternative prometteuse pour résoudre ce problème. Dans cette thèse on s’intéresse à l’utilisation des images multispectrales visibles pour la reconnaissance des visages humains. Les images multispectrales visibles sont des images capturées à des longueurs d’ondes différentes du spectre visible (band spectral) qui s’étend de 480nm à 720nm. Ces images représentent des caractéristiques qui favorisent la reconnaissance des visages humains dans des conditions particulières comme la présence d’excès d’illumination incidente sur le visage photographié. Notre travail consiste à exploiter ces caractéristiques sur des stages différentes: optimiser le choix du nombre de bandes spectrales à utiliser, optimiser les longueurs d’ondes choisies, optimiser les techniques de fusion des informations extraites à partir des différentes bandes spectrales pour avoir plus d’informations utiles et moins d’informations bruits. Plusieurs nouvelles approches ont été proposées dans le cadre de ce travail avec des résultats encourageants en termes de performances. Ces approches ont exploité plusieurs outils mathématiques pour resoudre les différents problèmes rencontrés, en particulier la formulation de la sélection des bandes spectrales optimales sous formes de problèmes d’optimisation où nous avons utilisé le « basis pursuit algorithm » pour déterminer un vecteur de poids sparse pour représenter l’importance des différentes bandes. Dans d’autres problèmes d’optimisation, nous avons attribué à chaque bande un classifieur faible, puis combiné les classifieurs faibles avec dif- férents poids associés selon l’importance. La méthode Adaboost a été utilisée pour trouver la combinaison optimale. D’autres techniques ont introduites d’une manière originale la dé- composition multilinéaire des images de visage pour formuler une sorte de base de données caractérisant les bandes spectrales. Cette base de données a été utilisée avec les nouvelles images, ou image test, pour déterminer les bandes les plus robustes contre une variation importante d’illumination. Le travail présenté dans le cadre de cette thèse est une petite contribution à la reconnaissance des visages en utilisant des images multispectrales, qui est une approche d’actualité, mais qui nécessite encore plus de développement afin de maximiser ses performances. / Face recognition systems based on ’conventional’ images have reached a significant level of maturity with some practical successes. However, their performance may degrade under poor and/or changing illumination. Multispectral imagery represents a viable alternative to conventional imaging in the search for a robust and practical identification system. Multi- spectral imaging (MI) can be defined as a ’collection of several monochrome images of the same scene, each of them taken with additional receptors sensitive to other frequencies of the visible light or to frequencies beyond the visible light like the infrared region of electro- magnetic continuum. Each image is referred to as a band or a channel. However, one weakness of MI is that they may significantly increase the system processing time because of the huge quantity of data to be mined; in some cases, hundreds of MI are taken for each subject. In this thesis, we propose to solve this problem by developing new approaches to select the set of best visible spectral bands for face matching. For this purpose, the problem of best spectral bands selection is formulated as an optimization problem where spectral bands are constrained to maximize the recognition accuracy under challenging imaging conditions. We reduce the redundancy of both spectral and spatial information without losing valuable details needed for the object recognition, discrimination and classification. We have investigated several mathematic and optimization tools widely used in the field of image processing. One of the approaches we have proposed formulated the problem of best spectral bands selection as a pursuit problem where weights of importance were affected to each spectral band and the vector of all weights was constrained to be sparse with most of its elements are zeros. In another work, we have assigned to each spectral band a linear discriminant analysis (LDA) based weak classifier. Then, all weak classifiers were boosted together using an Adaboost process. From this later, each weak classifier obtained a weight that characterizes its importance and hence the quality of the corresponding spectral band. Several other techniques were also used for best spectral bands selection including but not limited to mixture of Gaussian based modeling, multilinear sparse decomposition, image quality factors, local descriptors like SURF and HGPP, likelihood ratio and so on. These different techniques enabled to build systems for best spectral bands selection that are either static with the same bands are selected for all the subjects or dynamic with each new subject get its own set of best bands. This latter category, dynamic systems, is an original component of our work that, to the best of our knowledge, has not been proposed before; all existing systems are only static. Finally, the proposed algorithms were compared to state-of-the-art algorithms developed for face recognition purposes in general and specifically for best spectral bands selection.
293

Sparse and Scale-Invariant Methods in Image Processing / Méthodes parcimonieuses et invariantes d'échelle en traitement d'image

Badri, Hicham 01 December 2015 (has links)
Dans cette thèse, on présente de nouvelles approches à base de parcimonie et d'invariance d' échelle pour le développement de techniques rapides et efficaces en traitement d'images. Au lieu d'utiliser la norme l1 pour imposer la parcimonie, on exploite plutôt des pénalités non-convexes qui encouragent plus la parcimonie. On propose une approche de premier ordre pour estimer une solution d'un opérateur proximal non-convexe, ce qui permet d'exploiter facilement la non-convexité. On étudie aussi le problème de pluri-parcimonie quand le problème d'optimisation est composé de plusieurs termes parcimonieux. Ce cas survient généralement dans les problèmes qui nécessitent à la fois une estimation robuste pour rejeter les valeurs aberrantes et exploiter une information de parcimonie connue a priori. Ces techniques sont appliquées à plusieurs problèmes importants en vision par ordinateur bas niveau telles que le lissage sélectif, la séparation d'images, l'intégration robuste et la déconvolution. On propose aussi d'aller au-delà de la parcimonie et apprendre un modèle de mapping spectral non-local pour le débruitage d'images. La notion d'invariance d' échelle joue aussi un rôle important dans nos travaux. En exploitant ce principe, une définition précise des contours est définie, ce qui peut être complémentaire à la notion de parcimonie. Plus précisément, on peut construire des représentations invariantes pour la classification en se basant sur une architecture de réseaux convolutionnels profonds. L'invariance d' échelle permet aussi d'extraire les pixels qui portent les informations nécessaires pour la reconstruction ou aussi améliorer l'estimation du flot optique sur les images turbulentes en imposant la parcimonie comme régularisation sur les exposants de singularité locaux. / In this thesis, we present new techniques based on the notions of sparsity and scale invariance to design fast and efficient image processing applications. Instead of using the popular l1-norm to model sparsity, we focus on the use of non-convex penalties that promote more sparsity. We propose to use a first-order approximation to estimate a solution of non-convex proximal operators, which permits to easily use a wide rangeof penalties. We address also the problem of multi-sparsity, when the minimization problem is composed of various sparse terms, which typically arises in problems that require both a robust estimation to reject outliers and a sparse prior. These techniques are applied to various important problems in low-level computer vision such as edgeaware smoothing, image separation, robust integration and image deconvolution. We propose also to go beyond sparsity models and learn non-local spectral mapping with application to image denoising. Scale-invariance is another notion that plays an important role in our work. Using this principle, a precise definition of edges can be derived which can be complementary to sparsity. More precisely, we can extractinvariant features for classification from sparse representations in a deep convolutional framework. Scale-invariance permits also to extract relevant pixels for sparsifying images. We use this principle as well to improve optical ow estimation on turbulent images by imposing a sparse regularization on the local singular exponents instead of regular gradients.
294

Neuro-inspired Architectures for the Acquisition and Processing of Visual Information / Architectures neuro-inspirées pour l'acquisition et le traitement de l'information visuelle

Aboudib, Ala 02 December 2016 (has links)
L'apprentissage automatique et la vision par ordinateur sont deux sujets de recherche d'actualité. Des contributions clés à ces domaines ont été les fruits de longues années d'études du cortex visuel et de la fonction des réseaux cérébraux. Dans cette thèse, nous nous intéressons à la conception des architectures neuro-inspirées pour le traitement de l'information sur trois niveaux différents du cortex visuel. Au niveau le plus bas, nous proposons un réseau de neurones pour l'acquisition des signaux visuels. Ce modèle est étroitement inspiré par le fonctionnement et l'architecture de la retine et les premières couches du cortex visuel chez l'humain. Il est également adapté à l'émulation des mouvements oculaires qui jouent un rôle important dans notre vision. Au niveau le plus haut, nous nous intéressons à la mémoire. Nous traitons un modèle de mémoire associative basée sur une architecture neuro-inspirée dite `Sparse Clustered Network (SCN)'. Notre contribution principale à ce niveau est de proposer une amélioration d'un algorithme utilisé pour la récupération des messages partiellement effacés du SCN. Nous suggérons également une formulation générique pour faciliter l'évaluation des algorithmes de récupération, et pour aider au développement des nouveaux algorithmes. Au niveau intermédiaire, nous étendons l'architecture du SCN pour l'adapter au problème de la mise en correspondance des caractéristiques d'images, un problème fondamental en vision par ordinateur. Nous démontrons que la performance de notre réseau atteint l'état de l'art, et offre de nombreuses perspectives sur la façon dont les architectures neuro-inspirées peuvent servir de substrat pour la mise en oeuvre de diverses tâches de vision. / Computer vision and machine learning are two hot research topics that have witnessed major breakthroughs in recent years. Much of the advances in these domains have been the fruits of many years of research on the visual cortex and brain function. In this thesis, we focus on designing neuro-inspired architectures for processing information along three different stages of the visual cortex. At the lowest stage, we propose a neural model for the acquisition of visual signals. This model is adapted to emulating eye movements and is closely inspired by the function and the architecture of the retina and early layers of the ventral stream. On the highest stage, we address the memory problem. We focus on an existing neuro-inspired associative memory model called the Sparse Clustered Network. We propose a new information retrieval algorithm that offers more flexibility and a better performance over existing ones. Furthermore, we suggest a generic formulation within which all existing retrieval algorithms can fit. It can also be used to guide the design of new retrieval approaches in a modular fashion. On the intermediate stage, we propose a new way for dealing with the image feature correspondence problem using a neural network model. This model deploys the structure of Sparse Clustered Networks, and offers a gain in matching performance over state-of-the-art, and provides a useful insight on how neuro-inspired architectures can serve as a substrate for implementing various vision tasks.
295

Optimization and implementation of bio-inspired feature extraction frameworks for visual object recognition / Optimisation et implémentation de méthodes bio-inspirées d'extraction de caractéristiques pour la reconnaissance d'objets visuels

Boisard, Olivier 10 November 2016 (has links)
L'industrie a des besoins croissants en systèmes dits intelligents, capable d'analyserles signaux acquis par des capteurs et prendre une décision en conséquence. Cessystèmes sont particulièrement utiles pour des applications de vidéo-surveillanceou de contrôle de qualité. Pour des questions de coût et de consommation d'énergie,il est souhaitable que la prise de décision ait lieu au plus près du capteur. Pourrépondre à cette problématique, une approche prometteuse est d'utiliser des méthodesdites bio-inspirées, qui consistent en l'application de modèles computationels issusde la biologie ou des sciences cognitives à des problèmes industriels. Les travauxmenés au cours de ce doctorat ont consisté à choisir des méthodes d'extractionde caractéristiques bio-inspirées, et à les optimiser dans le but de les implantersur des plateformes matérielles dédiées pour des applications en vision par ordinateur.Tout d'abord, nous proposons un algorithme générique pouvant être utilisés dans différentscas d'utilisation, ayant une complexité acceptable et une faible empreinte mémoire.Ensuite, nous proposons des optimisations pour une méthode plus générale, baséesessentiellement sur une simplification du codage des données, ainsi qu'une implantationmatérielle basées sur ces optimisations. Ces deux contributions peuvent par ailleurss'appliquer à bien d'autres méthodes que celles étudiées dans ce document. / Industry has growing needs for so-called “intelligent systems”, capable of not only ac-quire data, but also to analyse it and to make decisions accordingly. Such systems areparticularly useful for video-surveillance, in which case alarms must be raised in case ofan intrusion. For cost saving and power consumption reasons, it is better to perform thatprocess as close to the sensor as possible. To address that issue, a promising approach isto use bio-inspired frameworks, which consist in applying computational biology modelsto industrial applications. The work carried out during that thesis consisted in select-ing bio-inspired feature extraction frameworks, and to optimize them with the aim toimplement them on a dedicated hardware platform, for computer vision applications.First, we propose a generic algorithm, which may be used in several use case scenarios,having an acceptable complexity and a low memory print. Then, we proposed opti-mizations for a more global framework, based on precision degradation in computations,hence easing up its implementation on embedded systems. Results suggest that whilethe framework we developed may not be as accurate as the state of the art, it is moregeneric. Furthermore, the optimizations we proposed for the more complex frameworkare fully compatible with other optimizations from the literature, and provide encourag-ing perspective for future developments. Finally, both contributions have a scope thatgoes beyond the sole frameworks that we studied, and may be used in other, more widelyused frameworks as well.
296

Reconstruction de surface 3D d'objets vivants / 3D surface reconstruction of living object

Slysz, Rémi 10 June 2014 (has links)
Cette thèse s'inscrit dans le cadre du projet CPER Bramms, dont un des objectifs était de développer une méthode d'acquisition de la surface du buste féminin. Les travaux menés ont donc eu pour but la conception, le développement et la réalisation d'une machine de mesure tridimensionnelle adaptée aux objets vivants. Parmi le nombre important de méthodes de mesures tridimensionnelles existantes, l'attention a été portée sur la mise en correspondance par stéréovision ainsi que sur l'utilisation de lumière structurée. La mise en correspondance par stéréovision consiste à retrouver les pixels homologues dans deux images d'une même scène, prise de deux points de vue différents. Une des manières de réaliser la mise en correspondance est de faire appel à des mesures de corrélation. Les algorithmes utilisés se heurtent alors à certaines difficultés : les changements de luminosité, les bruits, les déformations, les occultations, les zones peu texturées et les larges zones homogènes. L'utilisation de lumière structurée a permis essentiellement d'ajouter de l'information dans les zones homogènes lors des travaux menés. En développant cette approche, une méthode de reconstruction originale basée sur l'exploitation d'un motif particulier projeté sur la surface a ainsi été conçue. Un appariement basé sur la comparaison de signatures de points particuliers du motif a été mis en place. Ce procédé permet une reconstruction éparse en une unique acquisition et simplifie l'étape de gestion du nuage de points pour en faire un maillage surfacique / This thesis is part of the CPER BRAMSS project, one of its objectives was to develop an surface's retrieval method applied to the female bust. Therefore the work has aimed at the design, development and implementation of a three-dimensional measuring machine adapted to living objects.Among the large number of existing methods of three-dimensional measurements, attention was paid to the stereo matching as well as the use of structured light. Matching in stereovision is to find homologous pixels in two images of the same scene, taken from two different points of view. One way to achieve the mapping is to use correlation measurements. The algorithms used come up against certain difficulties: the changing light, noises, distortions, occlusions, low textured areas and large homogeneous areas. The use of structured light allow essentially the adding of information in homogeneous areas in this work. Developing this approach, an original method of reconstruction based on the exploitation of a particular pattern projected on the surface has been designed. A matching based on a comparison of the signatures of specific points in the pattern was implemented. This method allows a single sparse reconstruction acquisition step and simplifies the handling of the point cloud when transforming it in a surface mesh
297

Modeling and recognizing interactions between people, objects and scenes / Modélisation et reconnaissance des actions humaines dans les images

Delaitre, Vincent 07 April 2015 (has links)
Nous nous intéressons dans cette thèse à la modélisation des interactions entre personnes, objets et scènes. Nous montrons l’intérêt de combiner ces trois sources d’information pour améliorer la classification d’action et la compréhension automatique des scènes. Dans la première partie, nous cherchons à exploiter le contexte fourni par les objets et la scène pour améliorer la classification des actions humaines dans les photographies. Nous explorons différentes variantes du modèle dit de “bag-of-features” et proposons une méthode tirant avantage du contexte scénique. Nous proposons ensuite un nouveau modèle exploitant les objets pour la classification d’action basé sur des paires de détecteurs de parties du corps et/ou d’objet. Nous évaluons ces méthodes sur notre base de données d’images nouvellement collectée ainsi que sur trois autres jeux de données pour la classification d’action et obtenons des résultats proches de l’état de l’art. Dans la seconde partie de cette thèse, nous nous attaquons au problème inverse et cherchons à utiliser l’information contextuelle fournie par les personnes pour aider à la localisation des objets et à la compréhension des scènes. Nous collectons une nouvelle base de données de time-lapses comportant de nombreuses interactions entre personnes, objets et scènes. Nous développons une approche permettant de décrire une zone de l’image par la distribution des poses des personnes qui interagissent avec et nous utilisons cette représentation pour améliorer la localisation d’objets. De plus, nous démontrons qu’utiliser des informations provenant des personnes détectées peut améliorer plusieurs étapes de l’algorithme utilisé pour la compréhension des scènes d’intérieur. Pour finir, nous proposons des annotations 3D de notre base de time-lapses et montrons comment estimer l’espace utilisé par différentes classes d’objets dans une pièce. Pour résumer, les contributions de cette thèse sont les suivantes : (i) nous mettons au point des modèles pour la classification d’image tirant avantage du contexte scénique et des objets environnants et nous proposons une nouvelle base de données pour évaluer leurs performances, (ii) nous développons un nouveau modèle pour améliorer la localisation d’objet grâce à l’observation des acteurs humains interagissant avec une scène et nous le testons sur un nouveau jeu de vidéos comportant de nombreuses interactions entre personnes, objets et scènes, (iii) nous proposons la première méthode pour évaluer les volumes occupés par différentes classes d’objets dans une pièce, ce qui nous permet d’analyser les différentes étapes pour la compréhension automatique de scène d’intérieur et d’en identifier les principales sources d’erreurs. / In this thesis, we focus on modeling interactions between people, objects and scenes and show benefits of combining corresponding cues for improving both action classification and scene understanding. In the first part, we seek to exploit the scene and object context to improve action classification in still images. We explore alternative bag-of-features models and propose a method that takes advantage of the scene context. We then propose a new model exploiting the object context for action classification based on pairs of body part and object detectors. We evaluate our methods on our newly collected still image dataset as well as three other datasets for action classification and show performance close to the state of the art. In the second part of this thesis, we address the reverse problem and aim at using the contextual information provided by people to help object localization and scene understanding. We collect a new dataset of time-lapse videos involving people interacting with indoor scenes. We develop an approach to describe image regions by the distribution of human co-located poses and use this pose-based representation to improve object localization. We further demonstrate that people cues can improve several steps of existing pipelines for indoor scene understanding. Finally, we extend the annotation of our time-lapse dataset to 3D and show how to infer object labels for occupied 3D volumes of a scene. To summarize, the contributions of this thesis are the following: (i) we design action classification models for still images that take advantage of the scene and object context and we gather a new dataset to evaluate their performance, (ii) we develop a new model to improve object localization thanks to observations of people interacting with an indoor scene and test it on a new dataset centered on person, object and scene interactions, (iii) we propose the first method to evaluate the volumes occupied by different object classes in a room that allow us to analyze the current 3D scene understanding pipeline and identify its main source of errors.
298

Analyse des personnes dans les films stéréoscopiques / Person analysis in stereoscopic movies

Seguin, Guillaume 29 April 2016 (has links)
Les humains sont au coeur de nombreux problèmes de vision par ordinateur, tels que les systèmes de surveillance ou les voitures sans pilote. Ils sont également au centre de la plupart des contenus visuels, pouvant amener à des jeux de données très larges pour l’entraînement de modèles et d’algorithmes. Par ailleurs, si les données stéréoscopiques font l’objet d’études depuis longtemps, ce n’est que récemment que les films 3D sont devenus un succès commercial. Dans cette thèse, nous étudions comment exploiter les données additionnelles issues des films 3D pour les tâches d’analyse des personnes. Nous explorons tout d’abord comment extraire une notion de profondeur à partir des films stéréoscopiques, sous la forme de cartes de disparité. Nous évaluons ensuite à quel point les méthodes de détection de personne et d’estimation de posture peuvent bénéficier de ces informations supplémentaires. En s’appuyant sur la relative facilité de la tâche de détection de personne dans les films 3D, nous développons une méthode pour collecter automatiquement des exemples de personnes dans les films 3D afin d’entraîner un détecteur de personne pour les films non 3D. Nous nous concentrons ensuite sur la segmentation de plusieurs personnes dans les vidéos. Nous proposons tout d’abord une méthode pour segmenter plusieurs personnes dans les films 3D en combinant des informations dérivées des cartes de profondeur avec des informations dérivées d’estimations de posture. Nous formulons ce problème comme un problème d’étiquetage de graphe multi-étiquettes, et notre méthode intègre un modèle des occlusions pour produire une segmentation multi-instance par plan. Après avoir montré l’efficacité et les limitations de cette méthode, nous proposons un second modèle, qui ne repose lui que sur des détections de personne à travers la vidéo, et pas sur des estimations de posture. Nous formulons ce problème comme la minimisation d’un coût quadratique sous contraintes linéaires. Ces contraintes encodent les informations de localisation fournies par les détections de personne. Cette méthode ne nécessite pas d’information de posture ou des cartes de disparité, mais peut facilement intégrer ces signaux supplémentaires. Elle peut également être utilisée pour d’autres classes d’objets. Nous évaluons tous ces aspects et démontrons la performance de cette nouvelle méthode. / People are at the center of many computer vision tasks, such as surveillance systems or self-driving cars. They are also at the center of most visual contents, potentially providing very large datasets for training models and algorithms. While stereoscopic data has been studied for long, it is only recently that feature-length stereoscopic ("3D") movies became widely available. In this thesis, we study how we can exploit the additional information provided by 3D movies for person analysis. We first explore how to extract a notion of depth from stereo movies in the form of disparity maps. We then evaluate how person detection and human pose estimation methods perform on such data. Leveraging the relative ease of the person detection task in 3D movies, we develop a method to automatically harvest examples of persons in 3D movies and train a person detector for standard color movies. We then focus on the task of segmenting multiple people in videos. We first propose a method to segment multiple people in 3D videos by combining cues derived from pose estimates with ones derived from disparity maps. We formulate the segmentation problem as a multi-label Conditional Random Field problem, and our method integrates an occlusion model to produce a layered, multi-instance segmentation. After showing the effectiveness of this approach as well as its limitations, we propose a second model which only relies on tracks of person detections and not on pose estimates. We formulate our problem as a convex optimization one, with the minimization of a quadratic cost under linear equality or inequality constraints. These constraints weakly encode the localization information provided by person detections. This method does not explicitly require pose estimates or disparity maps but can integrate these additional cues. Our method can also be used for segmenting instances of other object classes from videos. We evaluate all these aspects and demonstrate the superior performance of this new method.
299

Learning representations for robust audio-visual scene analysis / Apprentissage de représentations pour l'analyse robuste de scènes audiovisuelles

Parekh, Sanjeel 18 March 2019 (has links)
L'objectif de cette thèse est de concevoir des algorithmes qui permettent la détection robuste d’objets et d’événements dans des vidéos en s’appuyant sur une analyse conjointe de données audio et visuelle. Ceci est inspiré par la capacité remarquable des humains à intégrer les caractéristiques auditives et visuelles pour améliorer leur compréhension de scénarios bruités. À cette fin, nous nous appuyons sur deux types d'associations naturelles entre les modalités d'enregistrements audiovisuels (réalisés à l'aide d'un seul microphone et d'une seule caméra), à savoir la corrélation mouvement/audio et la co-occurrence apparence/audio. Dans le premier cas, nous utilisons la séparation de sources audio comme application principale et proposons deux nouvelles méthodes dans le cadre classique de la factorisation par matrices non négatives (NMF). L'idée centrale est d'utiliser la corrélation temporelle entre l'audio et le mouvement pour les objets / actions où le mouvement produisant le son est visible. La première méthode proposée met l'accent sur le couplage flexible entre les représentations audio et de mouvement capturant les variations temporelles, tandis que la seconde repose sur la régression intermodale. Nous avons séparé plusieurs mélanges complexes d'instruments à cordes en leurs sources constituantes en utilisant ces approches.Pour identifier et extraire de nombreux objets couramment rencontrés, nous exploitons la co-occurrence apparence/audio dans de grands ensembles de données. Ce mécanisme d'association complémentaire est particulièrement utile pour les objets où les corrélations basées sur le mouvement ne sont ni visibles ni disponibles. Le problème est traité dans un contexte faiblement supervisé dans lequel nous proposons un framework d’apprentissage de représentation pour la classification robuste des événements audiovisuels, la localisation des objets visuels, la détection des événements audio et la séparation de sources.Nous avons testé de manière approfondie les idées proposées sur des ensembles de données publics. Ces expériences permettent de faire un lien avec des phénomènes intuitifs et multimodaux que les humains utilisent dans leur processus de compréhension de scènes audiovisuelles. / The goal of this thesis is to design algorithms that enable robust detection of objectsand events in videos through joint audio-visual analysis. This is motivated by humans’remarkable ability to meaningfully integrate auditory and visual characteristics forperception in noisy scenarios. To this end, we identify two kinds of natural associationsbetween the modalities in recordings made using a single microphone and camera,namely motion-audio correlation and appearance-audio co-occurrence.For the former, we use audio source separation as the primary application andpropose two novel methods within the popular non-negative matrix factorizationframework. The central idea is to utilize the temporal correlation between audio andmotion for objects/actions where the sound-producing motion is visible. The firstproposed method focuses on soft coupling between audio and motion representationscapturing temporal variations, while the second is based on cross-modal regression.We segregate several challenging audio mixtures of string instruments into theirconstituent sources using these approaches.To identify and extract many commonly encountered objects, we leverageappearance–audio co-occurrence in large datasets. This complementary associationmechanism is particularly useful for objects where motion-based correlations are notvisible or available. The problem is dealt with in a weakly-supervised setting whereinwe design a representation learning framework for robust AV event classification,visual object localization, audio event detection and source separation.We extensively test the proposed ideas on publicly available datasets. The experimentsdemonstrate several intuitive multimodal phenomena that humans utilize on aregular basis for robust scene understanding.
300

Reconnaissance rapide et précise d'actions humaines à partir de caméras RGB-D. / Fast and accurate human action recognition using RGB-D cameras

Ghorbel, Enjie 12 October 2017 (has links)
ARécemment, les caméras RGB-D ont été introduites sur le marché et ont permis l’exploration de nouvelles approches de reconnaissance d’actions par l’utilisation de deux modalités autres que les images RGB, à savoir, les images de profondeur et les séquences de squelette. Généralement, ces approches ont été évaluées en termes de taux de reconnaissance. Cette thèse s’intéresse principalement à la reconnaissance rapide d’actions à partir de caméras RGB-D. Le travail a été focalisé sur une amélioration conjointe de la rapidité de calcul et du taux de reconnaissance en vue d’une application temps-réel. Dans un premier temps, nous menons une étude comparative des méthodes existantes de reconnaissance d’actions basées sur des caméras RGB-D en utilisant les deux critères énoncés : le taux de reconnaissance et la rapidité de calcul. Suite aux conclusions résultant de cette étude, nous introduisons un nouveau descripteur de mouvement, à la fois précis et rapide, qui se base sur l’interpolation par splines cubiques de valeurs cinématiques du squelette, appelé Kinematic Spline Curves (KSC). De plus, afin de pallier les effets négatifs engendrés par la variabilité anthropométrique, la variation d’orientation et la variation de vitesse, des méthodes de normalisation spatiale et temporelle rapide ont été proposées. Les expérimentations menées sur quatre bases de données prouvent la précision et la rapidité de ce descripteur. Dans un second temps, un deuxième descripteur appelé Hiearchical Kinematic Coavarince(HKC) est introduit. Ce dernier est proposé dans l’optique de résoudre la question de reconnaissance rapide en ligne. Comme ce descripteur n’appartient pas à un espace euclidien, mais à l’espace des matrices Symétriques semi-Définies Positives (SsDP), nous adaptons les méthodes de classification à noyau par l’introduction d’une distance inspirée de la distance Log-Euclidienne, que nous appelons distance Log-Euclidienne modifiée. Cette extension nous permet d’utiliser des classifieurs adaptés à l’espace de caractéristiques (SPsD).Une étude expérimentale montre l’efficacité de cette méthode non seulement en termes de rapidité de calcul et de précision, mais également en termes de latence observationnelle. Ces conclusions prouvent que cette approche jointe à une méthode de segmentation d’actions pourrait s’avérer adaptée à la reconnaissance en ligne et ouvrent ainsi de nouvelles perspectives pour nos travaux futurs. / The recent availability of RGB-D cameras has renewed the interest of researchers in the topic of human action recognition. More precisely, several action recognition methods have been proposed based on the novel modalities provided by these cameras, namely, depth maps and skeleton sequences. These approaches have been mainly evaluated in terms of recognition accuracy. This thesis aims to study the issue of fast action recognition from RGB-D cameras. It focuses on proposing an action recognition method realizing a trade-off between accuracy and latency for the purpose of applying it in real-time scenarios. As a first step, we propose a comparative study of recent RGB-D based action recognition methods using the two cited criteria: accuracy of recognition and rapidity of execution. Then, oriented by the conclusions stated thanks to this comparative study, we introduce a novel, fast and accurate human action descriptor called Kinematic Spline Curves (KSC).This latter is based on the cubic spline interpolation of kinematic values. Moreover, fast spatialand temporal normalization are proposed in order to overcome anthropometric variability, orientation variation and rate variability. The experiments carried out on four different benchmarks show the effectiveness of this approach in terms of execution time and accuracy. As a second step, another descriptor is introduced, called Hierarchical Kinematic Covariance(HKC). This latter is proposed in order to solve the issue of fast online action recognition. Since this descriptor does not belong to a Euclidean space, but is an element of the space of Symmetric Positive semi-definite (SPsD) matrices, we adapt kernel classification methods by the introduction of a novel distance called Modified Log-Euclidean, which is inspiredfrom Log-Euclidean distance. This extension allows us to use suitable classifiers to the feature space SPsD of matrices. The experiments prove the efficiency of our method, not only in terms of rapidity of calculation and accuracy, but also in terms of observational latency. These conclusions show that this approach combined with an action segmentation method could be appropriate to online recognition, and consequently, opens up new prospects for future works.

Page generated in 0.0995 seconds