• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 216
  • 150
  • 40
  • Tagged with
  • 409
  • 409
  • 409
  • 287
  • 161
  • 112
  • 110
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
111

Identification de personnes dans un flux vidéo par l’apparence et la démarche / People identification in video sequences by appearance and gait

Derbel, Ahmed 08 September 2014 (has links)
Avec l’installation généralisée de caméras de surveillance dans les zones urbaines, l’enjeu de cette thèse est la reconnaissance automatique de piétons par l’apparence et la démarche. Cette reconnaissance nécessite des descripteurs robustes pour caractériser et identifier une personne au-delà des modifications d’apparence induites par un changement de point de vue, d’éclairage ou des variations de déplacement. La première partie propose une nouvelle mesure de similarité exploitant l’information intra et inter-personnes dans les histogrammes régionaux couleur. Une étude comparative montre l’intérêt de cette modélisation pour s’affranchir des variations de luminosité et de pose. Une fusion pondérée des descripteurs d’apparence les plus performants permet ensuite d’améliorer le taux d’identification. La seconde partie étudie la reconnaissance par la démarche selon un point de vue latéral puis frontal. Pour une observation latérale du piéton, la dynamique de la marche est modélisée par les variations spatiotemporelles des points d’articulation des deux jambes. Tandis qu’en vue frontale, on analyse la distribution des mouvements dans les silhouettes soit par une carte binaire de l’enveloppe (RED), soit par une carte en niveaux de gris des fréquences (RFD). L’étude expérimentale démontre que les descripteurs proposés font preuve de bonnes performances face à l’état de l’art, et qu’une fusion de plusieurs descripteurs permet toujours d’améliorer notablement les taux de reconnaissance. Enfin, la dernière partie de la thèse introduit un système d’identification complet associant l’apparence et la démarche. Cette approche mixte est évaluée sur une base de séquences vidéo intégrant de fortes variations de point de vue et d’éclairage. Elle offre un bon compromis entre efficacité et temps de calcul pour une application en vidéo surveillance. / With the wide-spread installation of cameras in urban areas, this thesis deals with an automatic people identification by appearance and gait. This recognition requires robust descriptors to represent and discriminate each person despite the appearance variations caused by changing view point, lighting or way of moving (speed, carrying a bag…). The first part, dedicated to appearance identification, proposes a new similarity measure using intra and inter-person information with regional color histograms. A comparative study shows the efficiency of this representation to overcome the lighting and pose variations. The recognition rate is then improved by merging the most robust appearance descriptors. The second part is focused on gait recognition by distinguishing lateral and frontal points of view. For lateral observation, a pedestrian is characterized by several spatio-temporal variations of some articulated points of the legs. While, the motion of global silhouette is analyzed using a binary envelope map (RED) and a gray levels frequency map (RFD) in frontal point of view. Experimental test prove that those descriptors provide good performances compared to other state-of-art approaches, and that merging descriptors always improves the recognition rate. The last part introduces an identification system coupling appearance and gait. This merging approach is evaluated on a video sequences database including large points of view and lighting variations. It provides a good compromise between efficiency and processing time for application in video surveillance.
112

Catégorisation par le contenu sémantique d'objets vidéo : recherche et reconnaissance d'acteurs dans les films / Content-Based Video Semantic Object Categorization : actor Retrieval and Recognition in Movies

Zhao, Shuji 10 June 2011 (has links)
Dans cette thèse, nous proposons un nouveau système de recherche par le contenu de catégories sémantiques d'objets vidéo.A partir des séquences vidéo, nous détectons et extrayons les régions contenant le même objet (visage d'une personne, un modèle de voiture, etc.) au cours d'un plan-séquence. A partir de ce volume, appelé Track, nous extrayons un ensemble de caractéristiques visuelles spatio-temporellement cohérentes qui forme ainsi un Tube Spatio-Temporel représentant l'objet.Pour évaluer la similarité entre Tubes Spatio-Temporels, nous concevons des fonctions noyaux dédiées. À partir de ces noyaux, nous proposons des stratégies d'apprentissage supervisé et interactif, intégrées dans un cadre Machine à Vecteurs de Supports.Notre approche est évaluée sur des bases de données de films réels. Elle surpasse les méthodes de l'état de l'art pour la reconnaissance d'acteurs multi-classes. Notre méthode est également testée pour la recherche interactive d'un acteur dans une base de vidéo et sur une base de données de voitures, illustrant ainsi la généricité de la méthode et ses possibles extensions à tout type d'objets vidéo. / In this thesis, we propose a new video object retrieval and recognition system based on visual content.From video sequences, we detect, then extract video objects such as face and car, and define the continuous content made of regions containing this object in successive frames. From this volume, called Track, we extract spatio-temporally consistent visual features to define the video object representation: Spatio-Temporal Tube.To evaluate the similarity between complex tube objects, we design a Spatio-Temporal Tube Kernel (STTK) function. Based on this kernel similarity we present both supervised and active learning strategies embedded in Support Vector Machine framework. Additionally, we propose a multi-class classification framework dealing with highly unbalanced datasets.Our approach is successfully evaluated on real movie databases. Our machine learning approach outperforms the state of the art methods for multi-class actor recognition. Our method is also evaluated for actor retrieval task and on a car database showing hence promising results for car identification task and the potential of extension to any category of video objects.
113

Shape grammar parsing : application to image-based modeling / Grammaires de formes pour analyse d'images : application à la modélisation automatique

Teboul, Olivier 01 June 2011 (has links)
L’objectif de cette thèse était de résoudre le problème d’analyse d’image de façade avec a priori de forme procédurale en vue de l’appliquer à la modélisation 3D d’immeuble à partir d’une seule image. Le cadre de cette thèse se situe à la frontière de l’informatique graphique et de la vision par ordinateur, tant d’un point de vue des méthodes employées que des applications potentielles.Deux approches complémentaires ont été proposées: une méthode dite ascendante qui cherche à regrouper des régions similaires de l’image afin de révéler la structure sous-jacente de la façade ; et une méthode dite descendante basée sur les puissants principes de l’apprentissage par renforcement. Ce nouvel algorithme combine des mesures locales issues de méthodes d’apprentissage supervisé dans une optimisation globale d’un Processus de Décision Markovien, qui découvre la grammaire du bâtiment au fil des itérations.Ces deux méthodes ont été évaluées qualitativement et quantitativement. Les résultats ainsi obtenus, se sont avérés bien meilleurs que l’état de l’art sur le plan de la rapidité, de la qualité de segmentation, mais également au niveau de la flexibilité de la méthode et de ses extensions éventuelles. Cet algorithme a été abondamment testé sur différents types de grammaires de formes, sur différents styles architecturaux, avec différentes mesures sur les images, et s’est avéré particulièrement robuste aux conditions d’illuminations et aux occlusions.En conclusion, les grammaires de formes peuvent être utilisées comme une pierre de Rosette afin de déchiffrer le langage de l’architecture et permettent ainsi de modéliser un bâtiment 3D à partir d’une unique image, à travers un nouvel algorithme issu de l’apprentissage par renforcement. D’une part la méthode développée apporte une réponse au problème de reconstruction urbaine 3D à large échelle à partir d’images, et d’autre part elle laisse entrevoir de potentielles applications de l’apprentissage par renforcement en vision par ordinateur, domaine qui jusqu’alors ne s’y était que très peu intéressé. / The purpose of this thesis was to perform facade image parsing with shape grammars in order to tackle single-view image-based 3D building modeling. The scope of the thesis was lying at the border of Computer Graphics and Computer Vision, both in terms of methods and applications.Two different and complementary approaches have been proposed: a bottom-up parsing algorithm that aimed at grouping similar regions of a facade image so as to retrieve the underlying layout, and a top-down parsing algorithm based on a very powerful framework: Reinforcement Learning. This novel parsing algorithm uses pixel-wise image supports based on supervised learning in a global optimization of a Markov Decision Process.Both methods were evaluated quantitatively and qualitatively. The second one was proved to support various architectures, several shape grammars and image supports, and showed robustness to challenging viewing conditions; illumination and large occlusions. The second method outperformed the state-of-the-art both in terms of segmentation and speed performances. It also provides a much more flexible framework, in which many extensions may be envisioned.The conclusion of this work was that the problem of single-view image-based 3D building modeling could be solved elegantly by using shape grammar as a Rosetta stone to decipher the language of Architecture through a well-suited Reinforcement Learning formulation. This solution was a potential answer to large-scale reconstruction of urban environments from images, but also suggested the possibility of introducing Reinforcement Learning in other vision tasks such as generic image parsing, where it have been barely explored so far.
114

De la segmentation au moyen de graphes d’images de muscles striés squelettiques acquises par RMN / Graph- based segmentation of skeletal striated muscles in NMR images

Baudin, Pierre-Yves 23 May 2013 (has links)
La segmentation d’images anatomiques de muscles striés squelettiques acquises par résonance magnétique nucléaire (IRM) présente un grand intérêt pour l’étude des myopathies. Elle est souvent un préalable nécessaire pour l’étude les mécanismes d’une maladie, ou pour le suivi thérapeutique des patients. Cependant, le détourage manuel des muscles est un travail long et fastidieux, au point de freiner les recherches cliniques qui en dépendent. Il est donc nécessaire d’automatiser cette étape. Les méthodes de segmentation automatique se basent en général sur les différences d’aspect visuel des objets à séparer et sur une détection précise des contours ou de points de repère anatomiques pertinents. L’IRM du muscle ne permettant aucune de ces approches, la segmentation automatique représente un défi de taille pour les chercheurs. Dans ce rapport de thèse, nous présentons plusieurs méthodes de segmentation d’images de muscles, toutes en rapport avec l’algorithme dit du marcheur aléatoire (MA). L’algorithme du MA, qui utilise une représentation en graphe de l’image, est connu pour être robuste dans les cas où les contours des objets sont manquants ou incomplets et pour son optimisation numérique rapide et globale. Dans sa version initiale, l’utilisateur doit d’abord segmenter de petites portions de chaque région de l’image, appelées graines, avant de lancer l’algorithme pour compléter la segmentation. Notre première contribution au domaine est un algorithme permettant de générer et d’étiqueter automatiquement toutes les graines nécessaires à la segmentation. Cette approche utilise une formulation en champs aléatoires de Markov, intégrant une connaissance à priori de l’anatomie et une détection préalable des contours entre des paires de graines. Une deuxième contribution vise à incorporer directement la connaissance à priori de la forme des muscles à la méthode du MA. Cette approche conserve l’interprétation probabiliste de l’algorithme original, ce qui permet de générer une segmentation en résolvant numériquement un grand système linéaire creux. Nous proposons comme dernière contribution un cadre d’apprentissage pour l’estimation du jeu de paramètres optimaux régulant l’influence du terme de contraste de l’algorithme du MA ainsi que des différents modèles de connaissance à priori. La principale difficulté est que les données d’apprentissage ne sont pas entièrement supervisées. En effet, l’utilisateur ne peut fournir qu’une segmentation déterministe de l’image, et non une segmentation probabiliste comme en produit l’algorithme du MA. Cela nous amène à faire de la segmentation probabiliste optimale une variable latente, et ainsi à formuler le problème d’estimation sous forme d’une machine à vecteurs de support latents (latent SVM). Toutes les méthodes proposées sont testées et validées sur des volumes de muscles squelettiques acquis par IRM dans un cadre clinique. / Segmentation of magnetic resonance images (MRI) of skeletal striated muscles is of crucial interest when studying myopathies. Diseases understanding, therapeutic followups of patients, etc. rely on discriminating the muscles in MRI anatomical images. However, delineating the muscle contours manually is an extremely long and tedious task, and thus often a bottleneck in clinical research. Typical automatic segmentation methods rely on finding discriminative visual properties between objects of interest, accurate contour detection or clinically interesting anatomical points. Skeletal muscles show none of these features in MRI, making automatic segmentation a challenging problem. In spite of recent advances on segmentation methods, their application in clinical settings is difficult, and most of the times, manual segmentation and correction is still the only option. In this thesis, we propose several approaches for segmenting skeletal muscles automatically in MRI, all related to the popular graph-based Random Walker (RW) segmentation algorithm. The strength of the RW method relies on its robustness in the case of weak contours and its fast and global optimization. Originally, the RW algorithm was developed for interactive segmentation: the user had to pre-segment small regions of the image – called seeds – before running the algorithm which would then complete the segmentation. Our first contribution is a method for automatically generating and labeling all the appropriate seeds, based on a Markov Random Fields formulation integrating prior knowledge of the relative positions, and prior detection of contours between pairs of seeds. A second contribution amounts to incorporating prior knowledge of the shape directly into the RW framework. Such formulation retains the probabilistic interpretation of the RW algorithm and thus allows to compute the segmentation by solving a large but simple sparse linear system, like in the original method. In a third contribution, we propose to develop a learning framework to estimate the optimal set of parameters for balancing the contrast term of the RW algorithm and the different existing prior models. The main challenge we face is that the training samples are not fully supervised. Specifically, they provide a hard segmentation of the medical images, instead of the optimal probabilistic segmentation, which corresponds to the desired output of the RW algorithm. We overcome this challenge by treating the optimal probabilistic segmentation as a latent variable. This allows us to employ the latent Support Vector Machine (latent SVM) formulation for parameter estimation. All proposed methods are tested and validated on real clinical datasets of MRI volumes of lower limbs.
115

Fusion de données capteurs étendue pour applications vidéo embarquées / Extended sensor fusion for embedded video applications

Alibay, Manu 18 December 2015 (has links)
Le travail réalisé au cours de cette thèse se concentre sur la fusion des données d'une caméra et de capteurs inertiels afin d'effectuer une estimation robuste de mouvement pour des applications vidéos embarquées. Les appareils visés sont principalement les téléphones intelligents et les tablettes. On propose une nouvelle technique d'estimation de mouvement 2D temps réel, qui combine les mesures visuelles et inertielles. L'approche introduite se base sur le RANSAC préemptif, en l'étendant via l'ajout de capteurs inertiels. L'évaluation des modèles de mouvement se fait selon un score hybride, un lagrangien dynamique permettant une adaptation à différentes conditions et types de mouvements. Ces améliorations sont effectuées à faible coût, afin de permettre une implémentation sur plateforme embarquée. L'approche est comparée aux méthodes visuelles et inertielles. Une nouvelle méthode d'odométrie visuelle-inertielle temps réelle est présentée. L'interaction entre les données visuelles et inertielles est maximisée en effectuant la fusion dans de multiples étapes de l'algorithme. A travers des tests conduits sur des séquences acquises avec la vérité terrain, nous montrons que notre approche produit des résultats supérieurs aux techniques classiques de l'état de l'art. / This thesis deals with sensor fusion between camera and inertial sensors measurements in order to provide a robust motion estimation algorithm for embedded video applications. The targeted platforms are mainly smartphones and tablets. We present a real-time, 2D online camera motion estimation algorithm combining inertial and visual measurements. The proposed algorithm extends the preemptive RANSAC motion estimation procedure with inertial sensors data, introducing a dynamic lagrangian hybrid scoring of the motion models, to make the approach adaptive to various image and motion contents. All these improvements are made with little computational cost, keeping the complexity of the algorithm low enough for embedded platforms. The approach is compared with pure inertial and pure visual procedures. A novel approach to real-time hybrid monocular visual-inertial odometry for embedded platforms is introduced. The interaction between vision and inertial sensors is maximized by performing fusion at multiple levels of the algorithm. Through tests conducted on sequences with ground-truth data specifically acquired, we show that our method outperforms classical hybrid techniques in ego-motion estimation.
116

Analyse fine 2D/3D de véhicules par réseaux de neurones profonds / 2D/3D fine-grained analysis of vehicles using deep neural networks

Chabot, Florian 28 June 2017 (has links)
Les travaux développés dans cette thèse s’intéressent à l’analyse fine des véhicules à partir d’une image. Nous définissons le terme d’analyse fine comme un regroupement des concepts suivants : la détection des véhicules dans l’image, l’estimation de leur point de vue (ou orientation), la caractérisation de leur visibilité, leur localisation 3D dans la scène et la reconnaissance de leur marque et de leur modèle. La construction de solutions fiables d’analyse fine de véhicules laisse place à de nombreuses applications notamment dans le domaine du transport intelligent et de la vidéo surveillance.Dans ces travaux, nous proposons plusieurs contributions permettant de traiter partiellement ou complètement cette problématique. Les approches mises en oeuvre se basent sur l’utilisation conjointe de l’apprentissage profond et de modèles 3D de véhicule. Dans une première partie, nous traitons le problème de reconnaissance de marques et modèles en prenant en compte la difficulté de la création de bases d’apprentissage. Dans une seconde partie, nous investiguons une méthode de détection et d’estimation du point de vue précis en nous basant sur l’extraction de caractéristiques visuelles locales et de la cohérence géométrique. La méthode utilise des modèles mathématiques uniquement appris sur des données synthétiques. Enfin, dans une troisième partie, un système complet d’analyse fine de véhicules dans le contexte de la conduite autonome est proposé. Celui-ci se base sur le concept d’apprentissage profond multi-tâches. Des résultats quantitatifs et qualitatifs sont présentés tout au long de ce manuscrit. Sur certains aspects de l’analyse fine de véhicules à partir d’une image, ces recherches nous ont permis de dépasser l’état de l’art. / In this thesis, we are interested in fine-grained analysis of vehicle from an image. We define fine-grained analysis as the following concepts : vehicle detection in the image, vehicle viewpoint (or orientation) estimation, vehicle visibility characterization, vehicle 3D localization and make and model recognition. The design of reliable solutions for fine-grained analysis of vehicle open the door to multiple applications in particular for intelligent transport systems as well as video surveillance systems. In this work, we propose several contributions allowing to address partially or wholly this issue. Proposed approaches are based on joint deep learning technologies and 3D models. In a first section, we deal with make and model classification keeping in mind the difficulty to create training data. In a second section, we investigate a novel method for both vehicle detection and fine-grained viewpoint estimation based on local apparence features and geometric spatial coherence. It uses models learned only on synthetic data. Finally, in a third section, a complete system for fine-grained analysis is proposed. It is based on the multi-task concept. Throughout this report, we provide quantitative and qualitative results. On several aspects related to vehicle fine-grained analysis, this work allowed to outperform state of the art methods.
117

Tridimensional Estimation of Turbulent Fluid Velocity / Estimation tridimensionnelle de vitesse de fluides turbulents

Barbu, Ioana 15 December 2014 (has links)
L'analyse du mouvement en 3 dimensions (3D) des fluides turbulents à évoluée vers un cadre nécessitant (i). un système de capteurs puissants (ii). le développement d'outils d'estimation de basse complexité (iii). des connaissances a priori issues de la physique du fluide. Des nouvelles techniques formulées dans ce contexte et s'appuyant sur le traitement d'images ont été proposées. Leur méthodologie repose sur la conjugaison du savoir propre à la communauté Vision par Ordinateur avec des modèles physiques de la dynamiques du fluide. Mais voilà, la plupart de ces procédures sont exprimées dans un cadre bidimensionnel (2D), dans le sens où elles reconstruisent un champ 2D à partir des deux images consécutives 2D ; dès lors, ces-dernières ne sont pas adaptées pour certains régimes du fluide. Récemment, des nouvelles contributions ont proposé l'estimation du champ 3D des fluides à partir des densités volumiques préalablement reconstruites. De plus, une amélioration de ces schémas classiques suggère un apport signifiant en netteté de la reconstruction dans un cadre joint d'estimation volume-mouvement. Motivés par ces développements, nous proposons dans cette étude une alternative au schéma joint déjà présent dans la littérature afin d'estimer la vitesse 3D des fluides à partir de plusieurs séquences synchronisées d'images 2D. Le cadre théorique de cette thèse a été présenté en connexion avec les communautés de la Vision par Ordinateur, du Traitement du Signal et de la Tomographie PIV. Notre travail peut être divisé en trois tâches majeures : (i). la formulation d'un modèle proche de la physique du système observé (ii). la conception des algorithmes de reconstruction volumique de basse complexité qui prennent en compte des particularités notables sur le système (iii). l'élaboration d'un schéma de reconstruction des champs de vitesse qui considère des scénarios bruités et la structure cohérente volumique entre deux instants. Nous évaluons les performances de nos méthodes sur des scènes réalistes représentant le signal de Tomographie PIV. / The challenge of the modern understanding of the 3D turbulent flows involves the need for (i). a reliable sensing technology (ii). the design of low-complexity estimation tools (iii). Physically-sound priors. Novel techniques relying on processing image sequences have been advanced. Their methodology relies on conjugating approaches issued from the computer vision community with physical knowledge on fluid dynamics with the intent of designing an accurate motion estimator.Most of these procedures are formalized within a bidimensional framework, i.e., they reconstruct a 2D motion field out of two consecutive 2D images, making them unsuitable for several fluid regimes with high 3D structures. Estimating the fluid motion within a 3D framework seems more pertinent. In related work, the velocity fields are most often retrieved from previously estimated volumetric densities. Recent contributions estimating the volumetric distribution with regard to the motion field that links them suggest a joint optimization approach as the appropriate modus operandi towards rigorous retrieval of turbulent fluid flow. In this thesis, we have proposed a novel joint solution to address the task of 3D fluid motion estimation out of multiple sequences of synchronized 2D images. The theoretical frame has been presented with connections to the computer vision and signal processing fields, as well as to the Tomographic PIV (tomoPIV) community. Our work can be divided into three main tasks: (i). the design of a physically sound model with respect to the nature of the visualized scene (ii). the devise of volume reconstruction algorithmic schemes with low complexity that take into account known priors on the physical signal and output a satisfying estimation within a few iterations (iii). the formalization of a velocity reconstruction scheme that accounts for noisy settings and for the linked structure between two instantaneous volume reconstructions. We evaluate the agility of our methods and highlight their performance throughout realistic numerical experiments mimicking the real-world tomoPIV signal.
118

Contributions to dense visual tracking and visual servoing using robust similarity criteria / Contributions au suivi visuel et à l'asservissement visuel denses basées sur des critères de similarité robustes

Delabarre, Bertrand 23 December 2014 (has links)
Dans cette thèse, nous traitons les problèmes de suivi visuel et d'asservissement visuel, qui sont des thèmes essentiels dans le domaine de la vision par ordinateur. La plupart des techniques de suivi et d'asservissement visuel présentes dans la littérature se basent sur des primitives géométriques extraites dans les images pour estimer le mouvement présent dans la séquence. Un problème inhérent à ce type de méthode est le fait de devoir extraire et mettre en correspondance des primitives à chaque nouvelle image avant de pouvoir estimer un déplacement. Afin d'éviter cette couche algorithmique et de considérer plus d'information visuelle, de récentes approches ont proposé d'utiliser directement la totalité des informations fournies par l'image. Ces algorithmes, alors qualifiés de directs, se basent pour la plupart sur l'observation des intensités lumineuses de chaque pixel de l'image. Mais ceci a pour effet de limiter le domaine d'utilisation de ces approches, car ce critère de comparaison est très sensibles aux perturbations de la scène (telles que les variations de luminosité ou les occultations). Pour régler ces problèmes nous proposons de nous baser sur des travaux récents qui ont montré que des mesures de similarité comme la somme des variances conditionnelles ou l'information mutuelle permettaient d'accroître la robustesse des approches directes dans des conditions perturbées. Nous proposons alors plusieurs algorithmes de suivi et d'asservissement visuels directs qui utilisent ces fonctions de similarité afin d'estimer le mouvement présents dans des séquences d'images et de contrôler un robot grâce aux informations fournies par une caméra. Ces différentes méthodes sont alors validées et analysées dans différentes conditions qui viennent démontrer leur efficacité. / In this document, we address the visual tracking and visual servoing problems. They are crucial thematics in the domain of computer and robot vision. Most of these techniques use geometrical primitives extracted from the images in order to estimate a motion from an image sequences. But using geometrical features means having to extract and match them at each new image before performing the tracking or servoing process. In order to get rid of this algorithmic step, recent approaches have proposed to use directly the information provided by the whole image instead of extracting geometrical primitives. Most of these algorithms, referred to as direct techniques, are based on the luminance values of every pixel in the image. But this strategy limits their use, since the criteria is very sensitive to scene perturbations such as luminosity shifts or occlusions. To overcome this problem, we propose in this document to use robust similarity measures, the sum of conditional variance and the mutual information, in order to perform robust direct visual tracking and visual servoing processes. Several algorithms are then proposed that are based on these criteria in order to be robust to scene perturbations. These different methods are tested and analyzed in several setups where perturbations occur which allows to demonstrate their efficiency.
119

High precision camera calibration / Calibration de caméra à haute précision

Tang, Zhongwei 01 July 2011 (has links)
Cette thèse se concentre sur les aspects de précision de la reconstruction 3D avec un accent particulier sur la correction de distorsion. La cause de l'imprécision dans la stéréoscopie peut être trouvée à toute étape de la chaîne. L'imprécision due à une certaine étape rend inutile la précision acquise dans les étapes précédentes, puis peut se propage, se amplifie ou se mélange avec les erreurs dans les étapes suivantes, conduisant finalement à une reconstruction 3D imprécise. Il semble impossible d'améliorer directement la précision globale d'une chaîne de reconstruction 3D qui conduit à données 3D imprécises. L'approche plus approprié pour obtenir un modèle 3D précis est d'étudier la précision de chaque composant. Une attention maximale est portée à la calibration de l'appareil photo pour trois raisons. Premièrement, il est souvent le premier composant dans la chaîne. Deuxièmement, il est en soi déjà un système compliqué contenant de nombreux paramètres inconnus. Troisièmement, il suffit de calibrer les paramètres intrinsèques d'un appareil photo une fois, en fonction de la configuration de l'appareil photo (et à température constante). Le problème de calibration de l'appareil photo est censé d'avoir été résolu depuis des années. Néanmoins, méthodes et modèles de calibration qui étaient valables pour les exigences de précision autrefois deviennent insatisfaisants pour les nouveaux appareils photo numériques permettant une plus grande précision. Dans nos expériences, nous avons régulièrement observé que les méthodes globales actuelles peuvent laisser une distorsion résiduelle en ordre d'un pixel, ce qui peut conduire à des distorsions dans les scènes reconstruites. Nous proposons deux méthodes dans la thèse pour corriger la distorsion, avec une précision beaucoup plus élevée. Avec un outil d'évaluation objective, nous montrons que la précision de correction finalement réalisable est d'environ 0,02 pixels. Cette valeur représente l'écart moyen d'une ligne droite observée traversant le domaine de l'image à sa ligne de régression parfaitement droite. La haute précision est également nécessaire ou souhaitée pour d'autres tâches de traitement d'images cruciales en 3D, comme l'enregistrement des images. Contrairement au progrès dans l'invariance de détecteurs des point d'intérêt, la précision de matchings n'a pas été étudiée avec soin. Nous analysons la méthode SIFT (Scale-Invariant Feature Transform) et d'évaluer sa précision de matchings. Il montre que par quelques modifications simples dans l'espace d'échelle de SIFT, la précision de matchings peut être améliorée à être d'environ 0,05 pixels sur des tests synthétiques. Un algorithme plus réaliste est également proposé pour augmenter la précision de matchings pour deux images réelles quand la transformation entre elles est localement lisse. Une méthode de débruitage avec une série des images, appelée ''burst denoising'', est proposée pour profiter des matchings précis pour estimer et enlever le bruit en même temps. Cette méthode produit une courbe de bruit précise, qui peut être utilisée pour guider le débruitage par la moyenne simple et la méthode classique. ''burst denoising'' est particulièrement puissant pour restaurer la partie fine texturée non-périodique dans les images, même par rapport aux meilleures méthodes de débruitage de l'état de l'art. / The thesis focuses on precision aspects of 3D reconstruction with a particular emphasis on camera distortion correction. The causes of imprecisions in stereoscopy can be found at any step of the chain. The imprecision caused in a certain step will make useless the precision gained in the previous steps, then be propagated, amplified or mixed with errors in the following steps, finally leading to an imprecise 3D reconstruction. It seems impossible to directly improve the overall precision of a reconstruction chain leading to final imprecise 3D data. The appropriate approach to obtain a precise 3D model is to study the precision of every component. A maximal attention is paid to the camera calibration for three reasons. First, it is often the first component in the chain. Second, it is by itself already a complicated system containing many unknown parameters. Third, the intrinsic parameters of a camera only need to be calibrated once, depending on the camera configuration (and at constant temperature). The camera calibration problem is supposed to have been solved since years. Nevertheless, calibration methods and models that were valid for past precision requirements are becoming unsatisfying for new digital cameras permitting a higher precision. In our experiments, we regularly observed that current global camera methods can leave behind a residual distortion error as big as one pixel, which can lead to distorted reconstructed scenes. We propose two methods in the thesis to correct the distortion with a far higher precision. With an objective evaluation tool, it will be shown that the finally achievable correction precision is about 0.02 pixels. This value measures the average deviation of an observed straight line crossing the image domain from its perfectly straight regression line. High precision is also needed or desired for other image processing tasks crucial in 3D, like image registration. In contrast to the advance in the invariance of feature detectors, the matching precision has not been studied carefully. We analyze the SIFT method (Scale-invariant feature transform) and evaluate its matching precision. It will be shown that by some simple modifications in the SIFT scale space, the matching precision can be improved to be about 0.05 pixels on synthetic tests. A more realistic algorithm is also proposed to increase the registration precision for two real images when it is assumed that their transformation is locally smooth. A multiple-image denoising method, called ''burst denoising'', is proposed to take advantage of precise image registration to estimate and remove the noise at the same time. This method produces an accurate noise curve, which can be used to guide the denoising by the simple averaging and classic block matching method. ''burst denoising'' is particularly powerful to recover fine non-periodic textured part in images, even compared to the best state of the art denoising method.
120

Towards novel inter-prediction methods for image and video compression / Nouvelles méthodes de prédiction inter-images pour la compression d’images et de vidéos

Begaint, Jean 29 November 2018 (has links)
En raison de la grande disponibilité des dispositifs de capture vidéo et des nouvelles pratiques liées aux réseaux sociaux, ainsi qu’à l’émergence des services en ligne, les images et les vidéos constituent aujourd’hui une partie importante de données transmises sur internet. Les applications de streaming vidéo représentent ainsi plus de 70% de la bande passante totale de l’internet. Des milliards d’images sont déjà stockées dans le cloud et des millions y sont téléchargés chaque jour. Les besoins toujours croissants en streaming et stockage nécessitent donc une amélioration constante des outils de compression d’image et de vidéo. Cette thèse vise à explorer des nouvelles approches pour améliorer les méthodes actuelles de prédiction inter-images. De telles méthodes tirent parti des redondances entre images similaires, et ont été développées à l’origine dans le contexte de la vidéo compression. Dans une première partie, de nouveaux outils de prédiction inter globaux et locaux sont associés pour améliorer l’efficacité des schémas de compression de bases de données d’image. En associant une compensation géométrique et photométrique globale avec une prédiction linéaire locale, des améliorations significatives peuvent être obtenues. Une seconde approche est ensuite proposée qui introduit un schéma de prédiction inter par régions. La méthode proposée est en mesure d’améliorer les performances de codage par rapport aux solutions existantes en estimant et en compensant les distorsions géométriques et photométriques à une échelle semi locale. Cette approche est ensuite adaptée et validée dans le cadre de la compression vidéo. Des améliorations en réduction de débit sont obtenues, en particulier pour les séquences présentant des mouvements complexes réels tels que des zooms et des rotations. La dernière partie de la thèse se concentre sur l’étude des méthodes d’apprentissage en profondeur dans le cadre de la prédiction inter. Ces dernières années, les réseaux de neurones profonds ont obtenu des résultats impressionnants pour un grand nombre de tâches de vision par ordinateur. Les méthodes basées sur l’apprentissage en profondeur proposées à l’origine pour de l’interpolation d’images sont étudiées ici dans le contexte de la compression vidéo. Des améliorations en terme de performances de codage sont obtenues par rapport aux méthodes d’estimation et de compensation de mouvements traditionnelles. Ces résultats mettent en évidence le fort potentiel de ces architectures profondes dans le domaine de la compression vidéo. / Due to the large availability of video cameras and new social media practices, as well as the emergence of cloud services, images and videos constitute today a significant amount of the total data that is transmitted over the internet. Video streaming applications account for more than 70% of the world internet bandwidth. Whereas billions of images are already stored in the cloud and millions are uploaded every day. The ever growing streaming and storage requirements of these media require the constant improvements of image and video coding tools. This thesis aims at exploring novel approaches for improving current inter-prediction methods. Such methods leverage redundancies between similar frames, and were originally developed in the context of video compression. In a first approach, novel global and local inter-prediction tools are associated to improve the efficiency of image sets compression schemes based on video codecs. By leveraging a global geometric and photometric compensation with a locally linear prediction, significant improvements can be obtained. A second approach is then proposed which introduces a region-based inter-prediction scheme. The proposed method is able to improve the coding performances compared to existing solutions by estimating and compensating geometric and photometric distortions on a semi-local level. This approach is then adapted and validated in the context of video compression. Bit-rate improvements are obtained, especially for sequences displaying complex real-world motions such as zooms and rotations. The last part of the thesis focuses on deep learning approaches for inter-prediction. Deep neural networks have shown striking results for a large number of computer vision tasks over the last years. Deep learning based methods proposed for frame interpolation applications are studied here in the context of video compression. Coding performance improvements over traditional motion estimation and compensation methods highlight the potential of these deep architectures.

Page generated in 0.129 seconds