Global ETD Search

111	De la segmentation au moyen de graphes d’images de muscles striés squelettiques acquises par RMN / Graph- based segmentation of skeletal striated muscles in NMR images Baudin, Pierre-Yves 23 May 2013 (has links) La segmentation d’images anatomiques de muscles striés squelettiques acquises par résonance magnétique nucléaire (IRM) présente un grand intérêt pour l’étude des myopathies. Elle est souvent un préalable nécessaire pour l’étude les mécanismes d’une maladie, ou pour le suivi thérapeutique des patients. Cependant, le détourage manuel des muscles est un travail long et fastidieux, au point de freiner les recherches cliniques qui en dépendent. Il est donc nécessaire d’automatiser cette étape. Les méthodes de segmentation automatique se basent en général sur les différences d’aspect visuel des objets à séparer et sur une détection précise des contours ou de points de repère anatomiques pertinents. L’IRM du muscle ne permettant aucune de ces approches, la segmentation automatique représente un défi de taille pour les chercheurs. Dans ce rapport de thèse, nous présentons plusieurs méthodes de segmentation d’images de muscles, toutes en rapport avec l’algorithme dit du marcheur aléatoire (MA). L’algorithme du MA, qui utilise une représentation en graphe de l’image, est connu pour être robuste dans les cas où les contours des objets sont manquants ou incomplets et pour son optimisation numérique rapide et globale. Dans sa version initiale, l’utilisateur doit d’abord segmenter de petites portions de chaque région de l’image, appelées graines, avant de lancer l’algorithme pour compléter la segmentation. Notre première contribution au domaine est un algorithme permettant de générer et d’étiqueter automatiquement toutes les graines nécessaires à la segmentation. Cette approche utilise une formulation en champs aléatoires de Markov, intégrant une connaissance à priori de l’anatomie et une détection préalable des contours entre des paires de graines. Une deuxième contribution vise à incorporer directement la connaissance à priori de la forme des muscles à la méthode du MA. Cette approche conserve l’interprétation probabiliste de l’algorithme original, ce qui permet de générer une segmentation en résolvant numériquement un grand système linéaire creux. Nous proposons comme dernière contribution un cadre d’apprentissage pour l’estimation du jeu de paramètres optimaux régulant l’influence du terme de contraste de l’algorithme du MA ainsi que des différents modèles de connaissance à priori. La principale difficulté est que les données d’apprentissage ne sont pas entièrement supervisées. En effet, l’utilisateur ne peut fournir qu’une segmentation déterministe de l’image, et non une segmentation probabiliste comme en produit l’algorithme du MA. Cela nous amène à faire de la segmentation probabiliste optimale une variable latente, et ainsi à formuler le problème d’estimation sous forme d’une machine à vecteurs de support latents (latent SVM). Toutes les méthodes proposées sont testées et validées sur des volumes de muscles squelettiques acquis par IRM dans un cadre clinique. / Segmentation of magnetic resonance images (MRI) of skeletal striated muscles is of crucial interest when studying myopathies. Diseases understanding, therapeutic followups of patients, etc. rely on discriminating the muscles in MRI anatomical images. However, delineating the muscle contours manually is an extremely long and tedious task, and thus often a bottleneck in clinical research. Typical automatic segmentation methods rely on finding discriminative visual properties between objects of interest, accurate contour detection or clinically interesting anatomical points. Skeletal muscles show none of these features in MRI, making automatic segmentation a challenging problem. In spite of recent advances on segmentation methods, their application in clinical settings is difficult, and most of the times, manual segmentation and correction is still the only option. In this thesis, we propose several approaches for segmenting skeletal muscles automatically in MRI, all related to the popular graph-based Random Walker (RW) segmentation algorithm. The strength of the RW method relies on its robustness in the case of weak contours and its fast and global optimization. Originally, the RW algorithm was developed for interactive segmentation: the user had to pre-segment small regions of the image – called seeds – before running the algorithm which would then complete the segmentation. Our first contribution is a method for automatically generating and labeling all the appropriate seeds, based on a Markov Random Fields formulation integrating prior knowledge of the relative positions, and prior detection of contours between pairs of seeds. A second contribution amounts to incorporating prior knowledge of the shape directly into the RW framework. Such formulation retains the probabilistic interpretation of the RW algorithm and thus allows to compute the segmentation by solving a large but simple sparse linear system, like in the original method. In a third contribution, we propose to develop a learning framework to estimate the optimal set of parameters for balancing the contrast term of the RW algorithm and the different existing prior models. The main challenge we face is that the training samples are not fully supervised. Specifically, they provide a hard segmentation of the medical images, instead of the optimal probabilistic segmentation, which corresponds to the desired output of the RW algorithm. We overcome this challenge by treating the optimal probabilistic segmentation as a latent variable. This allows us to employ the latent Support Vector Machine (latent SVM) formulation for parameter estimation. All proposed methods are tested and validated on real clinical datasets of MRI volumes of lower limbs. Vision par ordinateur Apprentissage automatique Traitement des images médicales Computer vision Machine learning Medical image analysis
112	Fusion de données capteurs étendue pour applications vidéo embarquées / Extended sensor fusion for embedded video applications Alibay, Manu 18 December 2015 (has links) Le travail réalisé au cours de cette thèse se concentre sur la fusion des données d'une caméra et de capteurs inertiels afin d'effectuer une estimation robuste de mouvement pour des applications vidéos embarquées. Les appareils visés sont principalement les téléphones intelligents et les tablettes. On propose une nouvelle technique d'estimation de mouvement 2D temps réel, qui combine les mesures visuelles et inertielles. L'approche introduite se base sur le RANSAC préemptif, en l'étendant via l'ajout de capteurs inertiels. L'évaluation des modèles de mouvement se fait selon un score hybride, un lagrangien dynamique permettant une adaptation à différentes conditions et types de mouvements. Ces améliorations sont effectuées à faible coût, afin de permettre une implémentation sur plateforme embarquée. L'approche est comparée aux méthodes visuelles et inertielles. Une nouvelle méthode d'odométrie visuelle-inertielle temps réelle est présentée. L'interaction entre les données visuelles et inertielles est maximisée en effectuant la fusion dans de multiples étapes de l'algorithme. A travers des tests conduits sur des séquences acquises avec la vérité terrain, nous montrons que notre approche produit des résultats supérieurs aux techniques classiques de l'état de l'art. / This thesis deals with sensor fusion between camera and inertial sensors measurements in order to provide a robust motion estimation algorithm for embedded video applications. The targeted platforms are mainly smartphones and tablets. We present a real-time, 2D online camera motion estimation algorithm combining inertial and visual measurements. The proposed algorithm extends the preemptive RANSAC motion estimation procedure with inertial sensors data, introducing a dynamic lagrangian hybrid scoring of the motion models, to make the approach adaptive to various image and motion contents. All these improvements are made with little computational cost, keeping the complexity of the algorithm low enough for embedded platforms. The approach is compared with pure inertial and pure visual procedures. A novel approach to real-time hybrid monocular visual-inertial odometry for embedded platforms is introduced. The interaction between vision and inertial sensors is maximized by performing fusion at multiple levels of the algorithm. Through tests conducted on sequences with ground-truth data specifically acquired, we show that our method outperforms classical hybrid techniques in ego-motion estimation. Informatique Robotique Vision par ordinateur Fusion de données Computer science Robotics Computer vision Sensor fusion 621.3
113	Analyse fine 2D/3D de véhicules par réseaux de neurones profonds / 2D/3D fine-grained analysis of vehicles using deep neural networks Chabot, Florian 28 June 2017 (has links) Les travaux développés dans cette thèse s’intéressent à l’analyse fine des véhicules à partir d’une image. Nous définissons le terme d’analyse fine comme un regroupement des concepts suivants : la détection des véhicules dans l’image, l’estimation de leur point de vue (ou orientation), la caractérisation de leur visibilité, leur localisation 3D dans la scène et la reconnaissance de leur marque et de leur modèle. La construction de solutions fiables d’analyse fine de véhicules laisse place à de nombreuses applications notamment dans le domaine du transport intelligent et de la vidéo surveillance.Dans ces travaux, nous proposons plusieurs contributions permettant de traiter partiellement ou complètement cette problématique. Les approches mises en oeuvre se basent sur l’utilisation conjointe de l’apprentissage profond et de modèles 3D de véhicule. Dans une première partie, nous traitons le problème de reconnaissance de marques et modèles en prenant en compte la difficulté de la création de bases d’apprentissage. Dans une seconde partie, nous investiguons une méthode de détection et d’estimation du point de vue précis en nous basant sur l’extraction de caractéristiques visuelles locales et de la cohérence géométrique. La méthode utilise des modèles mathématiques uniquement appris sur des données synthétiques. Enfin, dans une troisième partie, un système complet d’analyse fine de véhicules dans le contexte de la conduite autonome est proposé. Celui-ci se base sur le concept d’apprentissage profond multi-tâches. Des résultats quantitatifs et qualitatifs sont présentés tout au long de ce manuscrit. Sur certains aspects de l’analyse fine de véhicules à partir d’une image, ces recherches nous ont permis de dépasser l’état de l’art. / In this thesis, we are interested in fine-grained analysis of vehicle from an image. We define fine-grained analysis as the following concepts : vehicle detection in the image, vehicle viewpoint (or orientation) estimation, vehicle visibility characterization, vehicle 3D localization and make and model recognition. The design of reliable solutions for fine-grained analysis of vehicle open the door to multiple applications in particular for intelligent transport systems as well as video surveillance systems. In this work, we propose several contributions allowing to address partially or wholly this issue. Proposed approaches are based on joint deep learning technologies and 3D models. In a first section, we deal with make and model classification keeping in mind the difficulty to create training data. In a second section, we investigate a novel method for both vehicle detection and fine-grained viewpoint estimation based on local apparence features and geometric spatial coherence. It uses models learned only on synthetic data. Finally, in a third section, a complete system for fine-grained analysis is proposed. It is based on the multi-task concept. Throughout this report, we provide quantitative and qualitative results. On several aspects related to vehicle fine-grained analysis, this work allowed to outperform state of the art methods. Vision par ordinateur Réseaux de neurones convolutifs Modèles 3D Computer vision Convolutional neural networks 3D models
114	Tridimensional Estimation of Turbulent Fluid Velocity / Estimation tridimensionnelle de vitesse de fluides turbulents Barbu, Ioana 15 December 2014 (has links) L'analyse du mouvement en 3 dimensions (3D) des fluides turbulents à évoluée vers un cadre nécessitant (i). un système de capteurs puissants (ii). le développement d'outils d'estimation de basse complexité (iii). des connaissances a priori issues de la physique du fluide. Des nouvelles techniques formulées dans ce contexte et s'appuyant sur le traitement d'images ont été proposées. Leur méthodologie repose sur la conjugaison du savoir propre à la communauté Vision par Ordinateur avec des modèles physiques de la dynamiques du fluide. Mais voilà, la plupart de ces procédures sont exprimées dans un cadre bidimensionnel (2D), dans le sens où elles reconstruisent un champ 2D à partir des deux images consécutives 2D ; dès lors, ces-dernières ne sont pas adaptées pour certains régimes du fluide. Récemment, des nouvelles contributions ont proposé l'estimation du champ 3D des fluides à partir des densités volumiques préalablement reconstruites. De plus, une amélioration de ces schémas classiques suggère un apport signifiant en netteté de la reconstruction dans un cadre joint d'estimation volume-mouvement. Motivés par ces développements, nous proposons dans cette étude une alternative au schéma joint déjà présent dans la littérature afin d'estimer la vitesse 3D des fluides à partir de plusieurs séquences synchronisées d'images 2D. Le cadre théorique de cette thèse a été présenté en connexion avec les communautés de la Vision par Ordinateur, du Traitement du Signal et de la Tomographie PIV. Notre travail peut être divisé en trois tâches majeures : (i). la formulation d'un modèle proche de la physique du système observé (ii). la conception des algorithmes de reconstruction volumique de basse complexité qui prennent en compte des particularités notables sur le système (iii). l'élaboration d'un schéma de reconstruction des champs de vitesse qui considère des scénarios bruités et la structure cohérente volumique entre deux instants. Nous évaluons les performances de nos méthodes sur des scènes réalistes représentant le signal de Tomographie PIV. / The challenge of the modern understanding of the 3D turbulent flows involves the need for (i). a reliable sensing technology (ii). the design of low-complexity estimation tools (iii). Physically-sound priors. Novel techniques relying on processing image sequences have been advanced. Their methodology relies on conjugating approaches issued from the computer vision community with physical knowledge on fluid dynamics with the intent of designing an accurate motion estimator.Most of these procedures are formalized within a bidimensional framework, i.e., they reconstruct a 2D motion field out of two consecutive 2D images, making them unsuitable for several fluid regimes with high 3D structures. Estimating the fluid motion within a 3D framework seems more pertinent. In related work, the velocity fields are most often retrieved from previously estimated volumetric densities. Recent contributions estimating the volumetric distribution with regard to the motion field that links them suggest a joint optimization approach as the appropriate modus operandi towards rigorous retrieval of turbulent fluid flow. In this thesis, we have proposed a novel joint solution to address the task of 3D fluid motion estimation out of multiple sequences of synchronized 2D images. The theoretical frame has been presented with connections to the computer vision and signal processing fields, as well as to the Tomographic PIV (tomoPIV) community. Our work can be divided into three main tasks: (i). the design of a physically sound model with respect to the nature of the visualized scene (ii). the devise of volume reconstruction algorithmic schemes with low complexity that take into account known priors on the physical signal and output a satisfying estimation within a few iterations (iii). the formalization of a velocity reconstruction scheme that accounts for noisy settings and for the linked structure between two instantaneous volume reconstructions. We evaluate the agility of our methods and highlight their performance throughout realistic numerical experiments mimicking the real-world tomoPIV signal. Vision par ordinateur Fluides turbulents Signal Processing Optimization Computer Vision Turbulent fluids
115	Contributions to dense visual tracking and visual servoing using robust similarity criteria / Contributions au suivi visuel et à l'asservissement visuel denses basées sur des critères de similarité robustes Delabarre, Bertrand 23 December 2014 (has links) Dans cette thèse, nous traitons les problèmes de suivi visuel et d'asservissement visuel, qui sont des thèmes essentiels dans le domaine de la vision par ordinateur. La plupart des techniques de suivi et d'asservissement visuel présentes dans la littérature se basent sur des primitives géométriques extraites dans les images pour estimer le mouvement présent dans la séquence. Un problème inhérent à ce type de méthode est le fait de devoir extraire et mettre en correspondance des primitives à chaque nouvelle image avant de pouvoir estimer un déplacement. Afin d'éviter cette couche algorithmique et de considérer plus d'information visuelle, de récentes approches ont proposé d'utiliser directement la totalité des informations fournies par l'image. Ces algorithmes, alors qualifiés de directs, se basent pour la plupart sur l'observation des intensités lumineuses de chaque pixel de l'image. Mais ceci a pour effet de limiter le domaine d'utilisation de ces approches, car ce critère de comparaison est très sensibles aux perturbations de la scène (telles que les variations de luminosité ou les occultations). Pour régler ces problèmes nous proposons de nous baser sur des travaux récents qui ont montré que des mesures de similarité comme la somme des variances conditionnelles ou l'information mutuelle permettaient d'accroître la robustesse des approches directes dans des conditions perturbées. Nous proposons alors plusieurs algorithmes de suivi et d'asservissement visuels directs qui utilisent ces fonctions de similarité afin d'estimer le mouvement présents dans des séquences d'images et de contrôler un robot grâce aux informations fournies par une caméra. Ces différentes méthodes sont alors validées et analysées dans différentes conditions qui viennent démontrer leur efficacité. / In this document, we address the visual tracking and visual servoing problems. They are crucial thematics in the domain of computer and robot vision. Most of these techniques use geometrical primitives extracted from the images in order to estimate a motion from an image sequences. But using geometrical features means having to extract and match them at each new image before performing the tracking or servoing process. In order to get rid of this algorithmic step, recent approaches have proposed to use directly the information provided by the whole image instead of extracting geometrical primitives. Most of these algorithms, referred to as direct techniques, are based on the luminance values of every pixel in the image. But this strategy limits their use, since the criteria is very sensitive to scene perturbations such as luminosity shifts or occlusions. To overcome this problem, we propose in this document to use robust similarity measures, the sum of conditional variance and the mutual information, in order to perform robust direct visual tracking and visual servoing processes. Several algorithms are then proposed that are based on these criteria in order to be robust to scene perturbations. These different methods are tested and analyzed in several setups where perturbations occur which allows to demonstrate their efficiency. Vision par ordinateur Suivi visuel Asservissement visuel Computer science Computer vision Visual tracking Visual servoing
116	High precision camera calibration / Calibration de caméra à haute précision Tang, Zhongwei 01 July 2011 (has links) Cette thèse se concentre sur les aspects de précision de la reconstruction 3D avec un accent particulier sur la correction de distorsion. La cause de l'imprécision dans la stéréoscopie peut être trouvée à toute étape de la chaîne. L'imprécision due à une certaine étape rend inutile la précision acquise dans les étapes précédentes, puis peut se propage, se amplifie ou se mélange avec les erreurs dans les étapes suivantes, conduisant finalement à une reconstruction 3D imprécise. Il semble impossible d'améliorer directement la précision globale d'une chaîne de reconstruction 3D qui conduit à données 3D imprécises. L'approche plus approprié pour obtenir un modèle 3D précis est d'étudier la précision de chaque composant. Une attention maximale est portée à la calibration de l'appareil photo pour trois raisons. Premièrement, il est souvent le premier composant dans la chaîne. Deuxièmement, il est en soi déjà un système compliqué contenant de nombreux paramètres inconnus. Troisièmement, il suffit de calibrer les paramètres intrinsèques d'un appareil photo une fois, en fonction de la configuration de l'appareil photo (et à température constante). Le problème de calibration de l'appareil photo est censé d'avoir été résolu depuis des années. Néanmoins, méthodes et modèles de calibration qui étaient valables pour les exigences de précision autrefois deviennent insatisfaisants pour les nouveaux appareils photo numériques permettant une plus grande précision. Dans nos expériences, nous avons régulièrement observé que les méthodes globales actuelles peuvent laisser une distorsion résiduelle en ordre d'un pixel, ce qui peut conduire à des distorsions dans les scènes reconstruites. Nous proposons deux méthodes dans la thèse pour corriger la distorsion, avec une précision beaucoup plus élevée. Avec un outil d'évaluation objective, nous montrons que la précision de correction finalement réalisable est d'environ 0,02 pixels. Cette valeur représente l'écart moyen d'une ligne droite observée traversant le domaine de l'image à sa ligne de régression parfaitement droite. La haute précision est également nécessaire ou souhaitée pour d'autres tâches de traitement d'images cruciales en 3D, comme l'enregistrement des images. Contrairement au progrès dans l'invariance de détecteurs des point d'intérêt, la précision de matchings n'a pas été étudiée avec soin. Nous analysons la méthode SIFT (Scale-Invariant Feature Transform) et d'évaluer sa précision de matchings. Il montre que par quelques modifications simples dans l'espace d'échelle de SIFT, la précision de matchings peut être améliorée à être d'environ 0,05 pixels sur des tests synthétiques. Un algorithme plus réaliste est également proposé pour augmenter la précision de matchings pour deux images réelles quand la transformation entre elles est localement lisse. Une méthode de débruitage avec une série des images, appelée ''burst denoising'', est proposée pour profiter des matchings précis pour estimer et enlever le bruit en même temps. Cette méthode produit une courbe de bruit précise, qui peut être utilisée pour guider le débruitage par la moyenne simple et la méthode classique. ''burst denoising'' est particulièrement puissant pour restaurer la partie fine texturée non-périodique dans les images, même par rapport aux meilleures méthodes de débruitage de l'état de l'art. / The thesis focuses on precision aspects of 3D reconstruction with a particular emphasis on camera distortion correction. The causes of imprecisions in stereoscopy can be found at any step of the chain. The imprecision caused in a certain step will make useless the precision gained in the previous steps, then be propagated, amplified or mixed with errors in the following steps, finally leading to an imprecise 3D reconstruction. It seems impossible to directly improve the overall precision of a reconstruction chain leading to final imprecise 3D data. The appropriate approach to obtain a precise 3D model is to study the precision of every component. A maximal attention is paid to the camera calibration for three reasons. First, it is often the first component in the chain. Second, it is by itself already a complicated system containing many unknown parameters. Third, the intrinsic parameters of a camera only need to be calibrated once, depending on the camera configuration (and at constant temperature). The camera calibration problem is supposed to have been solved since years. Nevertheless, calibration methods and models that were valid for past precision requirements are becoming unsatisfying for new digital cameras permitting a higher precision. In our experiments, we regularly observed that current global camera methods can leave behind a residual distortion error as big as one pixel, which can lead to distorted reconstructed scenes. We propose two methods in the thesis to correct the distortion with a far higher precision. With an objective evaluation tool, it will be shown that the finally achievable correction precision is about 0.02 pixels. This value measures the average deviation of an observed straight line crossing the image domain from its perfectly straight regression line. High precision is also needed or desired for other image processing tasks crucial in 3D, like image registration. In contrast to the advance in the invariance of feature detectors, the matching precision has not been studied carefully. We analyze the SIFT method (Scale-invariant feature transform) and evaluate its matching precision. It will be shown that by some simple modifications in the SIFT scale space, the matching precision can be improved to be about 0.05 pixels on synthetic tests. A more realistic algorithm is also proposed to increase the registration precision for two real images when it is assumed that their transformation is locally smooth. A multiple-image denoising method, called ''burst denoising'', is proposed to take advantage of precise image registration to estimate and remove the noise at the same time. This method produces an accurate noise curve, which can be used to guide the denoising by the simple averaging and classic block matching method. ''burst denoising'' is particularly powerful to recover fine non-periodic textured part in images, even compared to the best state of the art denoising method. Problèmes inverses Traitement d'images Vision par ordinateur Image processing Computer vision
117	Towards novel inter-prediction methods for image and video compression / Nouvelles méthodes de prédiction inter-images pour la compression d’images et de vidéos Begaint, Jean 29 November 2018 (has links) En raison de la grande disponibilité des dispositifs de capture vidéo et des nouvelles pratiques liées aux réseaux sociaux, ainsi qu’à l’émergence des services en ligne, les images et les vidéos constituent aujourd’hui une partie importante de données transmises sur internet. Les applications de streaming vidéo représentent ainsi plus de 70% de la bande passante totale de l’internet. Des milliards d’images sont déjà stockées dans le cloud et des millions y sont téléchargés chaque jour. Les besoins toujours croissants en streaming et stockage nécessitent donc une amélioration constante des outils de compression d’image et de vidéo. Cette thèse vise à explorer des nouvelles approches pour améliorer les méthodes actuelles de prédiction inter-images. De telles méthodes tirent parti des redondances entre images similaires, et ont été développées à l’origine dans le contexte de la vidéo compression. Dans une première partie, de nouveaux outils de prédiction inter globaux et locaux sont associés pour améliorer l’efficacité des schémas de compression de bases de données d’image. En associant une compensation géométrique et photométrique globale avec une prédiction linéaire locale, des améliorations significatives peuvent être obtenues. Une seconde approche est ensuite proposée qui introduit un schéma de prédiction inter par régions. La méthode proposée est en mesure d’améliorer les performances de codage par rapport aux solutions existantes en estimant et en compensant les distorsions géométriques et photométriques à une échelle semi locale. Cette approche est ensuite adaptée et validée dans le cadre de la compression vidéo. Des améliorations en réduction de débit sont obtenues, en particulier pour les séquences présentant des mouvements complexes réels tels que des zooms et des rotations. La dernière partie de la thèse se concentre sur l’étude des méthodes d’apprentissage en profondeur dans le cadre de la prédiction inter. Ces dernières années, les réseaux de neurones profonds ont obtenu des résultats impressionnants pour un grand nombre de tâches de vision par ordinateur. Les méthodes basées sur l’apprentissage en profondeur proposées à l’origine pour de l’interpolation d’images sont étudiées ici dans le contexte de la compression vidéo. Des améliorations en terme de performances de codage sont obtenues par rapport aux méthodes d’estimation et de compensation de mouvements traditionnelles. Ces résultats mettent en évidence le fort potentiel de ces architectures profondes dans le domaine de la compression vidéo. / Due to the large availability of video cameras and new social media practices, as well as the emergence of cloud services, images and videos constitute today a significant amount of the total data that is transmitted over the internet. Video streaming applications account for more than 70% of the world internet bandwidth. Whereas billions of images are already stored in the cloud and millions are uploaded every day. The ever growing streaming and storage requirements of these media require the constant improvements of image and video coding tools. This thesis aims at exploring novel approaches for improving current inter-prediction methods. Such methods leverage redundancies between similar frames, and were originally developed in the context of video compression. In a first approach, novel global and local inter-prediction tools are associated to improve the efficiency of image sets compression schemes based on video codecs. By leveraging a global geometric and photometric compensation with a locally linear prediction, significant improvements can be obtained. A second approach is then proposed which introduces a region-based inter-prediction scheme. The proposed method is able to improve the coding performances compared to existing solutions by estimating and compensating geometric and photometric distortions on a semi-local level. This approach is then adapted and validated in the context of video compression. Bit-rate improvements are obtained, especially for sequences displaying complex real-world motions such as zooms and rotations. The last part of the thesis focuses on deep learning approaches for inter-prediction. Deep neural networks have shown striking results for a large number of computer vision tasks over the last years. Deep learning based methods proposed for frame interpolation applications are studied here in the context of video compression. Coding performance improvements over traditional motion estimation and compensation methods highlight the potential of these deep architectures. Traitement d’image Vision par ordinateur Compression vidéo Image Processing Computer Vision Video compression
118	Reconnaissance d’actions humaines dans des vidéos utilisant une représentation locale / Human action recognition in videos with local representation Koperski, Michal 09 November 2017 (has links) Cette thèse étudie le problème de la reconnaissance d’actions humaines dans des vidéos. La reconnaissance d’action peut être définie comme étant la capacité à décider si une action est présente due une vidéo. Ce problème est difficile en raison de la complexité des actions humaines, dans la grande variété de leur apparence et de leur mouvement. Les avancées récentes dans les méthodes manuelles ou par apprentissage profond ont considérablement amélioré la précision de la reconnaissance d’action. Mais de nombreuses questions restent ouvertes, ce qui rend le problème de la reconnaissance d’actions loin d’être résolu. Les méthodes actuelles basées sur les caractéristiques locales, donnent des résultats satisfaisants. Mais les actions humaines sont complexes, ce qui nous conduit à la question suivante : comment modéliser les relations entre les caractéristiques locales dans leur contexte spatiotemporel ? Dans cette thèse nous proposons 2 méthodes pour y répondre. La première modélise les relations spatio-temporelles entre les caractéristiques images utilisant la Covariance Brownienne, et la seconde modélise la disposition spatiale des caractéristiques locales à l’intérieur de la boite englobante de chaque personne. Les méthodes que nous proposons sont générales et peuvent améliorer aussi bien les méthodes manuelles que celles avec apprentissage. Une autre question ouverte est : l’information 3D peut-elle améliorer la reconnaissance d’actions ? Plusieurs méthodes utilisent les informations 3D pour détecter les articulations du corps. Nous proposons de les améliorer avec un nouveau descripteur, utilisant la trajectoire 3D calculée à partir des informations RGB-D. Finalement, nous affirmons que la capacité de traiter une vidéo en temps-réel sera un facteur clé pour les futures applications de reconnaissance d’actions. Toutes les méthodes proposées dans cette thèse sont prêtes à fonctionner en temps-réel. Nous avons prouvé notre affirmation empiriquement en créant un système temps-réel de détection d’actions. Ce système a été adapté avec succès par la compagnie Toyota pour leurs systèmes robotiques. Pour l’évaluation, nous nous concentrons sur les actions quotidiennes à la maison telles que : manger, boire ou cuisiner. La reconnaissance de telles actions est importante pour le suivi des patients à l’hôpital et pour les systèmes d’aide robotisée à domicile. Dans ce but, nous avons créé une grande base de données, qui contient 160 heures d’enregistrement de 20 personnes âgées. Les vidéos ont été enregistrées dans 3 chambres avec7 capteurs RGB-D. Nous avons annoté ces vidéos avec 28 classes d’actions. Les actions dans la base de données sont effectuées d’une manière naturelle et non supervisée, ce qui introduit des défis manquants dans les bases de données publiques. Nous évaluons aussi nos méthodes en utilisant les bases de données publiques : CAD60, CAD120 et MSRDailyActivity3D. Les expérimentations montrent que nos méthodes améliorent les résultats de l’état de l’art. / This thesis targets recognition of human actions in videos. This problem can be defined as the ability to name the action that occurs in the video. Due to the complexity of human actions such as appearance and motion pattern variations, many open questions keep action recognition far from being solved. Current state-of-the-art methods achieved satisfactory results based only on local features. To handle complexity of actions we propose 2 methods which model spatio-temporal relationship between features: (1) model a pairwise relationship between features with Brownian Covariance, (2) model spatial-layout of features w.r.t. person bounding box. Our methods are generic and can improve both hand-crafted and deep-learning based methods. Another question is whether 3D information can improve action recognition. Many methods use 3D information only to obtain body joints. We show that 3D information can be used not only for joints detection. We propose a novel descriptor which introduces 3D trajectories computed on RGB-D information. In the evaluation, we focus on daily living actions -- performed by people in daily self-care routine. Recognition of such actions is important for patient monitoring and assistive robots systems. To evaluate our methods we created a large-scale dataset, which consists of 160~hours of video footage of 20~seniors. We have annotated 35 action classes. The actions are performed in un-acted way, thus we introduce real-world challenges, absent in many public datasets. We also evaluated our methods on public datasets: CAD60, CAD120, MSRDailyActivity3D. THe experiments show that our methods improve state-of-the-art results. Vision par ordinateur Reconnaissance d'actions Computer vision Action recognition Machine learning
119	Caractérisation et utilisation d'un système avancé d'aide à la conduite en condition hivernale Ziadia, Marwa January 2020 (has links) (PDF) No description available. UQTR Génie mécanique Système d'assistance à la conduite Intelligence artificielle Vision par ordinateur Sécurité automobile Conditions météorologiques Modélisation
120	Distance metric learning for image and webpage comparison / Apprentissage de distance pour la comparaison d'images et de pages Web Law, Marc Teva 20 January 2015 (has links) Cette thèse se focalise sur l'apprentissage de distance pour la comparaison d'images ou de pages Web. Les distances (ou métriques) sont exploitées dans divers contextes de l'apprentissage automatique et de la vision artificielle tels que la recherche des k plus proches voisins, le partitionnement, les machines à vecteurs de support, la recherche d'information/images, la visualisation etc. Nous nous intéressons dans cette thèse à l'apprentissage de fonction de distance paramétrée par une matrice symétrique semi-définie positive. Ce modèle, appelé (par abus) apprentissage de distance de Mahalanobis, consiste à apprendre une transformation linéaire des données telle que la distance euclidienne dans l'espace projeté appris satisfasse les contraintes d'apprentissage.Premièrement, nous proposons une méthode basée sur la comparaison de distances relatives qui prend en compte des relations riches entre les données, et exploite des similarités entre quadruplets d'exemples. Nous appliquons cette méthode aux attributs relatifs et à la classification hiérarchique d'images.Deuxièmement, nous proposons une nouvelle méthode de régularisation qui permet de contrôler le rang de la matrice apprise, limitant ainsi le nombre de paramètres indépendants appris et le sur-apprentissage. Nous montrons l'intérêt de notre méthode sur des bases synthétiques et réelles d'identification de visage.Enfin, nous proposons une nouvelle méthode de détection automatique de changement dans les pages Web, dans un contexte d'archivage. Pour cela, nous utilisons les relations de distance temporelle entre différentes versions d'une même page Web. La métrique apprise de façon entièrement non supervisée détecte les régions d'intérêt de la page et ignore le contenu non informatif tel que les menus et publicités. Nous montrons l'intérêt de la méthode sur différents sites Web. / This thesis focuses on distance metric learning for image and webpage comparison. Distance metrics are used in many machine learning and computer vision contexts such as k-nearest neighbors classification, clustering, support vector machine, information/image retrieval, visualization etc. In this thesis, we focus on Mahalanobis-like distance metric learning where the learned model is parametered by a symmetric positive semidefinite matrix. It learns a linear tranformation such that the Euclidean distance in the induced projected space satisfies learning constraints.First, we propose a method based on comparison between relative distances that takes rich relations between data into account, and exploits similarities between quadruplets of examples. We apply this method on relative attributes and hierarchical image classification. Second, we propose a new regularization method that controls the rank of the learned matrix, limiting the number of independent parameters and overfitting. We show the interest of our method on synthetic and real-world recognition datasets. Eventually, we propose a novel Webpage change detection framework in a context of archiving. For this purpose, we use temporal distance relations between different versions of a same Webpage. The metric learned in a totally unsupervised way detects important regions and ignores unimportant content such as menus and advertisements. We show the interest of our method on different Websites. Apprentissage de métrique Reconnaissance d'image Vision par ordinateur Régularisation Fantope Distance Metric learning Images recognition 006.6

Search results