Global ETD Search

371	Conditional generative modeling for images, 3D animations, and video Voleti, Vikram 07 1900 (has links) Generative modeling for computer vision has shown immense progress in the last few years, revolutionizing the way we perceive, understand, and manipulate visual data. This rapidly evolving field has witnessed advancements in image generation, 3D animation, and video prediction that unlock diverse applications across multiple fields including entertainment, design, healthcare, and education. As the demand for sophisticated computer vision systems continues to grow, this dissertation attempts to drive innovation in the field by exploring novel formulations of conditional generative models, and innovative applications in images, 3D animations, and video. Our research focuses on architectures that offer reversible transformations of noise and visual data, and the application of encoder-decoder architectures for generative tasks and 3D content manipulation. In all instances, we incorporate conditional information to enhance the synthesis of visual data, improving the efficiency of the generation process as well as the generated content. Prior successful generative techniques which are reversible between noise and data include normalizing flows and denoising diffusion models. The continuous variant of normalizing flows is powered by Neural Ordinary Differential Equations (Neural ODEs), and have shown some success in modeling the real image distribution. However, they often involve huge number of parameters, and high training time. Denoising diffusion models have recently gained huge popularity for their generalization capabilities especially in text-to-image applications. In this dissertation, we introduce the use of Neural ODEs to model video dynamics using an encoder-decoder architecture, demonstrating their ability to predict future video frames despite being trained solely to reconstruct current frames. In our next contribution, we propose a conditional variant of continuous normalizing flows that enables higher-resolution image generation based on lower-resolution input. This allows us to achieve comparable image quality to regular normalizing flows, while significantly reducing the number of parameters and training time. Our next contribution focuses on a flexible encoder-decoder architecture for accurate estimation and editing of full 3D human pose. We present a comprehensive pipeline that takes human images as input, automatically aligns a user-specified 3D human/non-human character with the pose of the human, and facilitates pose editing based on partial input information. We then proceed to use denoising diffusion models for image and video generation. Regular diffusion models involve the use of a Gaussian process to add noise to clean images. In our next contribution, we derive the relevant mathematical details for denoising diffusion models that use non-isotropic Gaussian processes, present non-isotropic noise, and show that the quality of generated images is comparable with the original formulation. In our final contribution, devise a novel framework building on denoising diffusion models that is capable of solving all three video tasks of prediction, generation, and interpolation. We perform ablation studies using this framework, and show state-of-the-art results on multiple datasets. Our contributions are published articles at peer-reviewed venues. Overall, our research aims to make a meaningful contribution to the pursuit of more efficient and flexible generative models, with the potential to shape the future of computer vision. / La modélisation générative pour la vision par ordinateur a connu d’immenses progrès ces dernières années, révolutionnant notre façon de percevoir, comprendre et manipuler les données visuelles. Ce domaine en constante évolution a connu des avancées dans la génération d’images, l’animation 3D et la prédiction vidéo, débloquant ainsi diverses applications dans plusieurs domaines tels que le divertissement, le design, la santé et l’éducation. Alors que la demande de systèmes de vision par ordinateur sophistiqués ne cesse de croître, cette thèse s’efforce de stimuler l’innovation dans le domaine en explorant de nouvelles formulations de modèles génératifs conditionnels et des applications innovantes dans les images, les animations 3D et la vidéo. Notre recherche se concentre sur des architectures offrant des transformations réversibles du bruit et des données visuelles, ainsi que sur l’application d’architectures encodeur-décodeur pour les tâches génératives et la manipulation de contenu 3D. Dans tous les cas, nous incorporons des informations conditionnelles pour améliorer la synthèse des données visuelles, améliorant ainsi l’efficacité du processus de génération ainsi que le contenu généré. Les techniques génératives antérieures qui sont réversibles entre le bruit et les données et qui ont connu un certain succès comprennent les flux de normalisation et les modèles de diffusion de débruitage. La variante continue des flux de normalisation est alimentée par les équations différentielles ordinaires neuronales (Neural ODEs) et a montré une certaine réussite dans la modélisation de la distribution d’images réelles. Cependant, elles impliquent souvent un grand nombre de paramètres et un temps d’entraînement élevé. Les modèles de diffusion de débruitage ont récemment gagné énormément en popularité en raison de leurs capacités de généralisation, notamment dans les applications de texte vers image. Dans cette thèse, nous introduisons l’utilisation des Neural ODEs pour modéliser la dynamique vidéo à l’aide d’une architecture encodeur-décodeur, démontrant leur capacité à prédire les images vidéo futures malgré le fait d’être entraînées uniquement à reconstruire les images actuelles. Dans notre prochaine contribution, nous proposons une variante conditionnelle des flux de normalisation continus qui permet une génération d’images à résolution supérieure à partir d’une entrée à résolution inférieure. Cela nous permet d’obtenir une qualité d’image comparable à celle des flux de normalisation réguliers, tout en réduisant considérablement le nombre de paramètres et le temps d’entraînement. Notre prochaine contribution se concentre sur une architecture encodeur-décodeur flexible pour l’estimation et l’édition précises de la pose humaine en 3D. Nous présentons un pipeline complet qui prend des images de personnes en entrée, aligne automatiquement un personnage 3D humain/non humain spécifié par l’utilisateur sur la pose de la personne, et facilite l’édition de la pose en fonction d’informations partielles. Nous utilisons ensuite des modèles de diffusion de débruitage pour la génération d’images et de vidéos. Les modèles de diffusion réguliers impliquent l’utilisation d’un processus gaussien pour ajouter du bruit aux images propres. Dans notre prochaine contribution, nous dérivons les détails mathématiques pertinents pour les modèles de diffusion de débruitage qui utilisent des processus gaussiens non isotropes, présentons du bruit non isotrope, et montrons que la qualité des images générées est comparable à la formulation d’origine. Dans notre dernière contribution, nous concevons un nouveau cadre basé sur les modèles de diffusion de débruitage, capable de résoudre les trois tâches vidéo de prédiction, de génération et d’interpolation. Nous réalisons des études d’ablation en utilisant ce cadre et montrons des résultats de pointe sur plusieurs ensembles de données. Nos contributions sont des articles publiés dans des revues à comité de lecture. Dans l’ensemble, notre recherche vise à apporter une contribution significative à la poursuite de modèles génératifs plus efficaces et flexibles, avec le potentiel de façonner l’avenir de la vision par ordinateur. Deep neural networks Generative modeling Artificial Intelligence Machine learning normalizing flows Denoising diffusion models Apprentissage profond Vision par ordinateur Modèles génératifs Apprentissage de la représentation Modèles de diffusion
372	Stéréophotométrie non-calibrée de surfaces non-Lambertiennes. Application à la reconstruction de surface de colonies microbiennes Kyrgyzova, Khrystyna 22 July 2014 (has links) (PDF) La thèse est dédiée au problème de la stéréophotométrie non-Lambertienne sans connaissance a priori sur les conditions d'illumination et son application aux images de boîte de Pétri. Pour obtenir une bonne reconstruction de surfaces non-Lambertiennes, il est proposé de traiter une séquence d'entrée en deux étapes: premièrement il faut supprimer les effets spéculaires et obtenir ainsi des images de surface 'pseudo-Lambertienne'. Ensuite dans une deuxième étape à partir de ces images une reconstruction stéréophotométrique Lambertienne sans aucune information préalable sur les directions d'illumination est effectuée. Dans ce travail nous proposons deux méthodes originales respectivement pour la suppression de spécularités et la reconstruction de surface sans information a priori. Les méthodes proposées sont appliquées pour la caractérisation des colonies microbiennes.La spécularités est un effet optique lié à la nature physique complexe des objets. Il est utile pour la perception humaine des objets 3D mais il gêne le processus de traitement automatique d'images. Pour pouvoir appliquer le modèle Lambertien à la stéréophotométrie, les spécularités doivent être supprimées des images d'entrée. Nous proposons donc une méthode originale pour la correction des zones spéculaires adaptée pour une reconstruction ultérieure. L'algorithme proposé est capable de détecter les spécularités comme des valeurs anormalement élevées d'intensité dans une image de la séquence d'entrée, et de les corriger en utilisant les informations des autres images de la séquence et une fonction de correction continue. Cette méthode permet de faire la suppression des spécularités en préservant toutes les autres particularités de distribution de lumière qui sont importantes pour la reconstruction de surface.Après nous proposons une technique de reconstruction stéréophotométrique de surface Lambertienne sans connaissance a priori sur l'illumination. Le modèle mis en œuvre consiste en quatre composantes, deux composantes (albédo et normales) permettent de d'écrire des propriétés de surface et deux autres (intensités des sources de lumière et leurs directions) décrivent illumination. L'algorithme proposé de reconstruction utilise le principe de l'optimisation alternée. Chaque composante du modèle est trouvée itérativement en fixant toutes les variables sauf une et en appliquant des contraintes de structures, valeurs et qualité pour la fonction d'optimisation. Un schéma original de résolution permet de séparer les différents types d'information inclus dans les images d'entrée. Grâce à cette factorisation de matrices, la reconstruction de surface est faite sans connaissance préalable sur les directions de lumière et les propriétés de l'objet reconstruit. L'applicabilité de l'algorithme est prouvée pour des donnés artificielles et des images de bases publiques pour lesquelles la vérité terrain sur les surfaces des objets est disponible.La dernière partie de la thèse est dédiée à l'application de la chaine complète proposée pour le traitement d'images de boîte de Pétri. Ces images sont obtenues en utilisant les sources de lumières complexes qui sont supposées être inconnues pour le processus de reconstruction. L'évaluation de surfaces de colonies microbiennes s'est révélée être une étape importante pour l'analyse visuelle et automatique des colonies. La chaine proposée est efficace pour ce type de données et permet de compléter les informations d'images par de la surface 3D. [SDV:BIO] Life Sciences/Biotechnology Stéréophotométrie Modèles de réflexion non-Lambertiens Suppression de spécularités Optimisation alternée sous contraintes
373	Comparing of radial and tangencial geometric for cylindric panorama Amjadi, Faezeh 11 1900 (has links) Cameras generally have a field of view only large enough to capture a portion of their surroundings. The goal of immersion is to replace many of your senses with virtual ones, so that the virtual environment will feel as real as possible. Panoramic cameras are used to capture the entire 360°view, also known as panoramic images.Virtual reality makes use of these panoramic images to provide a more immersive experience compared to seeing images on a 2D screen. This thesis, which is in the field of Computer vision, focuses on establishing a multi-camera geometry to generate a cylindrical panorama image and successfully implementing it with the cheapest cameras possible. The specific goal of this project is to propose the cameras geometry which will decrease artifact problems related to parallax in the panorama image. We present a new approach of cylindrical panoramic images from multiple cameras which its setup has cameras placed evenly around a circle. Instead of looking outward, which is the traditional ”radial” configuration, we propose to make the optical axes tangent to the camera circle, a ”tangential” configuration. Beside an analysis and comparison of radial and tangential geometries, we provide an experimental setup with real panoramas obtained in realistic conditions / Les caméras ont généralement un champ de vision à peine assez grand pour capturer partie de leur environnement. L’objectif de l’immersion est de remplacer virtuellement un grand nombre de sens, de sorte que l’environnement virtuel soit perçu comme le plus réel possible. Une caméra panoramique est utilisée pour capturer l’ensemble d’une vue 360°, également connue sous le nom d’image panoramique. La réalité virtuelle fait usage de ces images panoramiques pour fournir une expérience plus immersive par rapport aux images sur un écran 2D. Cette thèse, qui est dans le domaine de la vision par ordinateur, s’intéresse à la création d’une géométrie multi-caméras pour générer une image cylindrique panoramique et vise une mise en œuvre avec les caméras moins chères possibles. L’objectif spécifique de ce projet est de proposer une géométrie de caméra qui va diminuer au maximum les problèmes d’artefacts liés au parallaxe présent dans l’image panoramique. Nous présentons une nouvelle approche de capture des images panoramiques cylindriques à partir de plusieurs caméras disposées uniformément autour d’un cercle. Au lieu de regarder vers l’extérieur, ce qui est la configuration traditionnelle ”radiale”, nous proposons de rendre les axes optiques tangents au cercle des caméras, une configuration ”tangentielle”. Outre une analyse et la comparaison des géométries radiales et tangentielles, nous fournissons un montage expérimental avec de vrais panoramas obtenus dans des conditions réalistes Vision par ordinateur Imagerie panoramique Panoramas cylindriques Calibrage Capture immersive Parallaxe Géométrie multi-caméra tangentielle Géométrie multi-caméra radiale Computer vision Panoramic imaging Cylindrical panoramas Calibration Immersive capture Parallax Tangential camera model Radial camera model
374	Analyse de mouvements faciaux à partir d'images vidéo Dahmane, Mohamed 12 1900 (has links) Lors d'une intervention conversationnelle, le langage est supporté par une communication non-verbale qui joue un rôle central dans le comportement social humain en permettant de la rétroaction et en gérant la synchronisation, appuyant ainsi le contenu et la signification du discours. En effet, 55% du message est véhiculé par les expressions faciales, alors que seulement 7% est dû au message linguistique et 38% au paralangage. L'information concernant l'état émotionnel d'une personne est généralement inférée par les attributs faciaux. Cependant, on ne dispose pas vraiment d'instruments de mesure spécifiquement dédiés à ce type de comportements. En vision par ordinateur, on s'intéresse davantage au développement de systèmes d'analyse automatique des expressions faciales prototypiques pour les applications d'interaction homme-machine, d'analyse de vidéos de réunions, de sécurité, et même pour des applications cliniques. Dans la présente recherche, pour appréhender de tels indicateurs observables, nous essayons d'implanter un système capable de construire une source consistante et relativement exhaustive d'informations visuelles, lequel sera capable de distinguer sur un visage les traits et leurs déformations, permettant ainsi de reconnaître la présence ou absence d'une action faciale particulière. Une réflexion sur les techniques recensées nous a amené à explorer deux différentes approches. La première concerne l'aspect apparence dans lequel on se sert de l'orientation des gradients pour dégager une représentation dense des attributs faciaux. Hormis la représentation faciale, la principale difficulté d'un système, qui se veut être général, est la mise en œuvre d'un modèle générique indépendamment de l'identité de la personne, de la géométrie et de la taille des visages. La démarche qu'on propose repose sur l'élaboration d'un référentiel prototypique à partir d'un recalage par SIFT-flow dont on démontre, dans cette thèse, la supériorité par rapport à un alignement conventionnel utilisant la position des yeux. Dans une deuxième approche, on fait appel à un modèle géométrique à travers lequel les primitives faciales sont représentées par un filtrage de Gabor. Motivé par le fait que les expressions faciales sont non seulement ambigües et incohérentes d'une personne à une autre mais aussi dépendantes du contexte lui-même, à travers cette approche, on présente un système personnalisé de reconnaissance d'expressions faciales, dont la performance globale dépend directement de la performance du suivi d'un ensemble de points caractéristiques du visage. Ce suivi est effectué par une forme modifiée d'une technique d'estimation de disparité faisant intervenir la phase de Gabor. Dans cette thèse, on propose une redéfinition de la mesure de confiance et introduisons une procédure itérative et conditionnelle d'estimation du déplacement qui offrent un suivi plus robuste que les méthodes originales. / In a face-to-face talk, language is supported by nonverbal communication, which plays a central role in human social behavior by adding cues to the meaning of speech, providing feedback, and managing synchronization. Information about the emotional state of a person is usually carried out by facial attributes. In fact, 55% of a message is communicated by facial expressions whereas only 7% is due to linguistic language and 38% to paralanguage. However, there are currently no established instruments to measure such behavior. The computer vision community is therefore interested in the development of automated techniques for prototypic facial expression analysis, for human computer interaction applications, meeting video analysis, security and clinical applications. For gathering observable cues, we try to design, in this research, a framework that can build a relatively comprehensive source of visual information, which will be able to distinguish the facial deformations, thus allowing to point out the presence or absence of a particular facial action. A detailed review of identified techniques led us to explore two different approaches. The first approach involves appearance modeling, in which we use the gradient orientations to generate a dense representation of facial attributes. Besides the facial representation problem, the main difficulty of a system, which is intended to be general, is the implementation of a generic model independent of individual identity, face geometry and size. We therefore introduce a concept of prototypic referential mapping through a SIFT-flow registration that demonstrates, in this thesis, its superiority to the conventional eyes-based alignment. In a second approach, we use a geometric model through which the facial primitives are represented by Gabor filtering. Motivated by the fact that facial expressions are not only ambiguous and inconsistent across human but also dependent on the behavioral context; in this approach, we present a personalized facial expression recognition system whose overall performance is directly related to the localization performance of a set of facial fiducial points. These points are tracked through a sequence of video frames by a modification of a fast Gabor phase-based disparity estimation technique. In this thesis, we revisit the confidence measure, and introduce an iterative conditional procedure for displacement estimation that improves the robustness of the original methods. Vision par ordinateur Computer vision Traitement d'images Image processing Reconnaissance d'expressions faciales Facial expression recognition Analyse d'émotions Emotion analysis Analyse de visages Face analysis Feature representation Filtrage de Gabor Gabor filtering Recalage Registration Suivi de cibles Tracking
375	Détection de chute à l'aide d'une caméra de profondeur Alla, Jules-Ryane S. 04 1900 (has links) Les chutes chez les personnes âgées représentent un problème important de santé publique. Des études montrent qu’environ 30 % des personnes âgées de 65 ans et plus chutent chaque année au Canada, entraînant des conséquences néfastes sur les plans individuel, familiale et sociale. Face à une telle situation la vidéosurveillance est une solution efficace assurant la sécurité de ces personnes. À ce jour de nombreux systèmes d’assistance de services à la personne existent. Ces dispositifs permettent à la personne âgée de vivre chez elle tout en assurant sa sécurité par le port d'un capteur. Cependant le port du capteur en permanence par le sujet est peu confortable et contraignant. C'est pourquoi la recherche s’est récemment intéressée à l’utilisation de caméras au lieu de capteurs portables. Le but de ce projet est de démontrer que l'utilisation d'un dispositif de vidéosurveillance peut contribuer à la réduction de ce fléau. Dans ce document nous présentons une approche de détection automatique de chute, basée sur une méthode de suivi 3D du sujet en utilisant une caméra de profondeur (Kinect de Microsoft) positionnée à la verticale du sol. Ce suivi est réalisé en utilisant la silhouette extraite en temps réel avec une approche robuste d’extraction de fond 3D basée sur la variation de profondeur des pixels dans la scène. Cette méthode se fondera sur une initialisation par une capture de la scène sans aucun sujet. Une fois la silhouette extraite, les 10% de la silhouette correspondant à la zone la plus haute de la silhouette (la plus proche de l'objectif de la Kinect) sera analysée en temps réel selon la vitesse et la position de son centre de gravité. Ces critères permettront donc après analyse de détecter la chute, puis d'émettre un signal (courrier ou texto) vers l'individu ou à l’autorité en charge de la personne âgée. Cette méthode a été validée à l’aide de plusieurs vidéos de chutes simulées par un cascadeur. La position de la caméra et son information de profondeur réduisent de façon considérable les risques de fausses alarmes de chute. Positionnée verticalement au sol, la caméra permet donc d'analyser la scène et surtout de procéder au suivi de la silhouette sans occultation majeure, qui conduisent dans certains cas à des fausses alertes. En outre les différents critères de détection de chute, sont des caractéristiques fiables pour différencier la chute d'une personne, d'un accroupissement ou d'une position assise. Néanmoins l'angle de vue de la caméra demeure un problème car il n'est pas assez grand pour couvrir une surface conséquente. Une solution à ce dilemme serait de fixer une lentille sur l'objectif de la Kinect permettant l’élargissement de la zone surveillée. / Elderly falls are a major public health problem. Studies show that about 30% of people aged 65 and older fall each year in Canada, with negative consequences on individuals, their families and our society. Faced with such a situation a video surveillance system is an effective solution to ensure the safety of these people. To this day many systems support services to the elderly. These devices allow the elderly to live at home while ensuring their safety by wearing a sensor. However the sensor must be worn at all times by the subject which is uncomfortable and restrictive. This is why research has recently been interested in the use of cameras instead of wearable sensors. The goal of this project is to demonstrate that the use of a video surveillance system can help to reduce this problem. In this thesis we present an approach for automatic detection of falls based on a method for tracking 3D subject using a depth camera (Kinect from Microsoft) positioned vertically to the ground. This monitoring is done using the silhouette extracted in real time with a robust approach for extracting 3D depth based on the depth variation of the pixels in the scene. This method is based on an initial capture the scene without any body. Once extracted, 10% of the silhouette corresponding to the uppermost region (nearest to the Kinect) will be analyzed in real time depending on the speed and the position of its center of gravity . These criteria will be analysed to detect the fall, then a signal (email or SMS) will be transmitted to an individual or to the authority in charge of the elderly. This method was validated using several videos of a stunt simulating falls. The camera position and depth information reduce so considerably the risk of false alarms. Positioned vertically above the ground, the camera makes it possible to analyze the scene especially for tracking the silhouette without major occlusion, which in some cases lead to false alarms. In addition, the various criteria for fall detection, are reliable characteristics for distinguishing the fall of a person, from squatting or sitting. Nevertheless, the angle of the camera remains a problem because it is not large enough to cover a large surface. A solution to this dilemma would be to fix a lens on the objective of the Kinect for the enlargement of the field of view and monitored area. Vision par ordinateur Vidéo surveillance Détection de chutes Détection de mouvement Suivi d’une cible Kinect Caméra de profondeur Analyse de mouvement Computer vision Video surveillance Fall detection Motion detection Tracking Shape analysis Depth camera Motion analysis
376	Roadmark reconstruction from stereo-images acquired by a ground-based mobile mapping system / Reconstruction de marquages routiers à partir d'images terrestres Soheilian, Bahman 01 April 2008 (has links) Malgré les récentes avancées des Systèmes de Cartographie Mobile, la reconstruction automatique d’objets à partir des données acquises est encore un point crucial. Dans cette thèse, nous nous intéresserons en particulier à la reconstruction tridimensionnelle du marquage au sol à partir d’images acquises sur le réseau routier par une base stéréoscopique horizontale d’un système de cartographie mobile, dans un contexte urbain dense. Une nouvelle approche s’appuyant sur la connaissance de la géométrie 3D des marquages au sol est présentée, conduisant à une précision de reconstruction 3D centimétrique avec un faible niveau de généralisation. Deux objets de la signalisation routière horizontale sont étudiés : les passages piétons et les lignes blanches discontinues. La stratégie générale est composée de trois grandes étapes. La première d’entre elles permet d’obtenir des chaînes de contours 3D. Les contours sont extraits dans les images gauche et droite. Ensuite, un algorithme reposant sur une optimisation par programmation dynamique est mis en oeuvre pour apparier les points de contours des deux images. Un post-traitement permet un appariement sub-pixellique, et, les chaînes de contours 3D sont finalement obtenues par une triangulation photogrammétrique classique. La seconde étape fait intervenir les spécifications géométriques des marquages au sol pour réaliser un filtrage des chaînes de contours 3D. Elle permet de déterminer des candidats pour les objets du marquage au sol. La dernière étape peut être vue comme une validation permettant de rejeter ou d’accepter ces hypothèses. Les candidats retenus sont alors reconstruits finement. Pour chaque bande d’un passage piéton ou d’une ligne discontinue, le modèle est un quasi-parallélogramme. Une contrainte de planéité est imposée aux sommets de chaque bande, ce qui n’est pas le cas pour l’ensemble des bandes formant un marquage au sol particulier. La méthode est évaluée sur un ensemble de 150 paires d’images acquises en centre ville dans des conditions normales de trafic. Les résultats montrent la validité de notre stratégie en terme de robustesse, de complétude et de précision géométrique. La méthode est robuste et permet de gérer les occultations partielles ainsi que les marquages usés ou abîmés. Le taux de détection atteint 90% et la précision de reconstruction 3D est de l’ordre de 2 à 4 cm. Finalement, une application de la reconstruction des marquages au sol est présentée : le géoréférencement du système d’acquisition. La majorité des systèmes de cartographie mobile utilisent des capteurs de géoréférencement direct comme un couplage GPS/INS pour leur localisation. Cependant, en milieu urbain dense, les masques et les multi-trajets corrompent les mesures et conduisent à une précision d’environ 50 cm. Afin d’améliorer la qualité de localisation, nous cherchons à apparier les images terrestres avec des images aériennes calibrées de la même zone. Les marquages au sol sont alors utilisés comme objets d’appariement. La validité de la méthode est démontrée sur un exemple de passage piéton / Despite advances in ground-based Mobile Mapping System (MMS), automatic feature reconstruction seems far from being reached. In this thesis, we focus on 3D roadmark reconstruction from images acquired by road looking cameras of a MMS stereo-rig in dense urban context. A new approach is presented, that uses 3D geometric knowledge of roadmarks and provides a centimetric 3D accuracy with a low level of generalisation. Two classes of roadmarks are studied: zebra-crossing and dashed-lines. The general strategy consists in three main steps. The first step provides 3D linked-edges. Edges are extracted in the left and right images. Then a matching algorithm that is based on dynamic programming optimisation matches the edges between the two images. A sub-pixel matching is computed by post processing and 3D linked-edges are provided by classical photogrammetric triangulation. The second step uses the known specification of roadmarks to perform a signature based filtering of 3D linked-edges. This step provides hypothetical candidates for roadmark objects. The last step can be seen as a validation step that rejects or accepts the candidates. The validated candidates are finely reconstructed. The adopted model consists of a quasi parallelogram for each strip of zebra-crossing or dashed-line. Each strip is constrained to be flat but the roadmark as a whole is not planar. The method is evaluated on a set of 150 stereo-pairs acquired in a real urban area under normal traffic conditions. The results show the validity of the approach in terms of robustness, completeness and geometric accuracy. The method is robust and deals properly with partially occluded roadmarks as well as damaged or eroded ones. The detection rate reaches 90% and the 3D accuracy is about 2-4 cm. Finally an application of reconstructed roadmarks is presented. They are used in georeferencing of the system. Most of the MMSs use direct georeferencing devices such as GPS/INS for their localisation. However in urban areas masks and multi-path errors corrupt the measurements and provide only 50 cm accuracy. In order to improve the localisation quality, we aim at matching ground-based images with calibrated aerial images of the same area. For this purpose roadmarks are used as matching objects. The validity of this method is demonstrated on a zebra-crossing example Photogrammétrie Vision par ordinateur Système de cartographie mobile Appariement de contours Reconstruction 3D Modélisation 3D Géoréférencement à partir des images Route Marquage au sol Passage piéton Lignes blanches discontinues Routes -- Marques Photogrammetry Computer vision Mobile mapping system Edge matching 3D reconstruction 3D modelling Image-based georeferencing Road Roadmark Zebracrossing Dashed-line
377	Traitement d’images de microscopie confocale 3D haute résolution du cerveau de la mouche Drosophile / Three-dimensional image analysis of high resolution confocal microscopy data of the Drosophila melanogaster brain Murtin, Chloé Isabelle 20 September 2016 (has links) La profondeur possible d’imagerie en laser-scanning microscopie est limitée non seulement par la distance de travail des lentilles de objectifs mais également par la dégradation de l’image causée par une atténuation et une diffraction de la lumière passant à travers l’échantillon. Afin d’étendre cette limite, il est possible, soit de retourner le spécimen pour enregistrer les images depuis chaque côté, or couper progressivement la partie supérieure de l’échantillon au fur et à mesure de l‘acquisition. Les différentes images prises de l’une de ces manières doivent ensuite être combinées pour générer un volume unique. Cependant, des mouvements de l’échantillon durant les procédures d’acquisition engendrent un décalage non seulement sur en translation selon les axes x, y et z mais également en rotation autour de ces même axes, rendant la fusion entres ces multiples images difficile. Nous avons développé une nouvelle approche appelée 2D-SIFT-in-3D-Space utilisant les SIFT (scale Invariant Feature Transform) pour atteindre un recalage robuste en trois dimensions de deux images. Notre méthode recale les images en corrigeant séparément les translations et rotations sur les trois axes grâce à l’extraction et l’association de caractéristiques stables de leurs coupes transversales bidimensionnelles. Pour évaluer la qualité du recalage, nous avons également développé un simulateur d’images de laser-scanning microscopie qui génère une paire d’images 3D virtuelle dans laquelle le niveau de bruit et les angles de rotations entre les angles de rotation sont contrôlés avec des paramètres connus. Pour une concaténation précise et naturelle de deux images, nous avons également développé un module permettant une compensation progressive de la luminosité et du contraste en fonction de la distance à la surface de l’échantillon. Ces outils ont été utilisés avec succès pour l’obtention d’images tridimensionnelles de haute résolution du cerveau de la mouche Drosophila melanogaster, particulièrement des neurones dopaminergiques, octopaminergiques et de leurs synapses. Ces neurones monoamines sont particulièrement important pour le fonctionnement du cerveau et une étude de leur réseau et connectivité est nécessaire pour comprendre leurs interactions. Si une évolution de leur connectivité au cours du temps n’a pas pu être démontrée via l’analyse de la répartition des sites synaptiques, l’étude suggère cependant que l’inactivation de l’un de ces types de neurones entraine des changements drastiques dans le réseau neuronal. / Although laser scanning microscopy is a powerful tool for obtaining thin optical sections, the possible depth of imaging is limited by the working distance of the microscope objective but also by the image degradation caused by the attenuation of both excitation laser beam and the light emitted from the fluorescence-labeled objects. Several workaround techniques have been employed to overcome this problem, such as recording the images from both sides of the sample, or by progressively cutting off the sample surface. The different views must then be combined in a unique volume. However, a straightforward concatenation is often not possible, because the small rotations that occur during the acquisition procedure, not only in translation along x, y and z axes but also in rotation around those axis, making the fusion uneasy. To address this problem we implemented a new algorithm called 2D-SIFT-in-3D-Space using SIFT (scale Invariant Feature Transform) to achieve a robust registration of big image stacks. Our method register the images fixing separately rotations and translations around the three axes using the extraction and matching of stable features in 2D cross-sections. In order to evaluate the registration quality, we created a simulator that generates artificial images that mimic laser scanning image stacks to make a mock pair of image stacks one of which is made from the same stack with the other but is rotated arbitrarily with known angles and filtered with a known noise. For a precise and natural-looking concatenation of the two images, we also developed a module progressively correcting the sample brightness and contrast depending on the sample surface. Those tools we successfully used to generate tridimensional high resolution images of the fly Drosophila melanogaster brain, in particular, its octopaminergic and dopaminergic neurons and their synapses. Those monoamine neurons appear to be determinant in the correct operating of the central nervous system and a precise and systematic analysis of their evolution and interaction is necessary to understand its mechanisms. If an evolution over time could not be highlighted through the pre-synaptic sites analysis, our study suggests however that the inactivation of one of these neuron types triggers drastic changes in the neural network. Imagerie 3D Drosphila melanogaster Cerveau Microscopie confocale Connectomique 2D-SIFT-In-3D-Space SIFT - scale-Invariant feature transform Vision par ordinateur Recalage d'images 3D Imaging Drosophila melanogaster Brain Imaging Confocal microscopy Connectomics 2D-SIFT-In-3D-Space SIFT - scale-Invariant feature transform Stitching 502.820 72
378	Évaluation de modèles computationnels de la vision humaine en imagerie par résonance magnétique fonctionnelle / Evaluating Computational Models of Vision with Functional Magnetic Resonance Imaging Eickenberg, Michael 21 September 2015 (has links) L'imagerie par résonance magnétique fonctionnelle (IRMf) permet de mesurer l'activité cérébrale à travers le flux sanguin apporté aux neurones. Dans cette thèse nous évaluons la capacité de modèles biologiquement plausibles et issus de la vision par ordinateur à représenter le contenu d'une image de façon similaire au cerveau. Les principaux modèles de vision évalués sont les réseaux convolutionnels.Les réseaux de neurones profonds ont connu un progrès bouleversant pendant les dernières années dans divers domaines. Des travaux antérieurs ont identifié des similarités entre le traitement de l'information visuelle à la première et dernière couche entre un réseau de neurones et le cerveau. Nous avons généralisé ces similarités en identifiant des régions cérébrales correspondante à chaque étape du réseau de neurones. Le résultat consiste en une progression des niveaux de complexité représentés dans le cerveau qui correspondent à l'architecture connue des aires visuelles: Plus la couche convolutionnelle est profonde, plus abstraits sont ses calculs et plus haut niveau sera la fonction cérébrale qu'elle sait modéliser au mieux. Entre la détection de contours en V1 et la spécificité à l'objet en cortex inférotemporal, fonctions assez bien comprises, nous montrons pour la première fois que les réseaux de neurones convolutionnels de détection d'objet fournissent un outil pour l'étude de toutes les étapes intermédiaires du traitement visuel effectué par le cerveau.Un résultat préliminaire à celui-ci est aussi inclus dans le manuscrit: L'étude de la réponse cérébrale aux textures visuelles et sa modélisation avec les réseaux convolutionnels de scattering.L'autre aspect global de cette thèse sont modèles de “décodage”: Dans la partie précédente, nous prédisions l'activité cérébrale à partir d'un stimulus (modèles dits d’”encodage”). La prédiction du stimulus à partir de l'activité cérébrale est le méchanisme d'inférence inverse et peut servir comme preuve que cette information est présente dans le signal. Le plus souvent, des modèles linéaires généralisés tels que la régression linéaire ou logistique ou les SVM sont utilisés, donnant ainsi accès à une interprétation des coefficients du modèle en tant que carte cérébrale. Leur interprétation visuelle est cependant difficile car le problème linéaire sous-jacent est soit mal posé et mal conditionné ou bien non adéquatement régularisé, résultant en des cartes non-informatives. En supposant une organisation contigüe en espace et parcimonieuse, nous nous appuyons sur la pénalité convexe d'une somme de variation totale et la norme L1 (TV+L1) pour développer une pénalité regroupant un terme d'activation et un terme de dérivée spatiale. Cette pénalité a la propriété de mettre à zéro la plupart des coefficients tout en permettant une variation libre des coefficients dans une zone d'activation, contrairement à TV+L1 qui impose des zones d’activation plates. Cette méthode améliore l'interprétabilité des cartes obtenues dans un schéma de validation croisée basé sur la précision du modèle prédictif.Dans le contexte des modèles d’encodage et décodage nous tâchons à améliorer les prétraitements des données. Nous étudions le comportement du signal IRMf par rapport à la stimulation ponctuelle : la réponse impulsionnelle hémodynamique. Pour générer des cartes d'activation, au lieu d’un modèle linéaire classique qui impose une réponse impulsionnelle canonique fixe, nous utilisons un modèle bilinéaire à réponse hémodynamique variable spatialement mais fixe à travers les événements de stimulation. Nous proposons un algorithme efficace pour l'estimation et montrons un gain en capacité prédictive sur les analyses menées, en encodage et décodage. / Blood-oxygen-level dependent (BOLD) functional magnetic resonance imaging (fMRI) makes it possible to measure brain activity through blood flow to areas with metabolically active neurons. In this thesis we use these measurements to evaluate the capacity of biologically inspired models of vision coming from computer vision to represent image content in a similar way as the human brain. The main vision models used are convolutional networks.Deep neural networks have made unprecedented progress in many fields in recent years. Even strongholds of biological systems such as scene analysis and object detection have been addressed with enormous success. A body of prior work has been able to establish firm links between the first and last layers of deep convolutional nets and brain regions: The first layer and V1 essentially perform edge detection and the last layer as well as inferotemporal cortex permit a linear read-out of object category. In this work we have generalized this correspondence to all intermediate layers of a convolutional net. We found that each layer of a convnet maps to a stage of processing along the ventral stream, following the hierarchy of biological processing: Along the ventral stream we observe a stage-by-stage increase in complexity. Between edge detection and object detection, for the first time we are given a toolbox to study the intermediate processing steps.A preliminary result to this was obtained by studying the response of the visual areas to presentation of visual textures and analysing it using convolutional scattering networks.The other global aspect of this thesis is “decoding” models: In the preceding part, we predicted brain activity from the stimulus presented (this is called “encoding”). Predicting a stimulus from brain activity is the inverse inference mechanism and can be used as an omnibus test for presence of this information in brain signal. Most often generalized linear models such as linear or logistic regression or SVMs are used for this task, giving access to a coefficient vector the same size as a brain sample, which can thus be visualized as a brain map. However, interpretation of these maps is difficult, because the underlying linear system is either ill-defined and ill-conditioned or non-adequately regularized, resulting in non-informative maps. Supposing a sparse and spatially contiguous organization of coefficient maps, we build on the convex penalty consisting of the sum of total variation (TV) seminorm and L1 norm (“TV+L1”) to develop a penalty grouping an activation term with a spatial derivative. This penalty sets most coefficients to zero but permits free smooth variations in active zones, as opposed to TV+L1 which creates flat active zones. This method improves interpretability of brain maps obtained through cross-validation to determine the best hyperparameter.In the context of encoding and decoding models, we also work on improving data preprocessing in order to obtain the best performance. We study the impulse response of the BOLD signal: the hemodynamic response function. To generate activation maps, instead of using a classical linear model with fixed canonical response function, we use a bilinear model with spatially variable hemodynamic response (but fixed across events). We propose an efficient optimization algorithm and show a gain in predictive capacity for encoding and decoding models on different datasets. IRM fonctionnelle Apprentissage statistique Vision par ordinateur Neurosciences Vision (biologique) Optimisation convexe Signal processing Image processing Imagérie médicale Réseaux de neurones artificiels Réseaux de neurones convolutifs Functional MRI Statistical learning/machine learning Computer vision Neuroscience (biological) vision Convex optimization Traitement du signal Traitement d'image Medical imaging Artificial neural networks Convolutional networks
379	Indexation et recherche de similarités avec des descripteurs structurés par coupes d'images sur des graphes / Indexing and Searching for Similarities of Images with Structural Descriptors via Graph-cuttings Methods Ren, Yi 20 November 2014 (has links) Dans cette thèse, nous nous intéressons à la recherche d’images similaires avec des descripteurs structurés par découpages d’images sur les graphes.Nous proposons une nouvelle approche appelée “bag-of-bags of words” (BBoW) pour la recherche d’images par le contenu (CBIR). Il s’agit d’une extension du modèle classique dit sac-de-mots (bag of words - BoW). Dans notre approche, une image est représentée par un graphe placé sur une grille régulière de pixels d’image. Les poids sur les arêtes dépendent de caractéristiques locales de couleur et texture. Le graphe est découpé en un nombre fixe de régions qui constituent une partition irrégulière de l’image. Enfin, chaque partition est représentée par sa propre signature suivant le même schéma que le BoW. Une image est donc décrite par un ensemble de signatures qui sont ensuite combinées pour la recherche d’images similaires dans une base de données. Contrairement aux méthodes existantes telles que Spatial Pyramid Matching (SPM), le modèle BBoW proposé ne repose pas sur l’hypothèse que des parties similaires d’une scène apparaissent toujours au même endroit dans des images d’une même catégorie. L’extension de cette méthode ` a une approche multi-échelle, appelée Irregular Pyramid Matching (IPM), est ´ également décrite. Les résultats montrent la qualité de notre approche lorsque les partitions obtenues sont stables au sein d’une même catégorie d’images. Une analyse statistique est menée pour définir concrètement la notion de partition stable.Nous donnons nos résultats sur des bases de données pour la reconnaissance d’objets, d’indexation et de recherche d’images par le contenu afin de montrer le caractère général de nos contributions / Image representation is a fundamental question for several computer vision tasks. The contributions discussed in this thesis extend the basic bag-of-words representations for the tasks of object recognition and image retrieval.In the present thesis, we are interested in image description by structural graph descriptors. We propose a model, named bag-of-bags of words (BBoW), to address the problems of object recognition (for object search by similarity), and especially Content-Based Image Retrieval (CBIR) from image databases. The proposed BBoW model, is an approach based on irregular pyramid partitions over the image. An image is first represented as a connected graph of local features on a regular grid of pixels. Irregular partitions (subgraphs) of the image are further built by using graph partitioning methods. Each subgraph in the partition is then represented by its own signature. The BBoW model with the aid of graphs, extends the classical bag-of-words (BoW) model by embedding color homogeneity and limited spatial information through irregular partitions of an image. Compared to existing methods for image retrieval, such as Spatial Pyramid Matching (SPM), the BBoW model does not assume that similar parts of a scene always appear at the same location in images of the same category. The extension of the proposed model to pyramid gives rise to a method we named irregular pyramid matching (IPM).The experiments demonstrate the strength of our approach for image retrieval when the partitions are stable across an image category. The statistical analysisof subgraphs is fulfilled in the thesis. To validate our contributions, we report results on three related computer vision datasets for object recognition, (localized)content-based image retrieval and image indexing. The experimental results in a database of 13,044 general-purposed images demonstrate the efficiency and effectiveness of the proposed BBoW framework. Vision par ordinateur Clustering Noyau k-means Appariement de graphes Partitionnement de graphe Coupe de graphes Algorithmes de graphes Segmentation d’Images Analyse d’Image Reconnaissance de formes Computer vision Clustering Kernel k-means Graph matching Graph partitioning Graph Cuts Graph algorithms Image segmentation Image analysis Pattern recognition
380	Mise en Correspondance Robuste et Détection d'Éléments Visuels Appliquées à l'Analyse de Façades Ok, David 25 March 2013 (has links) (PDF) Depuis quelques années, avec l'émergence de larges bases d'images comme Google Street View, la capacité à traiter massivement et automatiquement des données, sou- vent très contaminées par les faux positifs et massivement ambiguës, devient un enjeu stratégique notamment pour la gestion de patrimoine et le diagnostic de l'état de façades de bâtiment. Sur le plan scientifique, ce souci est propre à faire avancer l'état de l'art dans des problèmes fondamentaux de vision par ordinateur. Notamment, nous traitons dans cette thèse les problèmes suivants: la mise en correspondance robuste, algorithmiquement efficace de caractéristiques visuelles et l'analyse d'images de façades par grammaire. L'enjeu est de développer des méthodes qui doivent également être adaptées à des problèmes de grande échelle. Tout d'abord, nous proposons une formalisation mathématique de la cohérence géométrique qui joue un rôle essentiel pour une mise en correspondance robuste de caractéristiques visuelles. À partir de cette formalisation, nous en dérivons un algo- rithme de mise en correspondance qui est algorithmiquement efficace, précise et robuste aux données fortement contaminées et massivement ambiguës. Expérimentalement, l'algorithme proposé se révèle bien adapté à des problèmes de mise en correspondance d'objets déformés, et à des problèmes de mise en correspondance précise à grande échelle pour la calibration de caméras. En s'appuyant sur notre algorithme de mise en correspondance, nous en dérivons ensuite une méthode de recherche d'éléments répétés, comme les fenêtres. Celle-ci s'avère expérimentalement très efficace et robuste face à des conditions difficiles comme la grande variabilité photométrique des éléments répétés et les occlusions. De plus, elle fait également peu d'hallucinations. Enfin, nous proposons des contributions méthodologiques qui exploitent efficacement les résultats de détections d'éléments répétés pour l'analyse de façades par grammaire, qui devient substantiellement plus précise et robuste. vision par ordinateur analyse d'images façades grammaires segmentation sémantique détection d'objets mise en correspondance caractéristiques visuelles éléments répétés ambiguïté massive contamination faux positifs cohérence géométrique contrainte d'ordre 4 cohérence affine locale représentation hiérarchique

Search results