• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 214
  • 149
  • 39
  • Tagged with
  • 405
  • 405
  • 405
  • 286
  • 161
  • 111
  • 109
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
361

Automated assessment of cardiac morphology and function : An integrated B-spline framework for real-time segmentation and tracking of the left ventricle / Caractérisation automatique de la morphologie et de la fonction cardiaque : Une cadre B-spline intégré pour la segmentation et le suivi en temps réel du ventricule gauche

Barbosa, Daniel 28 October 2013 (has links)
L’objectif principal de cette thèse est le développement de techniques de segmentation et de suivi totalement automatisées du ventricule gauche (VG) en RT3DE. Du fait de la nature difficile et complexe des données RT3DE, l’application directe des algorithmes classiques de vision par ordinateur est le plus souvent impossible. Les solutions proposées ont donc été formalisées et implémentées de sorte à satisfaire les contraintes suivantes : elles doivent permettre une analyse complètement automatique (ou presque) et le temps de calcul nécessaire doit être faible afin de pouvoir fonctionner en temps réel pour une utilisation clinique optimale. Dans ce contexte, nous avons donc proposé un nouveau cadre ou les derniers développements en segmentation d’images par ensembles de niveaux peuvent être aisément intégrés, tout en évitant les temps de calcul importants associés à ce type d’algorithmes. La validation clinique de cette approche a été effectuée en deux temps. Tout d’abord, les performances des outils développés ont été évaluées dans un contexte global se focalisant sur l’utilisation en routine clinique. Dans un second temps, la précision de la position estimée du contour du ventricule gauche a été mesurée. Enfin, les méthodes proposées ont été intégrées dans une suite logicielle utilisée à des fins de recherche. Afin de permettre une utilisation quotidienne efficace, des solutions conviviales ont été proposées incluant notamment un outil interactif pour corriger la segmentation du VG. / The fundamental goal of the present thesis was the development of automatic strategies for left ventricular (LV) segmentation and tracking in RT3DE data. Given the challenging nature of RT3DE data, classical computer vision algorithms often face complications when applied to ultrasound. Furthermore, the proposed solutions were formalized and built to respect the following requirements: they should allow (nearly) fully automatic analysis and their computational burden should be low, thus enabling real-time processing for optimal online clinical use. With this in mind, we have proposed a novel segmentation framework where the latest developments in level-set-based image segmentation algorithms could be straightforwardly integrated, while avoiding the heavy computational burden often associated with level-set algorithms. Furthermore, a strong validation component was included in order to assess the performance of the proposed algorithms in realistic scenarios comprising clinical data. First, the performance of the developed tools was evaluated from a global perspective, focusing on its use in clinical daily practice. Secondly, also the spatial accuracy of the estimated left ventricular boundaries was assessed. As a final step, we aimed at the integration of the developed methods in an in-house developed software suite used for research purposes. This included user-friendly solutions for efficient daily use, namely user interactive tools to adjust the segmented left ventricular boundaries.
362

L’espace du geste-son, vers une nouvelle pratique performative

Héon-Morissette, Barah 05 1900 (has links)
Cette thèse en recherche-création est une réflexion sur l’espace du geste-son. La dé- marche artistique de l’auteure, reposant sur six éléments : le corps, le son, le geste, l’image vidéo, l’espace physique et l’espace technologique, a été intégrée dans la conception d’un système de captation de mouvement en vision par ordinateur, le SICMAP (Système In- teractif de Captation du Mouvement en Art Performatif). Cette approche propose une nouvelle pratique performative hybride. Dans un premier temps, l’auteure situe sa démarche artistique en s’appuyant sur les trois piliers de la méthodologie transdisciplinaire : les niveaux de Réalité et de perception (le corps et l’espace-matière), la logique du tiers inclus (l’espace du geste-son) et la com- plexité (éléments du processus de création). Ces concepts transdisciplinaires sont ensuite mis en relation à travers l’analyse d’œuvres arborant un élément commun à la démarche de l’auteure, soit le corps au centre d’un univers sensoriel. L’auteure met ensuite en lumière des éléments relatifs à la pratique scénique susci- tée par cette démarche artistique innovante à travers le corps expressif. Le parcours du performeur-créateur, menant à la conception du SICMAP, est ensuite exposé en passant par une réflexion sur l’« instrument rêvé » et la réalisation de deux interfaces gestuelles pré- paratoires. Sous-entendant une nouvelle gestuelle dans un contexte d’interface sans retour haptique, la typologie du geste instrumental est revisitée dans une approche correspondant au nouveau paradigme de l’espace du geste-son. En réponse à ces recherches, les détails de la mise en œuvre du SICMAP sont ensuite présentés sous l’angle de l’espace technologique et de l’application de l’espace du geste- son. Puis, les compositions réalisées lors du développement du SICMAP sont décrites d’un point de vue artistique et poïétique à travers les éléments fondateurs du processus de création de l’auteure. La conclusion résume les objectifs de cette recherche-création ainsi que les contributions de cette nouvelle pratique performative hybride. / This research-creation thesis is a reflection on the gesture-sound space. The author’s artistic research, based on six elements: body, sound, gesture, video, physical space, and technological space, was integrated in the conception of a motion capture system based on computer vision, the SICMAP (Système Interactif de Captation du Mouvement en Art Performatif – Interactive Motion Capture System For Performative Arts). This approach proposes a new performative hybrid practice. In the first part, the author situates her artistic practice supported by the three pillars of transdisciplinary research methodology: the levels of Reality and perception (the body and space as matter), the logic of the included middle (gesture-sound space) and the com- plexity (elements of the creative process). These transdisciplinary concepts are juxtaposed through the analysis of works bearing a common element to the author’s artistic practice, the body at the center of a sensorial universe. The author then puts forth elements relative to scenic practice arisen by this innovative artistic practice through the expressive body. The path taken by the performer-creator, leading to the conception of the SICMAP, is then explained through a reflection on the “dream instrument” and the realization of two preparatory gestural interfaces. Implying a new gestural in the context of a non-haptic interface that of the free-body gesture, the topology of the instrumental gesture is revisited in response to a new paradigm of the gesture-sound space. In reply to this research, the details of the SICMAP are then presented from the angle of the technological space and then applied to the gesture-sound space. The compositions realized during the development of SICMAP are then presented. These works are discussed from an artistic and poietic point of view through the founding elements of the author’s creative process. The conclusion summarises the objectives of this research-creation as well as the contributions of this new performative hybrid practice.
363

Analyse haut-débit du comportement spontané d'un organisme modèle « simple » / High-throughput analysis of the spontaneous behavior of a “simple” model organism

Mirat, Olivier 25 September 2013 (has links)
L'utilisation d'organismes génétiques modèles a permis l'investigation à grande échelle de mécanismes cellulaires et moléculaires pour la biologie. La larve de poisson zèbre (Danio rerio) est un organisme vertébré modèle simple qui présente plusieurs avantages pour identifier les bases moléculaires et pharmacologiques du développement et du comportement à travers des cribles génétiques et chimiques respectivement. Plusieurs paradigmes expérimentaux reposent sur une caractérisation précise du phénotype comportemental associé avec un génotype ou l’application d’une drogue. Ce processus de phénotypage bénéficierait d'une compréhension globale des manœuvres possibles afin de caractériser précisément le comportement globale de larves observé au cours d'une expérience. L'analyse sur plusieurs minutes de la locomotion spontanée des larves de poisson zèbre en groupe fournit un cadre idéal pour atteindre ces objectifs.Si l'analyse manuelle du comportement animal est possible pour l'observation de manœuvres isolées et stéréotypées, elle n’est pas compatible avec une approche à grande échelle. A partir de cinq jours, la larve de poisson zèbre se meut sous forme de bouffées natatoires qui arrivent à haute fréquence et sont séparées par quelques secondes. La difficulté d'observation à haute fréquence et d'analyse de la locomotion en bouffée rend une analyse manuelle simple à partir de séquences vidéos du comportement impossible. Le développement récent de caméras rapides avec acquisition en mode continu, couplé aux avancées en informatique et en intelligence artificielle rend possible une analyse automatique du comportement. Les systèmes commerciaux actuels permettent des enregistrements sur des longues durées mais sans capturer la complexité et la diversité des mouvements réalisés. Nous avons donc créé ZebraZoom, notre système d'analyse haut débit permettant de suivre, de quantifier et de catégoriser le comportement spontané de chaque larve de poisson zèbre au sein d’un groupe.Nous avons monté un dispositif expérimental qui consiste à placer sept larves de poisson zèbre âgées d'entre cinq et sept jours dans huit boîtes de pétri. Les boîtes de pétri sont disposées sur une table lumineuse et une caméra rapide positionnée au-dessus enregistre le comportement spontané à 337 Hz pendant quatre minutes. Une fois la vidéo acquise, ZebraZoom localise automatiquement chacune des huit boîtes de pétri, puis suit tête et queue de chacun des animaux sur l'ensemble de la vidéo, grâce à des procédures de vision par ordinateur. ZebraZoom identifie automatiquement chaque bouffée natatoire. Le phénotypage du comportement a été réalisé grâce à deux méthodes complémentaires : l'extraction de paramètres globaux caractérisant la dynamique des mouvements et la catégorisation automatique des mouvements en différents manœuvres stéréotypées. Nous avons utilisé l’analyse des paramètres globaux afin de caractériser l'effet de drogues agissant sur les récepteurs de neurotransmetteurs et l’analyse d’un mutant aveugle. La catégorisation automatique des mouvements est réalisée grâce a des procédures d’apprentissage automatique (« Machine Learning »). Nous avons illustré l’utilité de cette catégorisation pour étudier les interactions entre larves à ces stades précoces. En conclusion, notre programme ZebraZoom permet de réaliser un phénotypage automatique et complet, et cette approche pourra être appliquée dans d'autres systèmes et contextes expérimentaux. / The use of simple genetic model organisms has allowed large-scale investigation of cellular and molecular mechanisms in biology. The zebrafish larva (Danio rerio) is a simple vertebrate model with several advantages for the identification of the molecular and pharmacological basis of development and behavior thanks to genetic and chemical screens. Several experimental paradigms rely on a precise behavioral characterization associated with a genotype or a drug application. This phenotyping process would benefit from a global comprehension of all possible zebrafish larvae maneuvers in order to precisely characterize the global behavior of larvae observed during an experiment. The analysis over multiple minutes of the spontaneous locomotion of zebrafish larvae in a group provides an ideal framework for achieving these goals.The manual analysis of animal behavior is possible for the observation of stereotyped and isolated maneuvers, but it is not compatible with large-scale approaches. After five days, the zebrafish larva moves in burst of movement occurring at high frequency and separated by a few seconds. The difficulty of observation of high-frequency maneuvers makes a manual analysis of videos impossible. The recent development of high-speed cameras, coupled with advances in computer science and artificial intelligence, make an automatic analysis of behavior possible. The available commercial solutions allow long acquisitions but without capturing all the complexity and diversity of the movements. We thus created ZebraZoom, our high-throughput analysis system which makes it possible to follow, quantify and categorize the spontaneous behavior of all zebrafish larva in a group.We built an experimental setup which consisted in placing seven 5- to 7-day old zebrafish larvae in eight petri dishes. The petri dishes were placed on a light table and a high-speed camera was placed above the setup and allowed to record the spontaneous behavior at 337 Hz during four minutes. Once the video was acquired, ZebraZoom localized automatically each of the eight petri dishes and followed the head and the tail of each of the animals on the entire video, thanks to computer vision methods. ZebraZoom then identifies automatically all burst of movement.The behavior phenotyping was performed thanks to two complementary methods: the extraction of global parameters characterizing movement dynamics and the automatic categorization of movements into stereotyped maneuvers. We used global parameters analysis to characterize the effect of drugs acting on neurotransmitters receptors and to analyze the behavior of a blind mutant. The automatic categorization of movements was carried out thanks to machine learning procedures. We showed the utility of this categorization method in studying interactions between larvae at early stages. In conclusion, our ZebraZoom program makes it possible to carry out an automatic and complete phenotyping, and this approach could be used in other systems and experimental contexts.
364

Influencing the Properties of Latent Spaces

Zumer, Jeremie 08 1900 (has links)
No description available.
365

Calibrage de caméra fisheye et estimation de la profondeur pour la navigation autonome

Brousseau, Pierre-André 08 1900 (has links)
Ce mémoire s’intéresse aux problématiques du calibrage de caméras grand angles et de l’estimation de la profondeur à partir d’une caméra unique, immobile ou en mouvement. Les travaux effectués se situent à l’intersection entre la vision 3D classique et les nouvelles méthodes par apprentissage profond dans le domaine de la navigation autonome. Ils visent à permettre la détection d’obstacles par un drone en mouvement muni d’une seule caméra à très grand angle de vue. D’abord, une nouvelle méthode de calibrage est proposée pour les caméras fisheyes à très grand angle de vue par calibrage planaire à correspondances denses obtenues par lumière structurée qui peuvent être modélisée par un ensemble de caméras génériques virtuelles centrales. Nous démontrons que cette approche permet de modéliser directement des caméras axiales, et validons sur des données synthétiques et réelles. Ensuite, une méthode est proposée pour estimer la profondeur à partir d’une seule image, à partir uniquement des indices de profondeurs forts, les jonctions en T. Nous démontrons que les méthodes par apprentissage profond sont susceptibles d’apprendre les biais de leurs ensembles de données et présentent des lacunes d’invariance. Finalement, nous proposons une méthode pour estimer la profondeur à partir d’une caméra en mouvement libre à 6 degrés de liberté. Ceci passe par le calibrage de la caméra fisheye sur le drone, l’odométrie visuelle et la résolution de la profondeur. Les méthodes proposées permettent la détection d’obstacle pour un drone. / This thesis focuses on the problems of calibrating wide-angle cameras and estimating depth from a single camera, stationary or in motion. The work carried out is at the intersection between traditional 3D vision and new deep learning methods in the field of autonomous navigation. They are designed to allow the detection of obstacles by a moving drone equipped with a single camera with a very wide field of view. First, a new calibration method is proposed for fisheye cameras with very large field of view by planar calibration with dense correspondences obtained by structured light that can be modelled by a set of central virtual generic cameras. We demonstrate that this approach allows direct modeling of axial cameras, and validate it on synthetic and real data. Then, a method is proposed to estimate the depth from a single image, using only the strong depth cues, the T-junctions. We demonstrate that deep learning methods are likely to learn from the biases of their data sets and have weaknesses to invariance. Finally, we propose a method to estimate the depth from a camera in free 6 DoF motion. This involves calibrating the fisheye camera on the drone, visual odometry and depth resolution. The proposed methods allow the detection of obstacles for a drone.
366

IIRC : Incremental Implicitly-Refined Classification

Abdelsalam, Mohamed 05 1900 (has links)
Nous introduisons la configuration de la "Classification Incrémentale Implicitement Raffinée / Incremental Implicitly-Refined Classification (IIRC)", une extension de la configuration de l'apprentissage incrémental des classes où les lots de classes entrants possèdent deux niveaux de granularité, c'est-à-dire que chaque échantillon peut avoir une étiquette (label) de haut niveau (brute), comme "ours”, et une étiquette de bas niveau (plus fine), comme "ours polaire". Une seule étiquette (label) est fournie à la fois, et le modèle doit trouver l’autre étiquette s’il l’a déjà apprise. Cette configuration est plus conforme aux scénarios de la vie réelle, où un apprenant aura tendance à interagir avec la même famille d’entités plusieurs fois, découvrant ainsi encore plus de granularité à leur sujet, tout en essayant de ne pas oublier les connaissances acquises précédemment. De plus, cette configuration permet d’évaluer les modèles pour certains défis importants liés à l’apprentissage tout au long de la vie (lifelong learning) qui ne peuvent pas être facilement abordés dans les configurations existantes. Ces défis peuvent être motivés par l’exemple suivant: “si un modèle a été entraîné sur la classe ours dans une tâche et sur ours polaire dans une autre tâche; oubliera-t-il le concept d’ours, déduira-t-il à juste titre qu’un ours polaire est également un ours ? et associera-t-il à tort l’étiquette d’ours polaire à d’autres races d’ours ?” Nous développons un benchmark qui permet d’évaluer les modèles sur la configuration de l’IIRC. Nous évaluons plusieurs algorithmes d’apprentissage ”tout au long de la vie” (lifelong learning) de l’état de l’art. Par exemple, les méthodes basées sur la distillation sont relativement performantes mais ont tendance à prédire de manière incorrecte un trop grand nombre d’étiquettes par image. Nous espérons que la configuration proposée, ainsi que le benchmark, fourniront un cadre de problème significatif aux praticiens. / We introduce the "Incremental Implicitly-Refined Classification (IIRC)" setup, an extension to the class incremental learning setup where the incoming batches of classes have two granularity levels. i.e., each sample could have a high-level (coarse) label like "bear" and a low-level (fine) label like "polar bear". Only one label is provided at a time, and the model has to figure out the other label if it has already learned it. This setup is more aligned with real-life scenarios, where a learner usually interacts with the same family of entities multiple times, discovers more granularity about them, while still trying not to forget previous knowledge. Moreover, this setup enables evaluating models for some important lifelong learning challenges that cannot be easily addressed under the existing setups. These challenges can be motivated by the example "if a model was trained on the class bear in one task and on polar bear in another task, will it forget the concept of bear, will it rightfully infer that a polar bear is still a bear? and will it wrongfully associate the label of polar bear to other breeds of bear?". We develop a standardized benchmark that enables evaluating models on the IIRC setup. We evaluate several state-of-the-art lifelong learning algorithms and highlight their strengths and limitations. For example, distillation-based methods perform relatively well but are prone to incorrectly predicting too many labels per image. We hope that the proposed setup, along with the benchmark, would provide a meaningful problem setting to the practitioners.
367

Estimation de pose 2D par réseau convolutif

Huppé, Samuel 04 1900 (has links)
Magic: The Gathering} est un jeu de cartes à collectionner stochastique à information imparfaite inventé par Richard Garfield en 1993. Le but de ce projet est de proposer un pipeline d'apprentissage machine permettant d'accomplir la détection et la localisation des cartes du jeu \textit{Magic} au sein d'une image typique des tournois de ce jeu. Il s'agit d'un problème de pose d'objets 2D à quatre degrés de liberté soit, la position sur deux axes, la rotation et l'échelle, dans un contexte où les cartes peuvent être superposées. À travers ce projet, nous avons développé une approche par données synthétiques à deux réseaux capable, collectivement d'identifier, et de régresser ces paramètres avec une précision significative. Dans le cadre de ce projet, nous avons développé un algorithme d'apprentissage profond par données synthétiques capable de positionner une carte avec une précision d'un demi pixel et d'une rotation de moins d'un degré. Finalement, nous avons montré que notre jeu de données synthétique est suffisamment réaliste pour permettre à nos réseaux de généraliser aux cas d'images réelles. / Magic: The Gathering} is an imperfect information, stochastic, collectible card game invented by Richard Garfield in 1993. The goal of this project is to propose a machine learning pipeline capable of detecting and localising \textit{Magic} cards within an image. This is a 2D pose problem with 4 degrees of freedom, namely translation in $x$ and $y$, rotation, and scale, in a context where cards can be superimposed on one another. We tackle this problem by relying on deep learning using a combination of two separate neural networks. Our final pipeline has the ability to tackle real-world images and gives, with a very good degree of precision, the poses of cards within an image. Through the course of this project, we have developped a method of realistic synthetic data generation to train both our models to tackle real world images. The results show that our pose subnetwork is able to predict position within half a pixel, rotation within one degree and scale within 2 percent.
368

Conditional generative modeling for images, 3D animations, and video

Voleti, Vikram 07 1900 (has links)
Generative modeling for computer vision has shown immense progress in the last few years, revolutionizing the way we perceive, understand, and manipulate visual data. This rapidly evolving field has witnessed advancements in image generation, 3D animation, and video prediction that unlock diverse applications across multiple fields including entertainment, design, healthcare, and education. As the demand for sophisticated computer vision systems continues to grow, this dissertation attempts to drive innovation in the field by exploring novel formulations of conditional generative models, and innovative applications in images, 3D animations, and video. Our research focuses on architectures that offer reversible transformations of noise and visual data, and the application of encoder-decoder architectures for generative tasks and 3D content manipulation. In all instances, we incorporate conditional information to enhance the synthesis of visual data, improving the efficiency of the generation process as well as the generated content. Prior successful generative techniques which are reversible between noise and data include normalizing flows and denoising diffusion models. The continuous variant of normalizing flows is powered by Neural Ordinary Differential Equations (Neural ODEs), and have shown some success in modeling the real image distribution. However, they often involve huge number of parameters, and high training time. Denoising diffusion models have recently gained huge popularity for their generalization capabilities especially in text-to-image applications. In this dissertation, we introduce the use of Neural ODEs to model video dynamics using an encoder-decoder architecture, demonstrating their ability to predict future video frames despite being trained solely to reconstruct current frames. In our next contribution, we propose a conditional variant of continuous normalizing flows that enables higher-resolution image generation based on lower-resolution input. This allows us to achieve comparable image quality to regular normalizing flows, while significantly reducing the number of parameters and training time. Our next contribution focuses on a flexible encoder-decoder architecture for accurate estimation and editing of full 3D human pose. We present a comprehensive pipeline that takes human images as input, automatically aligns a user-specified 3D human/non-human character with the pose of the human, and facilitates pose editing based on partial input information. We then proceed to use denoising diffusion models for image and video generation. Regular diffusion models involve the use of a Gaussian process to add noise to clean images. In our next contribution, we derive the relevant mathematical details for denoising diffusion models that use non-isotropic Gaussian processes, present non-isotropic noise, and show that the quality of generated images is comparable with the original formulation. In our final contribution, devise a novel framework building on denoising diffusion models that is capable of solving all three video tasks of prediction, generation, and interpolation. We perform ablation studies using this framework, and show state-of-the-art results on multiple datasets. Our contributions are published articles at peer-reviewed venues. Overall, our research aims to make a meaningful contribution to the pursuit of more efficient and flexible generative models, with the potential to shape the future of computer vision. / La modélisation générative pour la vision par ordinateur a connu d’immenses progrès ces dernières années, révolutionnant notre façon de percevoir, comprendre et manipuler les données visuelles. Ce domaine en constante évolution a connu des avancées dans la génération d’images, l’animation 3D et la prédiction vidéo, débloquant ainsi diverses applications dans plusieurs domaines tels que le divertissement, le design, la santé et l’éducation. Alors que la demande de systèmes de vision par ordinateur sophistiqués ne cesse de croître, cette thèse s’efforce de stimuler l’innovation dans le domaine en explorant de nouvelles formulations de modèles génératifs conditionnels et des applications innovantes dans les images, les animations 3D et la vidéo. Notre recherche se concentre sur des architectures offrant des transformations réversibles du bruit et des données visuelles, ainsi que sur l’application d’architectures encodeur-décodeur pour les tâches génératives et la manipulation de contenu 3D. Dans tous les cas, nous incorporons des informations conditionnelles pour améliorer la synthèse des données visuelles, améliorant ainsi l’efficacité du processus de génération ainsi que le contenu généré. Les techniques génératives antérieures qui sont réversibles entre le bruit et les données et qui ont connu un certain succès comprennent les flux de normalisation et les modèles de diffusion de débruitage. La variante continue des flux de normalisation est alimentée par les équations différentielles ordinaires neuronales (Neural ODEs) et a montré une certaine réussite dans la modélisation de la distribution d’images réelles. Cependant, elles impliquent souvent un grand nombre de paramètres et un temps d’entraînement élevé. Les modèles de diffusion de débruitage ont récemment gagné énormément en popularité en raison de leurs capacités de généralisation, notamment dans les applications de texte vers image. Dans cette thèse, nous introduisons l’utilisation des Neural ODEs pour modéliser la dynamique vidéo à l’aide d’une architecture encodeur-décodeur, démontrant leur capacité à prédire les images vidéo futures malgré le fait d’être entraînées uniquement à reconstruire les images actuelles. Dans notre prochaine contribution, nous proposons une variante conditionnelle des flux de normalisation continus qui permet une génération d’images à résolution supérieure à partir d’une entrée à résolution inférieure. Cela nous permet d’obtenir une qualité d’image comparable à celle des flux de normalisation réguliers, tout en réduisant considérablement le nombre de paramètres et le temps d’entraînement. Notre prochaine contribution se concentre sur une architecture encodeur-décodeur flexible pour l’estimation et l’édition précises de la pose humaine en 3D. Nous présentons un pipeline complet qui prend des images de personnes en entrée, aligne automatiquement un personnage 3D humain/non humain spécifié par l’utilisateur sur la pose de la personne, et facilite l’édition de la pose en fonction d’informations partielles. Nous utilisons ensuite des modèles de diffusion de débruitage pour la génération d’images et de vidéos. Les modèles de diffusion réguliers impliquent l’utilisation d’un processus gaussien pour ajouter du bruit aux images propres. Dans notre prochaine contribution, nous dérivons les détails mathématiques pertinents pour les modèles de diffusion de débruitage qui utilisent des processus gaussiens non isotropes, présentons du bruit non isotrope, et montrons que la qualité des images générées est comparable à la formulation d’origine. Dans notre dernière contribution, nous concevons un nouveau cadre basé sur les modèles de diffusion de débruitage, capable de résoudre les trois tâches vidéo de prédiction, de génération et d’interpolation. Nous réalisons des études d’ablation en utilisant ce cadre et montrons des résultats de pointe sur plusieurs ensembles de données. Nos contributions sont des articles publiés dans des revues à comité de lecture. Dans l’ensemble, notre recherche vise à apporter une contribution significative à la poursuite de modèles génératifs plus efficaces et flexibles, avec le potentiel de façonner l’avenir de la vision par ordinateur.
369

Stéréophotométrie non-calibrée de surfaces non-Lambertiennes. Application à la reconstruction de surface de colonies microbiennes

Kyrgyzova, Khrystyna 22 July 2014 (has links) (PDF)
La thèse est dédiée au problème de la stéréophotométrie non-Lambertienne sans connaissance a priori sur les conditions d'illumination et son application aux images de boîte de Pétri. Pour obtenir une bonne reconstruction de surfaces non-Lambertiennes, il est proposé de traiter une séquence d'entrée en deux étapes: premièrement il faut supprimer les effets spéculaires et obtenir ainsi des images de surface 'pseudo-Lambertienne'. Ensuite dans une deuxième étape à partir de ces images une reconstruction stéréophotométrique Lambertienne sans aucune information préalable sur les directions d'illumination est effectuée. Dans ce travail nous proposons deux méthodes originales respectivement pour la suppression de spécularités et la reconstruction de surface sans information a priori. Les méthodes proposées sont appliquées pour la caractérisation des colonies microbiennes.La spécularités est un effet optique lié à la nature physique complexe des objets. Il est utile pour la perception humaine des objets 3D mais il gêne le processus de traitement automatique d'images. Pour pouvoir appliquer le modèle Lambertien à la stéréophotométrie, les spécularités doivent être supprimées des images d'entrée. Nous proposons donc une méthode originale pour la correction des zones spéculaires adaptée pour une reconstruction ultérieure. L'algorithme proposé est capable de détecter les spécularités comme des valeurs anormalement élevées d'intensité dans une image de la séquence d'entrée, et de les corriger en utilisant les informations des autres images de la séquence et une fonction de correction continue. Cette méthode permet de faire la suppression des spécularités en préservant toutes les autres particularités de distribution de lumière qui sont importantes pour la reconstruction de surface.Après nous proposons une technique de reconstruction stéréophotométrique de surface Lambertienne sans connaissance a priori sur l'illumination. Le modèle mis en œuvre consiste en quatre composantes, deux composantes (albédo et normales) permettent de d'écrire des propriétés de surface et deux autres (intensités des sources de lumière et leurs directions) décrivent illumination. L'algorithme proposé de reconstruction utilise le principe de l'optimisation alternée. Chaque composante du modèle est trouvée itérativement en fixant toutes les variables sauf une et en appliquant des contraintes de structures, valeurs et qualité pour la fonction d'optimisation. Un schéma original de résolution permet de séparer les différents types d'information inclus dans les images d'entrée. Grâce à cette factorisation de matrices, la reconstruction de surface est faite sans connaissance préalable sur les directions de lumière et les propriétés de l'objet reconstruit. L'applicabilité de l'algorithme est prouvée pour des donnés artificielles et des images de bases publiques pour lesquelles la vérité terrain sur les surfaces des objets est disponible.La dernière partie de la thèse est dédiée à l'application de la chaine complète proposée pour le traitement d'images de boîte de Pétri. Ces images sont obtenues en utilisant les sources de lumières complexes qui sont supposées être inconnues pour le processus de reconstruction. L'évaluation de surfaces de colonies microbiennes s'est révélée être une étape importante pour l'analyse visuelle et automatique des colonies. La chaine proposée est efficace pour ce type de données et permet de compléter les informations d'images par de la surface 3D.
370

Comparing of radial and tangencial geometric for cylindric panorama

Amjadi, Faezeh 11 1900 (has links)
Cameras generally have a field of view only large enough to capture a portion of their surroundings. The goal of immersion is to replace many of your senses with virtual ones, so that the virtual environment will feel as real as possible. Panoramic cameras are used to capture the entire 360°view, also known as panoramic images.Virtual reality makes use of these panoramic images to provide a more immersive experience compared to seeing images on a 2D screen. This thesis, which is in the field of Computer vision, focuses on establishing a multi-camera geometry to generate a cylindrical panorama image and successfully implementing it with the cheapest cameras possible. The specific goal of this project is to propose the cameras geometry which will decrease artifact problems related to parallax in the panorama image. We present a new approach of cylindrical panoramic images from multiple cameras which its setup has cameras placed evenly around a circle. Instead of looking outward, which is the traditional ”radial” configuration, we propose to make the optical axes tangent to the camera circle, a ”tangential” configuration. Beside an analysis and comparison of radial and tangential geometries, we provide an experimental setup with real panoramas obtained in realistic conditions / Les caméras ont généralement un champ de vision à peine assez grand pour capturer partie de leur environnement. L’objectif de l’immersion est de remplacer virtuellement un grand nombre de sens, de sorte que l’environnement virtuel soit perçu comme le plus réel possible. Une caméra panoramique est utilisée pour capturer l’ensemble d’une vue 360°, également connue sous le nom d’image panoramique. La réalité virtuelle fait usage de ces images panoramiques pour fournir une expérience plus immersive par rapport aux images sur un écran 2D. Cette thèse, qui est dans le domaine de la vision par ordinateur, s’intéresse à la création d’une géométrie multi-caméras pour générer une image cylindrique panoramique et vise une mise en œuvre avec les caméras moins chères possibles. L’objectif spécifique de ce projet est de proposer une géométrie de caméra qui va diminuer au maximum les problèmes d’artefacts liés au parallaxe présent dans l’image panoramique. Nous présentons une nouvelle approche de capture des images panoramiques cylindriques à partir de plusieurs caméras disposées uniformément autour d’un cercle. Au lieu de regarder vers l’extérieur, ce qui est la configuration traditionnelle ”radiale”, nous proposons de rendre les axes optiques tangents au cercle des caméras, une configuration ”tangentielle”. Outre une analyse et la comparaison des géométries radiales et tangentielles, nous fournissons un montage expérimental avec de vrais panoramas obtenus dans des conditions réalistes

Page generated in 0.135 seconds