Return to search

Conditional generative modeling for images, 3D animations, and video

Generative modeling for computer vision has shown immense progress in the last few years, revolutionizing the way we perceive, understand, and manipulate visual data. This rapidly evolving field has witnessed advancements in image generation, 3D animation, and video prediction that unlock diverse applications across multiple fields including entertainment, design, healthcare, and education. As the demand for sophisticated computer vision systems continues to grow, this dissertation attempts to drive innovation in the field by exploring novel formulations of conditional generative models, and innovative applications in images, 3D animations, and video.

Our research focuses on architectures that offer reversible transformations of noise and visual data, and the application of encoder-decoder architectures for generative tasks and 3D content manipulation. In all instances, we incorporate conditional information to enhance the synthesis of visual data, improving the efficiency of the generation process as well as the generated content.

Prior successful generative techniques which are reversible between noise and data include normalizing flows and denoising diffusion models. The continuous variant of normalizing flows is powered by Neural Ordinary Differential Equations (Neural ODEs), and have shown some success in modeling the real image distribution. However, they often involve huge number of parameters, and high training time. Denoising diffusion models have recently gained huge popularity for their generalization capabilities especially in text-to-image applications.

In this dissertation, we introduce the use of Neural ODEs to model video dynamics using an encoder-decoder architecture, demonstrating their ability to predict future video frames despite being trained solely to reconstruct current frames. In our next contribution, we propose a conditional variant of continuous normalizing flows that enables higher-resolution image generation based on lower-resolution input. This allows us to achieve comparable image quality to regular normalizing flows, while significantly reducing the number of parameters and training time.

Our next contribution focuses on a flexible encoder-decoder architecture for accurate estimation and editing of full 3D human pose. We present a comprehensive pipeline that takes human images as input, automatically aligns a user-specified 3D human/non-human character with the pose of the human, and facilitates pose editing based on partial input information.

We then proceed to use denoising diffusion models for image and video generation. Regular diffusion models involve the use of a Gaussian process to add noise to clean images. In our next contribution, we derive the relevant mathematical details for denoising diffusion models that use non-isotropic Gaussian processes, present non-isotropic noise, and show that the quality of generated images is comparable with the original formulation. In our final contribution, devise a novel framework building on denoising diffusion models that is capable of solving all three video tasks of prediction, generation, and interpolation. We perform ablation studies using this framework, and show state-of-the-art results on multiple datasets.

Our contributions are published articles at peer-reviewed venues. Overall, our research aims to make a meaningful contribution to the pursuit of more efficient and flexible generative models, with the potential to shape the future of computer vision. / La modélisation générative pour la vision par ordinateur a connu d’immenses progrès ces
dernières années, révolutionnant notre façon de percevoir, comprendre et manipuler les
données visuelles. Ce domaine en constante évolution a connu des avancées dans la génération
d’images, l’animation 3D et la prédiction vidéo, débloquant ainsi diverses applications dans
plusieurs domaines tels que le divertissement, le design, la santé et l’éducation. Alors que la
demande de systèmes de vision par ordinateur sophistiqués ne cesse de croître, cette thèse
s’efforce de stimuler l’innovation dans le domaine en explorant de nouvelles formulations de
modèles génératifs conditionnels et des applications innovantes dans les images, les animations
3D et la vidéo.
Notre recherche se concentre sur des architectures offrant des transformations réversibles
du bruit et des données visuelles, ainsi que sur l’application d’architectures encodeur-décodeur
pour les tâches génératives et la manipulation de contenu 3D. Dans tous les cas, nous
incorporons des informations conditionnelles pour améliorer la synthèse des données visuelles,
améliorant ainsi l’efficacité du processus de génération ainsi que le contenu généré.
Les techniques génératives antérieures qui sont réversibles entre le bruit et les données
et qui ont connu un certain succès comprennent les flux de normalisation et les modèles de
diffusion de débruitage. La variante continue des flux de normalisation est alimentée par
les équations différentielles ordinaires neuronales (Neural ODEs) et a montré une certaine
réussite dans la modélisation de la distribution d’images réelles. Cependant, elles impliquent
souvent un grand nombre de paramètres et un temps d’entraînement élevé. Les modèles de
diffusion de débruitage ont récemment gagné énormément en popularité en raison de leurs
capacités de généralisation, notamment dans les applications de texte vers image.
Dans cette thèse, nous introduisons l’utilisation des Neural ODEs pour modéliser la
dynamique vidéo à l’aide d’une architecture encodeur-décodeur, démontrant leur capacité à
prédire les images vidéo futures malgré le fait d’être entraînées uniquement à reconstruire
les images actuelles. Dans notre prochaine contribution, nous proposons une variante
conditionnelle des flux de normalisation continus qui permet une génération d’images à
résolution supérieure à partir d’une entrée à résolution inférieure. Cela nous permet d’obtenir une qualité d’image comparable à celle des flux de normalisation réguliers, tout en réduisant
considérablement le nombre de paramètres et le temps d’entraînement.
Notre prochaine contribution se concentre sur une architecture encodeur-décodeur flexible
pour l’estimation et l’édition précises de la pose humaine en 3D. Nous présentons un pipeline
complet qui prend des images de personnes en entrée, aligne automatiquement un personnage
3D humain/non humain spécifié par l’utilisateur sur la pose de la personne, et facilite l’édition
de la pose en fonction d’informations partielles.
Nous utilisons ensuite des modèles de diffusion de débruitage pour la génération d’images
et de vidéos. Les modèles de diffusion réguliers impliquent l’utilisation d’un processus gaussien
pour ajouter du bruit aux images propres. Dans notre prochaine contribution, nous dérivons
les détails mathématiques pertinents pour les modèles de diffusion de débruitage qui utilisent
des processus gaussiens non isotropes, présentons du bruit non isotrope, et montrons que la
qualité des images générées est comparable à la formulation d’origine. Dans notre dernière
contribution, nous concevons un nouveau cadre basé sur les modèles de diffusion de débruitage,
capable de résoudre les trois tâches vidéo de prédiction, de génération et d’interpolation.
Nous réalisons des études d’ablation en utilisant ce cadre et montrons des résultats de pointe
sur plusieurs ensembles de données.
Nos contributions sont des articles publiés dans des revues à comité de lecture. Dans
l’ensemble, notre recherche vise à apporter une contribution significative à la poursuite de
modèles génératifs plus efficaces et flexibles, avec le potentiel de façonner l’avenir de la vision
par ordinateur.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/32123
Date07 1900
CreatorsVoleti, Vikram
ContributorsPal, Christopher
Source SetsUniversité de Montréal
LanguageEnglish
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0036 seconds