• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • Tagged with
  • 6
  • 6
  • 6
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Entropic GAN : an approach for Out-of-Distribution detection / Entropic generative adversarial networks

Yeganehparast, Alireza 29 October 2024 (has links)
La détection des données hors distribution (en anglais *Out-of-Distribution*, OOD) est un défi crucial en apprentissage automatique, essentiel pour garantir la fiabilité et la sécurité des modèles dans les applications du monde réel. Cette thèse explore l'utilisation des réseaux antagonistes génératifs (Generative Adversarial Networks, GANs) pour la détection des données OOD. Les GANs, connus pour leur capacité à générer des données synthétiques réalistes, se composent d'un générateur qui produit des données et d'un discriminateur qui distingue entre les données réelles et générées. Entraînés sur des données en distribution (en anglais *in-distribution*, ID), les GANs pourraient offrir une approche prometteuse pour identifier les échantillons OOD. Le premier chapitre fournit une introduction à l'apprentissage automatique et au problème de détection des données OOD. Il définit les concepts clés, souligne l'importance d'une détection efficace des données OOD et présente des métriques d'évaluation pour évaluer les détecteurs OOD. De plus, il discute des différentes mesures de distance entre distributions, jetant les bases de la compréhension des opérations des GANs. Le deuxième chapitre explore les fondements théoriques des GANs, détaillant leur architecture et leur processus d'entraînement antagoniste. Ce chapitre couvre également les métriques d'évaluation des performances des GANs, offrant une compréhension approfondie de leurs forces et de leurs limites. Dans le troisième chapitre, nous introduisons le GAN Entropique (E-GAN), une nouvelle approche pour la détection des données OOD. Dans l'E-GAN, nous modifions la fonction de perte traditionnelle des GANs pour inclure la régularisation de l'entropie, permettant ainsi au générateur de produire à la fois des données ID et OOD. Cela permet au discriminateur de fonctionner comme un classificateur binaire efficace, distinguant entre les échantillons ID et OOD. Nous présentons des résultats expérimentaux démontrant l'efficacité de l'E-GAN et analysons l'impact de la variation des hyperparamètres clés. Le chapitre se termine par une discussion sur les limites de notre approche et les voies potentielles pour des recherches futures. Cette thèse propose une méthode novatrice pour améliorer la détection des données OOD en utilisant les GANs. En introduisant la régularisation de l'entropie dans la structure des GANs, nous améliorons la capacité du modèle à distinguer entre les données ID et OOD, contribuant ainsi au développement de systèmes d'apprentissage automatique plus fiables et sûrs. / Out-of-Distribution (OOD) detection is a critical challenge in machine learning, vital for ensuring the reliability and safety of models in real-world applications. This thesis explores the use of Generative Adversarial Networks (GANs) for OOD detection. GANs, known for their ability to generate realistic synthetic data, consist of a generator that produces data and a discriminator that differentiates between real and generated data. Trained on in-distribution (ID) data, GANs could offer a promising approach for identifying OOD samples. The first chapter provides a comprehensive introduction to machine learning and the OOD detection problem. It defines key concepts, emphasizes the importance of effective OOD detection, and introduces evaluation metrics for assessing OOD detectors. Additionally, it discusses various distance measures between distributions, laying the groundwork for understanding GAN operations. The second chapter delves into the theoretical foundations of GANs, detailing their architecture and adversarial training process. This chapter also covers evaluation metrics for GAN performance, offering a thorough understanding of their strengths and limitations. In the third chapter, we introduce the Entropic GAN (E-GAN), a novel approach for OOD detection. In E-GAN, we modify the traditional GAN loss function to include entropy regularization, enabling the generator to produce both ID and OOD data. This allows the discriminator to function as an effective binary classifier, distinguishing between ID and OOD samples. We present experimental results demonstrating the efficacy of E-GAN and analyze the impact of varying key hyperparameters. The chapter concludes with a discussion on the limitations of our approach and potential avenues for future research. This thesis proposes a novel method for improving OOD detection using GANs. By introducing entropy regularization into the GAN framework, we enhance the model's ability to distinguish between ID and OOD data.
2

Generative models, theory and applications

Askari Hemmat, Reyhane 04 1900 (has links)
Les modèles génératifs ont révolutionné le domaine de l'intelligence artificielle (IA). En particulier, des travaux récents sur les réseaux antagonistes génératifs (GAN) et les modèles de diffusion latente (LDM) ont montré des capacités de géneration d'image photoréaliste. Au moment de la rédaction de cette thèse, ces modèles sont sur le point de générer des données qui sont presque impossibles à distinguer de la réalité perçue par les humains. L'objectif de cette thèse est double : nous aimerions d'abord comprendre la dynamique d'apprentissage et d'inférence sous-jacente de ces modèles, puis utiliser ces connaissances pour améliorer et stabiliser leur entraînement, ainsi que pour améliorer l'utilité des données générées dans les applications en aval. Ce faisant, cette thèse propose trois articles visant à proposer une entraînement plus stable et une génération de données efficace. Dans le premier article, nous nous concentrons sur l’instabilité inhérente à la dynamique d’entraînement des GAN et d’autres classes de jeux min-max. Nous introduisons une technique efficace pour stabiliser l'entraînement en incorporant un coefficient négatif pour la méthode du moment, qui est une technique plutôt non conventionnelle de l'optimisation classique à objectif unique. Nous étudions et validons théoriquement et empiriquement l’effet du momentum négatif sur les jeux simples et les GAN saturants. Dans le deuxième article, notre recherche adopte une nouvelle perspective en modélisant les jeux min-max et les GAN, en tant que systèmes physiques. Ce changement conceptuel nous permet de mieux comprendre les dynamiques d'entrainement dans ces jeux et de modifier leur dynamique. En utilisant le principe de moindre action en physique, nous introduisons l'optimiseur LEAD spécialement conçu pour les jeux min-max. Nous explorons LEAD à la fois théoriquement et empiriquement, démontrant ses performances non seulement dans des jeux simplifiés mais également dans le contexte des GAN. Cette approche offre une nouvelle perspective physique sur l’optimisation des jeux, grâce à laquelle nous pouvons améliorer la dynamique d'entraînement des réseaux antagonistes génératifs. Le troisième article adopte une approche différente en se concentrant sur l'application pratique des modèles génératifs, en particulier des modèles de diffusion, pour applications en aval. Dans ce travail, nous exploitons le processus d’échantillonnage itératif unique des modèles de diffusion. Notre approche consiste a introduire une boucle de rétroaction qui utilise un classifieur pour changer le process génératif. Ce processus d'échantillonnage guidé par rétroaction permet la génération d'échantillons de données utiles et rares spécifiquement adaptés au classificateur concerné. Nos expériences démontrent que cette approche s'avère utile pour résoudre des tâches de classification déséquilibrées, en obtenant de nouveaux résultats de pointe tout en étant deux fois plus efficaces en termes de synthèse de données par rapport aux travaux précédents. Dans l'ensemble, ces trois articles visent à comprendre la dynamique d'entraînement et d'inférence des modèles génératifs et à utiliser leurs données synthétiques pour des applications pratiques. / Generative models have revolutionized the field of artificial intelligence (AI). Particularly, work on generative adversarial networks (GANs) and latent diffusion models (LDMs) have demonstrated extraordinary capacity in terms of sample quality. At the time of writing this thesis, these models are on the brink of generating data which are nearly indistinguishable from human-perceived reality. The objective of this thesis is twofold: first, to understand the underlying learning and inference dynamics of these models; and second, to use this knowledge to improve and stabilize their training, as well as to enhance the utility of the generated data in downstream applications. To that end, this thesis provides three articles aimed at more stable training and effective data generation. In the first article, our focus is on addressing the inherent instability in the training dynamics of GANs and other types of min-max games. We introduce an effective technique to alleviate the instability of these games by incorporating a negative coefficient for momentum—a rather unconventional recipe from classical single-objective optimization. We theoretically and empirically study and validate the effect of negative momentum on simple games and GANs with saturating loss. In the second article, our research takes a novel perspective by modeling min-max games and GANs, as physical systems. This conceptual shift allows for a deeper understanding of the dynamics at play and offers new ways to modify these dynamics. Using the principle of least action in physics, we introduce the LEAD optimizer, specifically designed for min-max games. We explore LEAD both theoretically and empirically, showcasing its effectiveness in both simplified games and within the context of GANs. This approach offers a novel and general physical perspective on game optimization. The third article shifts focus towards the practical application of generative models, particularly diffusion models, for downstream applications. We leverage the unique iterative sampling process inherent to diffusion models, guiding it with feedback from a pretrained classifier during the inference phase. This feedback-guided sampling process enables the generation of useful and rare data samples that are specifically tailored to the needs of the classifier at hand. Our experiments demonstrate that this approach proves useful in addressing imbalanced classification tasks, achieving new state-of-the-art results while being twice as efficient in terms of the amount of synthesized data required compared to previous work. All in all, these three articles take steps towards understanding the training and inference dynamics of generative models and utilizing their synthetic data for practical applications.
3

Prédiction et génération de données structurées à l'aide de réseaux de neurones et de décisions discrètes

Dutil, Francis 08 1900 (has links)
No description available.
4

Adversarial games in machine learning : challenges and applications

Berard, Hugo 08 1900 (has links)
L’apprentissage automatique repose pour un bon nombre de problèmes sur la minimisation d’une fonction de coût, pour ce faire il tire parti de la vaste littérature sur l’optimisation qui fournit des algorithmes et des garanties de convergences pour ce type de problèmes. Cependant récemment plusieurs modèles d’apprentissage automatique qui ne peuvent pas être formulé comme la minimisation d’un coût unique ont été propose, à la place ils nécessitent de définir un jeu entre plusieurs joueurs qui ont chaque leur propre objectif. Un de ces modèles sont les réseaux antagonistes génératifs (GANs). Ce modèle génératif formule un jeu entre deux réseaux de neurones, un générateur et un discriminateur, en essayant de tromper le discriminateur qui essaye de distinguer les vraies images des fausses, le générateur et le discriminateur s’améliore résultant en un équilibre de Nash, ou les images produites par le générateur sont indistinguable des vraies images. Malgré leur succès les GANs restent difficiles à entrainer à cause de la nature antagoniste du jeu, nécessitant de choisir les bons hyperparamètres et résultant souvent en une dynamique d’entrainement instable. Plusieurs techniques de régularisations ont été propose afin de stabiliser l’entrainement, dans cette thèse nous abordons ces instabilités sous l’angle d’un problème d’optimisation. Nous commençons par combler le fossé entre la littérature d’optimisation et les GANs, pour ce faire nous formulons GANs comme un problème d’inéquation variationnelle, et proposons de la littérature sur le sujet pour proposer des algorithmes qui convergent plus rapidement. Afin de mieux comprendre quels sont les défis de l’optimisation des jeux, nous proposons plusieurs outils afin d’analyser le paysage d’optimisation des GANs. En utilisant ces outils, nous montrons que des composantes rotationnelles sont présentes dans le voisinage des équilibres, nous observons également que les GANs convergent rarement vers un équilibre de Nash mais converge plutôt vers des équilibres stables locaux (LSSP). Inspirer par le succès des GANs nous proposons pour finir, une nouvelle famille de jeux que nous appelons adversarial example games qui consiste à entrainer simultanément un générateur et un critique, le générateur cherchant à perturber les exemples afin d’induire en erreur le critique, le critique cherchant à être robuste aux perturbations. Nous montrons qu’à l’équilibre de ce jeu, le générateur est capable de générer des perturbations qui transfèrent à toute une famille de modèles. / Many machine learning (ML) problems can be formulated as minimization problems, with a large optimization literature that provides algorithms and guarantees to solve this type of problems. However, recently some ML problems have been proposed that cannot be formulated as minimization problems but instead require to define a game between several players where each player has a different objective. A successful application of such games in ML are generative adversarial networks (GANs), where generative modeling is formulated as a game between a generator and a discriminator, where the goal of the generator is to fool the discriminator, while the discriminator tries to distinguish between fake and real samples. However due to the adversarial nature of the game, GANs are notoriously hard to train, requiring careful fine-tuning of the hyper-parameters and leading to unstable training. While regularization techniques have been proposed to stabilize training, we propose in this thesis to look at these instabilities from an optimization perspective. We start by bridging the gap between the machine learning and optimization literature by casting GANs as an instance of the Variational Inequality Problem (VIP), and leverage the large literature on VIP to derive more efficient and stable algorithms to train GANs. To better understand what are the challenges of training GANs, we then propose tools to study the optimization landscape of GANs. Using these tools we show that GANs do suffer from rotation around their equilibrium, and that they do not converge to Nash-Equilibria. Finally inspired by the success of GANs to generate images, we propose a new type of games called Adversarial Example Games that are able to generate adversarial examples that transfer across different models and architectures.
5

Advances in generative models for dynamic scenes

Castrejon Subira, Lluis Enric 05 1900 (has links)
Les réseaux de neurones sont un type de modèle d'apprentissage automatique (ML) qui résolvent des tâches complexes d'intelligence artificielle (AI) sans nécessiter de représentations de données élaborées manuellement. Bien qu'ils aient obtenu des résultats impressionnants dans des tâches nécessitant un traitement de la parole, d’image, et du langage, les réseaux de neurones ont encore de la difficulté à résoudre des tâches de compréhension de scènes dynamiques. De plus, l’entraînement de réseaux de neurones nécessite généralement de nombreuses données annotées manuellement, ce qui peut être un processus long et coûteux. Cette thèse est composée de quatre articles proposant des modèles génératifs pour des scènes dynamiques. La modélisation générative est un domaine du ML qui étudie comment apprendre les mécanismes par lesquels les données sont produites. La principale motivation derrière les modèles génératifs est de pouvoir, sans utiliser d’étiquettes, apprendre des représentations de données utiles; c’est un sous-produit de l'approximation du processus de génération de données. De plus, les modèles génératifs sont utiles pour un large éventail d'applications telles que la super-résolution d'images, la synthèse vocale ou le résumé de texte. Le premier article se concentre sur l'amélioration de la performance des précédents auto-encodeurs variationnels (VAE) pour la prédiction vidéo. Il s’agit d’une tâche qui consiste à générer les images futures d'une scène dynamique, compte tenu de certaines observations antérieures. Les VAE sont une famille de modèles à variables latentes qui peuvent être utilisés pour échantillonner des points de données. Comparés à d'autres modèles génératifs, les VAE sont faciles à entraîner et ont tendance à couvrir tous les modes des données, mais produisent souvent des résultats de moindre qualité. En prédiction vidéo, les VAE ont été les premiers modèles capables de produire des images futures plausibles à partir d’un contexte donné, un progrès marquant par rapport aux modèles précédents car, pour la plupart des scènes dynamiques, le futur n'est pas une fonction déterministe du passé. Cependant, les premiers VAE pour la prédiction vidéo produisaient des résultats avec des artefacts visuels visibles et ne fonctionnaient pas sur des ensembles de données réalistes complexes. Dans cet article, nous identifions certains des facteurs limitants de ces modèles, et nous proposons pour chacun d’eux une solution pour en atténuer l'impact. Grâce à ces modifications, nous montrons que les VAE pour la prédiction vidéo peuvent obtenir des résultats de qualité nettement supérieurs par rapport aux références précédentes, et qu'ils peuvent être utilisés pour modéliser des scènes de conduite autonome. Dans le deuxième article, nous proposons un nouveau modèle en cascade pour la génération vidéo basé sur les réseaux antagonistes génératifs (GAN). Après le succès des VAE pour prédiction vidéo, il a été démontré que les GAN produisaient des échantillons vidéo de meilleure qualité pour la génération vidéo conditionnelle à des classes. Cependant, les GAN nécessitent de très grandes tailles de lots ainsi que des modèles de grande capacité, ce qui rend l’entraînement des GAN pour la génération vidéo coûteux computationnellement, à la fois en termes de mémoire et en temps de calcul. Nous proposons de scinder le processus génératif en une cascade de sous-modèles, chacun d'eux résolvant un problème plus simple. Cette division nous permet de réduire considérablement le coût computationnel tout en conservant la qualité de l'échantillon, et nous démontrons que ce modèle peut s'adapter à de très grands ensembles de données ainsi qu’à des vidéos de haute résolution. Dans le troisième article, nous concevons un modèle basé sur le principe qu'une scène est composée de différents objets, mais que les transitions de trame (également appelées règles dynamiques) sont partagées entre les objets. Pour mettre en œuvre cette hypothèse de modélisation, nous concevons un modèle qui extrait d'abord les différentes entités d'une image. Ensuite, le modèle apprend à mettre à jour la représentation de l'objet d'une image à l'autre en choisissant parmi différentes transitions possibles qui sont toutes partagées entre les différents objets. Nous montrons que, lors de l'apprentissage d'un tel modèle, les règles de transition sont fondées sémantiquement, et peuvent être appliquées à des objets non vus lors de l'apprentissage. De plus, nous pouvons utiliser ce modèle pour prédire les observations multimodales futures d'une scène dynamique en choisissant différentes transitions. Dans le dernier article nous proposons un modèle génératif basé sur des techniques de rendu 3D qui permet de générer des scènes avec plusieurs objets. Nous concevons un mécanisme d'inférence pour apprendre les représentations qui peuvent être rendues avec notre modèle et nous optimisons simultanément ce mécanisme d'inférence et le moteur de rendu. Nous montrons que ce modèle possède une représentation interprétable dans laquelle des changements sémantiques appliqués à la représentation de la scène sont rendus dans la scène générée. De plus, nous montrons que, suite au processus d’entraînement, notre modèle apprend à segmenter les objets dans une scène sans annotations et que la représentation apprise peut être utilisée pour résoudre des tâches de compréhension de scène dynamique en déduisant la représentation de chaque observation. / Neural networks are a type of Machine Learning (ML) models that solve complex Artificial Intelligence (AI) tasks without requiring handcrafted data representations. Although they have achieved impressive results in tasks requiring speech, image and language processing, neural networks still struggle to solve dynamic scene understanding tasks. Furthermore, training neural networks usually demands lots data that is annotated manually, which can be an expensive and time-consuming process. This thesis is comprised of four articles proposing generative models for dynamic scenes. Generative modelling is an area of ML that investigates how to learn the mechanisms by which data is produced. The main motivation for generative models is to learn useful data representations without labels as a by-product of approximating the data generation process. Furthermore, generative models are useful for a wide range of applications such as image super-resolution, voice synthesis or text summarization. The first article focuses on improving the performance of previous Variational AutoEncoders (VAEs) for video prediction, which is the task of generating future frames of a dynamic scene given some previous occurred observations. VAEs are a family of latent variable models that can be used to sample data points. Compared to other generative models, VAEs are easy to train and tend to cover all data modes, but often produce lower quality results. In video prediction VAEs were the first models that were able to produce multiple plausible future outcomes given a context, marking an advancement over previous models as for most dynamic scenes the future is not a deterministic function of the past. However, the first VAEs for video prediction produced results with visible visual artifacts and could not operate on complex realistic datasets. In this article we identify some of the limiting factors for these models, and for each of them we propose a solution to ease its impact. With our proposed modifications, we show that VAEs for video prediction can obtain significant higher quality results over previous baselines and that they can be used to model autonomous driving scenes. In the second article we propose a new cascaded model for video generation based on Generative Adversarial Networks (GANs). After the success of VAEs in video prediction, GANs were shown to produce higher quality video samples for class-conditional video generation. However, GANs require very large batch sizes and high capacity models, which makes training GANs for video generation computationally expensive, both in terms of memory and training time. We propose to split the generative process into a cascade of submodels, each of them solving a smaller generative problem. This split allows us to significantly reduce the computational requirements while retaining sample quality, and we show that this model can scale to very large datasets and video resolutions. In the third article we design a model based on the premise that a scene is comprised of different objects but that frame transitions (also known as dynamic rules) are shared among objects. To implement this modeling assumption we design a model that first extracts the different entities in a frame, and then learns to update the object representation from one frame to another by choosing among different possible transitions, all shared among objects. We show that, when learning such a model, the transition rules are semantically grounded and can be applied to objects not seen during training. Further, we can use this model for predicting multimodal future observations of a dynamic scene by choosing different transitions. In the last article we propose a generative model based on 3D rendering techniques that can generate scenes with multiple objects. We design an inference mechanism to learn representations that can be rendered with our model and we simultaneously optimize this inference mechanism and the renderer. We show that this model has an interpretable representation in which semantic changes to the scene representation are shown in the output. Furthermore, we show that, as a by product of the training process, our model learns to segment the objects in a scene without annotations and that the learned representation can be used to solve dynamic scene understanding tasks by inferring the representation of each observation.
6

Generative models : from data generation to representation learning

Zhang, Ruixiang 08 1900 (has links)
La modélisation générative est un domaine en pleine expansion dans l'apprentissage automatique, avec des modèles démontrant des capacités impressionnantes pour la synthèse de données en haute dimension à travers diverses modalités, y compris les images, le texte et l'audio. Cependant, des défis significatifs subsistent pour améliorer la qualité des échantillons et la contrôlabilité des modèles, ainsi que pour développer des méthodes plus principiées et efficaces pour apprendre des représentations de caractéristiques structurées avec des modèles génératifs. Cette thèse conduit une enquête complète en deux parties sur les frontières de la modélisation générative, en mettant l'accent sur l'amélioration de la qualité des échantillons et la manœuvrabilité, ainsi que sur l'apprentissage de représentations latentes de haute qualité. La première partie de la thèse propose de nouvelles techniques pour améliorer la qualité des échantillons et permettre un contrôle fin des modèles génératifs. Premièrement, une nouvelle perspective est introduite pour reformuler les réseaux antagonistes génératifs pré-entraînés comme des modèles basés sur l'énergie, permettant un échantillonnage plus efficace en exploitant à la fois le générateur et le discriminateur. Deuxièmement, un cadre théorique basé sur l'information est développé pour incorporer des biais inductifs explicites dans les modèles à variables latentes grâce aux réseaux bayésiens et à la théorie du goulot d'étranglement multivarié. Cela fournit une vision unifiée pour l'apprentissage de représentations structurées adaptées à différentes applications comme la modélisation multi-modale et l'équité algorithmique. La deuxième partie de la thèse se concentre sur l'apprentissage et l'extraction de caractéristiques de haute qualité des modèles génératifs de manière entièrement non supervisée. Premièrement, une approche basée sur l'énergie est présentée pour l'apprentissage non supervisé de représentations de scènes centrées sur l'objet avec une invariance de permutation. La compositionnalité de la fonction d'énergie permet également une manipulation contrôlable de la scène. Deuxièmement, des noyaux de Fisher neuronaux sont proposés pour extraire des représentations compactes et utiles des modèles génératifs pré-entraînés. Il est démontré que les approximations de rang faible du noyau de Fisher fournissent une technique d'extraction de représentation unifiée compétitive par rapport aux références courantes. Ensemble, ces contributions font progresser la modélisation générative et l'apprentissage de représentations sur des fronts complémentaires. Elles améliorent la qualité des échantillons et la manœuvrabilité grâce à de nouveaux objectifs d'entraînement et des techniques d'inférence. Elles permettent également d'extraire des caractéristiques latentes structurées des modèles génératifs en utilisant des perspectives théoriques basées sur l'information et le noyau neuronal. La thèse offre une enquête complète sur les défis interconnectés de la synthèse de données et de l'apprentissage de représentation pour les modèles génératifs modernes. / Generative modeling is a rapidly advancing field in machine learning, with models demonstrating impressive capabilities for high-dimensional data synthesis across modalities including images, text, and audio. However, significant challenges remain in enhancing sample quality and model controllability, as well as developing more principled and effective methods for learning structured feature representations with generative models. This dissertation conducts a comprehensive two-part investigation into pushing the frontiers of generative modeling, with a focus on improving sample quality and steerability, as well as enabling learning high-quality latent representations. The first part of the dissertation proposes novel techniques to boost sample quality and enable fine-grained control for generative models. First, a new perspective is introduced to reformulate pretrained generative adversarial networks as energy-based models, enabling more effective sampling leveraging both the generator and discriminator. Second, an information-theoretic framework is developed to incorporate explicit inductive biases into latent variable models through Bayesian networks and multivariate information bottleneck theory. This provides a unified view for learning structured representations catered to different applications like multi-modal modeling and algorithmic fairness. The second part of the dissertation focuses on learning and extracting high-quality features from generative models in a fully unsupervised manner. First, an energy-based approach is presented for unsupervised learning of object-centric scene representations with permutation invariance. Compositionality of the energy function also enables controllable scene manipulation. Second, neural fisher kernels are proposed to extract compact and useful representations from pretrained generative models. It is shown that low-rank approximations of the Fisher Kernel provide a unified representation extraction technique competitive with common baselines. Together, the contributions advance generative modeling and representation learning along complementary fronts. They improve sample quality and steerability through new training objectives and inference techniques. They also enable extracting structured latent features from generative models using information-theoretic and neural kernel perspectives. The thesis provides a comprehensive investigation into the interconnected challenges of data synthesis and representation learning for modern generative models.

Page generated in 0.0832 seconds