• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 27
  • 4
  • 3
  • Tagged with
  • 42
  • 42
  • 35
  • 30
  • 30
  • 30
  • 29
  • 24
  • 22
  • 22
  • 21
  • 20
  • 19
  • 17
  • 17
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Conditional generative modeling for images, 3D animations, and video

Voleti, Vikram 07 1900 (has links)
Generative modeling for computer vision has shown immense progress in the last few years, revolutionizing the way we perceive, understand, and manipulate visual data. This rapidly evolving field has witnessed advancements in image generation, 3D animation, and video prediction that unlock diverse applications across multiple fields including entertainment, design, healthcare, and education. As the demand for sophisticated computer vision systems continues to grow, this dissertation attempts to drive innovation in the field by exploring novel formulations of conditional generative models, and innovative applications in images, 3D animations, and video. Our research focuses on architectures that offer reversible transformations of noise and visual data, and the application of encoder-decoder architectures for generative tasks and 3D content manipulation. In all instances, we incorporate conditional information to enhance the synthesis of visual data, improving the efficiency of the generation process as well as the generated content. Prior successful generative techniques which are reversible between noise and data include normalizing flows and denoising diffusion models. The continuous variant of normalizing flows is powered by Neural Ordinary Differential Equations (Neural ODEs), and have shown some success in modeling the real image distribution. However, they often involve huge number of parameters, and high training time. Denoising diffusion models have recently gained huge popularity for their generalization capabilities especially in text-to-image applications. In this dissertation, we introduce the use of Neural ODEs to model video dynamics using an encoder-decoder architecture, demonstrating their ability to predict future video frames despite being trained solely to reconstruct current frames. In our next contribution, we propose a conditional variant of continuous normalizing flows that enables higher-resolution image generation based on lower-resolution input. This allows us to achieve comparable image quality to regular normalizing flows, while significantly reducing the number of parameters and training time. Our next contribution focuses on a flexible encoder-decoder architecture for accurate estimation and editing of full 3D human pose. We present a comprehensive pipeline that takes human images as input, automatically aligns a user-specified 3D human/non-human character with the pose of the human, and facilitates pose editing based on partial input information. We then proceed to use denoising diffusion models for image and video generation. Regular diffusion models involve the use of a Gaussian process to add noise to clean images. In our next contribution, we derive the relevant mathematical details for denoising diffusion models that use non-isotropic Gaussian processes, present non-isotropic noise, and show that the quality of generated images is comparable with the original formulation. In our final contribution, devise a novel framework building on denoising diffusion models that is capable of solving all three video tasks of prediction, generation, and interpolation. We perform ablation studies using this framework, and show state-of-the-art results on multiple datasets. Our contributions are published articles at peer-reviewed venues. Overall, our research aims to make a meaningful contribution to the pursuit of more efficient and flexible generative models, with the potential to shape the future of computer vision. / La modélisation générative pour la vision par ordinateur a connu d’immenses progrès ces dernières années, révolutionnant notre façon de percevoir, comprendre et manipuler les données visuelles. Ce domaine en constante évolution a connu des avancées dans la génération d’images, l’animation 3D et la prédiction vidéo, débloquant ainsi diverses applications dans plusieurs domaines tels que le divertissement, le design, la santé et l’éducation. Alors que la demande de systèmes de vision par ordinateur sophistiqués ne cesse de croître, cette thèse s’efforce de stimuler l’innovation dans le domaine en explorant de nouvelles formulations de modèles génératifs conditionnels et des applications innovantes dans les images, les animations 3D et la vidéo. Notre recherche se concentre sur des architectures offrant des transformations réversibles du bruit et des données visuelles, ainsi que sur l’application d’architectures encodeur-décodeur pour les tâches génératives et la manipulation de contenu 3D. Dans tous les cas, nous incorporons des informations conditionnelles pour améliorer la synthèse des données visuelles, améliorant ainsi l’efficacité du processus de génération ainsi que le contenu généré. Les techniques génératives antérieures qui sont réversibles entre le bruit et les données et qui ont connu un certain succès comprennent les flux de normalisation et les modèles de diffusion de débruitage. La variante continue des flux de normalisation est alimentée par les équations différentielles ordinaires neuronales (Neural ODEs) et a montré une certaine réussite dans la modélisation de la distribution d’images réelles. Cependant, elles impliquent souvent un grand nombre de paramètres et un temps d’entraînement élevé. Les modèles de diffusion de débruitage ont récemment gagné énormément en popularité en raison de leurs capacités de généralisation, notamment dans les applications de texte vers image. Dans cette thèse, nous introduisons l’utilisation des Neural ODEs pour modéliser la dynamique vidéo à l’aide d’une architecture encodeur-décodeur, démontrant leur capacité à prédire les images vidéo futures malgré le fait d’être entraînées uniquement à reconstruire les images actuelles. Dans notre prochaine contribution, nous proposons une variante conditionnelle des flux de normalisation continus qui permet une génération d’images à résolution supérieure à partir d’une entrée à résolution inférieure. Cela nous permet d’obtenir une qualité d’image comparable à celle des flux de normalisation réguliers, tout en réduisant considérablement le nombre de paramètres et le temps d’entraînement. Notre prochaine contribution se concentre sur une architecture encodeur-décodeur flexible pour l’estimation et l’édition précises de la pose humaine en 3D. Nous présentons un pipeline complet qui prend des images de personnes en entrée, aligne automatiquement un personnage 3D humain/non humain spécifié par l’utilisateur sur la pose de la personne, et facilite l’édition de la pose en fonction d’informations partielles. Nous utilisons ensuite des modèles de diffusion de débruitage pour la génération d’images et de vidéos. Les modèles de diffusion réguliers impliquent l’utilisation d’un processus gaussien pour ajouter du bruit aux images propres. Dans notre prochaine contribution, nous dérivons les détails mathématiques pertinents pour les modèles de diffusion de débruitage qui utilisent des processus gaussiens non isotropes, présentons du bruit non isotrope, et montrons que la qualité des images générées est comparable à la formulation d’origine. Dans notre dernière contribution, nous concevons un nouveau cadre basé sur les modèles de diffusion de débruitage, capable de résoudre les trois tâches vidéo de prédiction, de génération et d’interpolation. Nous réalisons des études d’ablation en utilisant ce cadre et montrons des résultats de pointe sur plusieurs ensembles de données. Nos contributions sont des articles publiés dans des revues à comité de lecture. Dans l’ensemble, notre recherche vise à apporter une contribution significative à la poursuite de modèles génératifs plus efficaces et flexibles, avec le potentiel de façonner l’avenir de la vision par ordinateur.
32

Understanding, improving, and generalizing generative models

Jolicoeur-Martineau, Alexia 08 1900 (has links)
Les modèles génératifs servent à générer des échantillons d'une loi de probabilité (ex. : du texte, des images, de la musique, des vidéos, des molécules, et beaucoup plus) à partir d'un jeu de données (ex. : une banque d'images, de texte, ou autre). Entrainer des modèles génératifs est une tâche très difficile, mais ces outils ont un très grand potentiel en termes d'applications. Par exemple, dans le futur lointain, on pourrait envisager qu'un modèle puisse générer les épisodes d'une émission de télévision à partir d'un script et de voix générés par d'autres modèles génératifs. Il existe plusieurs types de modèles génératifs. Pour la génération d'images, l'approche la plus fructueuse est sans aucun doute la méthode de réseaux adverses génératifs (GANs). Les GANs apprennent à générer des images par un jeu compétitif entre deux joueurs, le Discriminateur et le Générateur. Le Discriminateur tente de prédire si une image est vraie ou fausse, tandis que le Générateur tente de générer des images plus réalistes en apprenant à faire croire au discriminateur que ces fausses images générées sont vraies. En complétant ce jeu, les GANs arrivent à générer des images presque photo-réalistes. Il est souvent possible pour des êtres humains de distinguer les fausses images (générés par les GANs) des vraies images (ceux venant du jeu de données), mais la tâche devient plus difficile au fur et à mesure que cette technologie s'améliore. Le plus gros défaut des GANs est que les données générées par les GANs manquent souvent de diversité (ex. : les chats au visage aplati sont rares dans la banque d'images, donc les GANs génèrent juste des races de chats plus fréquentes). Ces méthodes souvent aussi souvent très instables. Il y a donc encore beaucoup de chemin à faire avant l'obtention d'images parfaitement photo-réalistes et diverses. De nouvelles méthodes telles que les modèles de diffusion à la base de score semblent produire de meilleurs résultats que les GANs, donc tout n'est pas gagné pour les GANs. C'est pourquoi cette thèse n'est pas concentrée seulement sur les GANs, mais aussi sur les modèles de diffusion. Notez que cette thèse est exclusivement concentrée sur la génération de données continues (ex. : images, musique, vidéos) plutôt que discrètes (ex. : texte), car cette dernière fait usage de méthodes complètement différentes. Le premier objectif de cette thèse est d'étudier les modèles génératifs de façon théorique pour mieux les comprendre. Le deuxième objectif de cette thèse est d'inventer de nouvelles astuces (nouvelles fonctions objectives, régularisations, architectures, etc.) permettant d'améliorer les modèles génératifs. Le troisième objectif est de généraliser ces approches au-delà de leur formulation initiale, pour permettre la découverte de nouveaux liens entre différentes approches. Ma première contribution est de proposer un discriminateur relativiste qui estime la probabilité qu'une donnée réelle, soit plus réaliste qu'une donnée fausse (inventée par un modèle générateur). Les GANs relativistes forment une nouvelle classe de fonctions de perte qui apportent beaucoup de stabilité durant l'entrainement. Ma seconde contribution est de prouver que les GANs relativistes forment une mesure de dissimilarité. Ma troisième contribution est de concevoir une variante adverse au appariement de score pour produire des données de meilleure qualité avec les modèles de diffusion. Ma quatrième contribution est d'améliorer la vitesse de génération des modèles de diffusion par la création d'une méthode numérique de résolution pour équations différentielles stochastiques (SDEs). / Generative models are powerful tools to generate samples (e.g., images, music, text) from an unknown distribution given a finite set of examples. Generative models are hard to train successfully, but they have the potential to revolutionize arts, science, and business. These models can generate samples from various data types (e.g., text, images, audio, videos, 3d). In the future, we can envision generative models being used to create movies or episodes from a TV show given a script (possibly also generated by a generative model). One of the most successful methods for generating images is Generative Adversarial Networks (GANs). This approach consists of a game between two players, the Discriminator and the Generator. The goal of the Discriminator is to classify an image as real or fake, while the Generator attempts to fool the Discriminator into thinking that the fake images it generates are real. Through this game, GANs are able to generate very high-quality samples, such as photo-realistic images. Humans are still generally able to distinguish real images (from the training dataset) from fake images (generated by GANs), but the gap is lessening as GANs become better over time. The biggest weakness of GANs is that they have trouble generating diverse data representative of the full range of the data distribution. Thus, there is still much progress to be made before GANs reach their full potential. New methods performing better than GANs are also appearing. One prime example is score-based diffusion models. This thesis focuses on generative models that seemed promising at the time for continuous data generation: GANs and score-based diffusion models. I seek to improve generative models so that they reach their full potential (Objective 1: Improving) and to understand these approaches better on a theoretical level (Objective 2: Theoretical understanding). I also want to generalize these approaches beyond their original setting (Objective 3: Generalizing), allowing the discovery of new connections between different concepts/fields. My first contribution is to propose using a relativistic discriminator, which estimates the probability that a given real data is more realistic than a randomly sampled fake data. Relativistic GANs form a new class of GAN loss functions that are much more stable with respect to optimization hyperparameters. My second contribution is to take a more rigorous look at relativistic GANs and prove that they are proper statistical divergences. My third contribution is to devise an adversarial variant to denoising score matching, which leads to higher quality data with score-based diffusion models. My fourth contribution is to significantly improve the speed of score-based diffusion models through a carefully devised Stochastic Differential Equation (SDE) solver.
33

Expressivité et contrôle de modèles d’apprentissage automatique dans un corpus d’installations audiovisuelles

Lavoie Viau, Gabriel 12 1900 (has links)
L’appropriation d’algorithmes existants, la création d’outils numériques et des recherches conceptuelles ont mené à la création de deux installations audiovisuelles interactives. La première, Deep Duo, met en scène des réseaux de neurones artificiels contrôlant des synthétiseurs modulaires. La deuxième, Morphogenèse, l’œuvre d’envergure de ce mémoire, met en relation le spectateur avec des modèles profonds génératifs et le place face à des représentations artificielles de sa voix et de son visage. Les installations et leurs fonctionnements seront décrits et, à travers des exemples de stratégies créatives et des concepts théoriques en lien avec l’interactivité et l’esthétique des comportements, des pistes pour favoriser l’utilisation d’algorithmes d’apprentissage automatique à des fins créatives seront proposées. / The appropriation of existing algorithms, the creation of digital tools and conceptual research have led to the creation of two interactive audiovisual installations. The first, Deep Duo, features artificial neural networks controlling modular synthesizers. The second, Morphogenesis, the major work of this dissertation, connects the viewer with generative deep models and places them in front of artificial representations of their voice and face. We will describe these installations and their functioning and, through examples of creative strategies and theoretical concepts related to interactivity and the aesthetics of behaviour, we will propose ways to promote the use of machine learning algorithms for creative purposes.
34

Some phenomenological investigations in deep learning

Baratin, Aristide 12 1900 (has links)
Les remarquables performances des réseaux de neurones profonds dans de nombreux domaines de l'apprentissage automatique au cours de la dernière décennie soulèvent un certain nombre de questions théoriques. Par exemple, quels mecanismes permettent à ces reseaux, qui ont largement la capacité de mémoriser entièrement les exemples d'entrainement, de généraliser correctement à de nouvelles données, même en l'absence de régularisation explicite ? De telles questions ont fait l'objet d'intenses efforts de recherche ces dernières années, combinant analyses de systèmes simplifiés et études empiriques de propriétés qui semblent être corrélées à la performance de généralisation. Les deux premiers articles présentés dans cette thèse contribuent à cette ligne de recherche. Leur but est de mettre en évidence et d'etudier des mécanismes de biais implicites permettant à de larges modèles de prioriser l'apprentissage de fonctions "simples" et d'adapter leur capacité à la complexité du problème. Le troisième article aborde le problème de l'estimation de information mutuelle en haute, en mettant à profit l'expressivité et la scalabilité des reseaux de neurones profonds. Il introduit et étudie une nouvelle classe d'estimateurs, dont il présente plusieurs applications en apprentissage non supervisé, notamment à l'amélioration des modèles neuronaux génératifs. / The striking empirical success of deep neural networks in machine learning raises a number of theoretical puzzles. For example, why can they generalize to unseen data despite their capacity to fully memorize the training examples? Such puzzles have been the subject of intense research efforts in the past few years, which combine rigorous analysis of simplified systems with empirical studies of phenomenological properties shown to correlate with generalization. The first two articles presented in these thesis contribute to this line of work. They highlight and discuss mechanisms that allow large models to prioritize learning `simple' functions during training and to adapt their capacity to the complexity of the problem. The third article of this thesis addresses the long standing problem of estimating mutual information in high dimension, by leveraging the scalability of neural networks. It introduces and studies a new class of estimators and present several applications in unsupervised learning, especially on enhancing generative models.
35

Sequential decision modeling in uncertain conditions

Kastner, Kyle 08 1900 (has links)
Cette thèse consiste en une série d’approches pour la modélisation de décision structurée - c’est-à-dire qu’elle propose des solutions utilisant des modèles génératifs pour des tâches intégrant plusieurs entrées et sorties, ces entrées et sorties étant dictées par des interactions complexes entre leurs éléments. Un aspect crucial de ces problèmes est la présence en plus d’un résultat correct, des résultats structurellement différents mais considérés tout aussi corrects, résultant d’une grande mais nécessaire incertitude sur les sorties du système. Cette thèse présente quatre articles sur ce sujet, se concentrent en particulier sur le domaine de la synthèse vocale à partir de texte, génération symbolique de musique, traitement de texte, reconnaissance automatique de la parole, et apprentissage de représentations pour la parole et le texte. Chaque article présente une approche particulière à un problème dans ces domaines respectifs, en proposant et étudiant des architectures profondes pour ces domaines. Bien que ces techniques d’apprentissage profond utilisées dans ces articles sont suffisamment versatiles et expressives pour être utilisées dans d’autres domaines, nous resterons concentrés sur les applications décrites dans chaque article. Le premier article présente une approche permettant le contrôle détaillé, au niveau phonétique et symbolique, d’un système de synthèse vocale, en utilisant une méthode d’échange efficace permettant de combiner des représentations à un niveau lexical. Puisque cette combinaison permet un contrôle proportionné sur les conditions d’entrée, et améliore les prononciations faisant uniquement usage de caractères, ce système de combinaison pour la synthèse vocale a été préféré durant des tests A/B par rapport à des modèles de référence équivalents utilisant les mêmes modalités. Le deuxième article se concentre sur un autre système de synthèse vocale, cette fois-ci centré sur la construction d’une représentation multi-échelle de la parole à travers une décomposition structurée des descripteurs audio. En particulier, l’intérêt de ce travail est dans sa méthodologie économe en calcul malgré avoir été bâti à partir de travaux antérieurs beaucoup plus demandant en ressources de calcul. Afin de bien pouvoir faire de la synthèse vocale sous ces contraintes computationelles, plusieurs nouvelles composantes ont été conçues et intégrées à ce qui devient un modèle efficace de synthèse vocale. Le troisième article un nouveau modèle auto-régressif pour modéliser des chaînes de symboles. Ce modèle fait usage de prédictions et d’estimations itérative et répétées afin de construire une sortie structurée respectant plusieurs contraintes correspondant au domaine sous-jacent. Ce modèle est testé dans le cadre de la génération symbolique de musique et la modélisation de texte, faisant preuve d’excellentes performances en particulier quand la quantité de données s’avère limitée. Le dernier article de la thèse se concentre sur l’étude des représentations pour la parole et le texte apprise à partir d’un système de reconnaissance vocale d’un travail antérieur. À travers une série d’études systématiques utilisant des modèles pré-entraînés de texte et de durée, relations qualitatives entre les données de texte et de parole, et études de performance sur la récupération transmodal “few shot”, nous exposons plusieurs propriétés essentielles sous-jacent à la performance du système, ouvrant la voie pour des développements algorithmiques futurs. De plus, les différents modèles résultants de cette étude obtiennent des résultats impressionnants sur un nombre de tâches de référence utilisant des modèles pré-entraîné transféré sans modification. / This thesis presents a sequence of approaches to structured decision modeling - that is, proposing generative solutions to tasks with multiple inputs and outputs, featuring complicated interactions between input elements and output elements. Crucially, these problems also include a high amount of uncertainty about the correct outcome and many largely equivalent but structurally different outcomes can be considered equally correct. This thesis presents four articles about these topics, particularly focusing on the domains of text-to-speech synthesis, symbolic music generation, text processing, automatic speech recognition, and speech-text representation learning. Each article presents a particular approach to solving problems in these respective domains, focused on proposing and understanding deep learning architectures for these domains. The deep learning techniques used in these articles are broadly applicable, flexible, and powerful enough that these general approaches may find application to other areas however we remain focused on the domains discussed in each respective article. The first article presents an approach allowing for flexible phonetic and character control of a text-to-speech system, utilizing an efficient "swap-out" method for blending representations at the word level. This blending allows for smooth control over input conditions, and also strengthens character only pronunciations, resulting in a preference for a blended text-to-speech system in A/B testing, compared to an equivalent baselines even when using the same input information modalities. The second article focuses on another text-to-speech system, this time centered on building multi-scale representations of speech audio using a structured decomposition of audio features. Particularly this work focuses on a compute efficient methodology, while building on prior work which requires a much greater computational budget than the proposed system. In order to effectively perform text-to-speech synthesis under these computational constraints, a number of new components are constructed and integrated, resulting in an efficient model for text-to-speech synthesis. The third article presents a new non-autoregressive model for modeling symbolic sequences. This model uses iterative prediction and re-estimation in order to build structured outputs, which respect numerous constraints in the underlying sequence domain. This model is applied to symbolic music modeling and text modeling, showing excellent performance particularly in limited data generative settings. The final article in this thesis focuses on understanding the speech-text representations learned by a text-injected speech recognition system from prior literature. Through a systematic series of studies utilizing pre-trained text and duration models, qualitative relations between text and speech sequences, and performance studies in few-shot cross-modal retrieval, we reveal a number of crucial properties underlying the performance of this system, paving the way for future algorithmic development. In addition, model variants built during this study achieve impressive performance results on a number of benchmark tasks using partially frozen and transferred parameters.
36

Fast high-dimensional posterior inference with deep generative models : application to CMB delensing

Sotoudeh, Mohammad-Hadi 08 1900 (has links)
Nous vivons à une époque marquée par une abondance de données cosmologiques de haute résolution. Cet afflux de données engendré par les missions d'observation de nouvelle génération au sol et dans l'espace porte le potentiel de remodeler fondamentalement notre compréhension de l'univers et de ses principes physiques sous-jacents. Cependant, la complexité grande des données observées pose des défis aux approches conventionnelles d'analyse de données, soit en raison de coûts de calcul irréalisables, soit en raison des hypothèses simplificatrices utilisées dans ces algorithmes qui deviennent inadéquates dans des contextes haute résolution à faible bruit, conduisant à des résultats sous-optimaux. En réponse, la communauté scientifique s'est tournée vers des méthodes innovantes d'analyse de données, notamment les techniques d'apprentissage automatique (ML). Les modèles de ML, lorsqu'ils sont bien entraînés, peuvent identifier de manière autonome des correlations significatives dans les données de manière plus efficace et sans hypothèses restrictives inutiles. Bien que les méthodes de ML aient montré des promesses en astrophysique, elles présentent également des problèmes tels que le manque d'interprétabilité, les biais cachés et les estimations d'incertitude non calibrées, ce qui, jusqu'a maintenant, a entrave leur application dans d'importantes découvertes scientifiques. Ce projet s'inscrit dans le cadre de la collaboration "Learning the Universe" (LtU), axée sur la reconstruction des conditions initiales de l'univers, en utilisant une approche de modélisation bayésienne et en exploitant la puissance du ML. L'objectif de ce projet est de développer un cadre pour mener une inférence bayésienne au niveau des pixels dans des problèmes multidimensionnels. Dans cette thèse, je présente le développement d'un cadre d'apprentissage profond pour un échantillonnage rapide des postérieurs en dimensions élevées. Ce cadre utilise l'architecture "Hierarchical Probabilistic U-Net", qui combine la puissance de l'architecture U-Net dans l'apprentissage de cartes multidimensionnelles avec le rigoureux cadre d'inférence des autoencodeurs variationnels conditionnels. Notre modèle peut quantifier les incertitudes dans ses données d'entraînement et générer des échantillons à partir de la distribution a posteriori des paramètres, pouvant être utilisés pour dériver des estimations d'incertitude pour les paramètres inférés. L'efficacité de notre cadre est démontrée en l'appliquant au problème de la reconstruction de cartes du fond diffus cosmologique (CMB) pour en retirer de l'effet de lentille gravitationnelle faible. Notre travail constitue un atout essentiel pour effectuer une inférence de vraisemblance implicite en dimensions élevées dans les domaines astrophysiques. Il permet d'exploiter pleinement le potentiel des missions d'observation de nouvelle génération pour améliorer notre compréhension de l'univers et de ses lois physiques fondamentales. / We live in an era marked by an abundance of high-resolution cosmological data. This influx of data brought about by next-generation observational missions on the ground and in space, bears the potential of fundamentally reshaping our understanding of the universe and its underlying physical principles. However, the elevated complexity of the observed data poses challenges to conventional data analysis approaches, either due to infeasible computational costs or the simplifying assumptions used in these algorithms that become inadequate in high-resolution, low-noise contexts, leading to suboptimal results. In response, the scientific community has turned to innovative data analysis methods, including machine learning (ML) techniques. ML models, when well-trained, can autonomously identify meaningful patterns in data more efficiently and without unnecessary restrictive assumptions. Although ML methods have shown promise in astrophysics, they also exhibit issues like lack of interpretability, hidden biases, and uncalibrated uncertainty estimates, which have hindered their application in significant scientific discoveries. This project is defined within the context of the Learning the Universe (LtU) collaboration, focused on reconstructing the initial conditions of the universe, utilizing a Bayesian forward modeling approach and harnessing the power of ML. The goal of this project is to develop a framework for conducting Bayesian inference at the pixel level in high-dimensional problems. In this thesis, I present the development of a deep learning framework for fast high-dimensional posterior sampling. This framework utilizes the Hierarchical Probabilistic U-Net architecture, which combines the power of the U-Net architecture in learning high-dimensional mappings with the rigorous inference framework of Conditional Variational Autoencoders. Our model can quantify uncertainties in its training data and generate samples from the posterior distribution of parameters, which can be used to derive uncertainty estimates for the inferred parameters. The effectiveness of our framework is demonstrated by applying it to the problem of removing the weak gravitational lensing effect from the CMB. Our work stands as an essential asset to performing high-dimensional implicit likelihood inference in astrophysical domains. It enables utilizing the full potential of next-generation observational missions to improve our understanding of the universe and its fundamental physical laws.
37

Probability flows in deep learning

Huang, Chin-Wei 10 1900 (has links)
Les modèles génératifs basés sur la vraisemblance sont des éléments fondamentaux pour la modélisation statistique des données structurées. Ils peuvent être utilisés pour synthétiser des échantillons de données réalistes, et la fonction de vraisemblance peut être utilisée pour comparer les modèles et déduire diverses quantités statistiques. Cependant, le défi réside dans le développement de modèles capables de saisir avec précision les schémas statistiques présentés dans la distribution des données. Les modèles existants rencontrent souvent des limitations en termes de flexibilité représentationnelle et d’évolutivité computationnelle en raison du choix de la paramétrisation, freinant ainsi la progression vers cet idéal. Cette thèse présente une exploration systématique des structures appropriées qui peuvent être exploitées pour concevoir des modèles génératifs basés sur la vraisemblance, allant des architectures spécialisées telles que les applications triangulaires et les applications de potentiel convexes aux systèmes dynamiques paramétriques tels que les équations différentielles neuronales qui présentent des contraintes minimales en termes de paramétrisation. Les modèles proposés sont fondés sur des motivations théoriques et sont analysés à travers le prisme du changement de variable associé au processus de génération de données. Cette perspective permet de considérer ces modèles comme des formes distinctes de probability flows, unifiant ainsi des classes apparemment non liées de modèles génératifs basés sur la vraisemblance. De plus, des conceptions algorithmiques pratiques sont introduites pour calculer, approximer ou estimer les quantités nécessaires pour l’apprentissage et l’évaluation. Il est prévu que cette thèse suscite l’intérêt des communautés de modélisation générative et d’apprentissage automatique Bayésien/probabiliste, et qu’elle serve de ressource précieuse et d’inspiration pour les chercheurs et les praticiens du domaine. / Likelihood-based generative models are fundamental building blocks for statistical modeling of structured data. They can be used to synthesize realistic data samples, and the likelihood function can be used for comparing models and inferring various statistical quantities. However, the challenge lies in developing models capable of accurately capturing the statistical patterns presented in the data distribution. Existing models often face limitations in representational flexibility and computational scalability due to the choice of parameterization, impeding progress towards this ideal. This thesis presents a systematic exploration of suitable structures that can be exploited to design likelihood-based generative models, spanning from specialized architectures like triangular maps and convex potential maps to parametric dynamical systems such as neural differential equations that bear minimal parameterization restrictions. The proposed models are rooted in theoretical foundations and analyzed through the lens of the associated change of variable in the data generation process. This perspective allows for viewing these models as distinct forms of probability flows, thereby unifying seemingly unrelated classes of likelihood-based generative models. Moreover, practical algorithmic designs are introduced to compute, approximate, or estimate necessary quantities for training and testing purposes. It is anticipated that this thesis would be of interest to the generative modeling and Bayesian/probabilistic machine learning communities, and will serve as a valuable resource and inspiration for both researchers and practitioners in the field.
38

Sur la génération d'exemples pour réduire le coût d'annotation

Piedboeuf, Frédéric 03 1900 (has links)
L'apprentissage machine moderne s'appuie souvent sur l'utilisation de jeux de données massifs, mais il existe de nombreux contextes où l'acquisition et la manipulation de grandes données n'est pas possible, et le développement de techniques d'apprentissage avec de petites données est donc essentiel. Dans cette thèse, nous étudions comment diminuer le nombre de données nécessaires à travers deux paradigmes d'apprentissage~: l'augmentation de données et l'apprentissage par requête synthétisée. La thèse s'organise en quatre volets, chacun démontrant une nouvelle facette concernant la génération d'exemples pour réduire le coût d'annotation. Le premier volet regarde l'augmentation de données pour des textes en anglais, ce qui nous permet d'établir une comparaison objective des techniques et de développer de nouveaux algorithmes. Le deuxième volet regarde ensuite l'augmentation de données dans les langues autres que l'anglais, et le troisième pour la tâche de génération de mots-clés en français. Finalement, le dernier volet s'intéresse à l'apprentissage par requête synthétisée, où les exemples générés sont annotés, en contraste à l'augmentation de données qui produit des exemples sans coût d'annotation supplémentaire. Nous montrons que cette technique permet de meilleures performances, particulièrement lorsque le jeu de données est large et l'augmentation de données souvent inefficace. / Modern machine learning often relies on the use of massive datasets, but there are many contexts where acquiring and handling large data is not feasible, making the development of techniques for learning with small data essential. In this thesis, we investigate how to reduce the amount of data required through two learning paradigms~: data augmentation and membership query synthesis. The thesis is organized into four parts, each demonstrating a new aspect of generating examples to reduce annotation costs. The first part examines data augmentation for English text, allowing us to make an objective comparison of techniques and develop new algorithms. The second one then explores data augmentation in languages other than English, and the third focuses on the task of keyword generation in French. Finally, the last part delves into membership query synthesis, where generated examples are annotated, in contrast to data augmentation, which produces examples without additional annotation costs. We show that this technique leads to better performance, especially when the dataset is large and data augmentation is often ineffective.
39

Representation Learning for Visual Data

Dumoulin, Vincent 09 1900 (has links)
No description available.
40

Adversarial games in machine learning : challenges and applications

Berard, Hugo 08 1900 (has links)
L’apprentissage automatique repose pour un bon nombre de problèmes sur la minimisation d’une fonction de coût, pour ce faire il tire parti de la vaste littérature sur l’optimisation qui fournit des algorithmes et des garanties de convergences pour ce type de problèmes. Cependant récemment plusieurs modèles d’apprentissage automatique qui ne peuvent pas être formulé comme la minimisation d’un coût unique ont été propose, à la place ils nécessitent de définir un jeu entre plusieurs joueurs qui ont chaque leur propre objectif. Un de ces modèles sont les réseaux antagonistes génératifs (GANs). Ce modèle génératif formule un jeu entre deux réseaux de neurones, un générateur et un discriminateur, en essayant de tromper le discriminateur qui essaye de distinguer les vraies images des fausses, le générateur et le discriminateur s’améliore résultant en un équilibre de Nash, ou les images produites par le générateur sont indistinguable des vraies images. Malgré leur succès les GANs restent difficiles à entrainer à cause de la nature antagoniste du jeu, nécessitant de choisir les bons hyperparamètres et résultant souvent en une dynamique d’entrainement instable. Plusieurs techniques de régularisations ont été propose afin de stabiliser l’entrainement, dans cette thèse nous abordons ces instabilités sous l’angle d’un problème d’optimisation. Nous commençons par combler le fossé entre la littérature d’optimisation et les GANs, pour ce faire nous formulons GANs comme un problème d’inéquation variationnelle, et proposons de la littérature sur le sujet pour proposer des algorithmes qui convergent plus rapidement. Afin de mieux comprendre quels sont les défis de l’optimisation des jeux, nous proposons plusieurs outils afin d’analyser le paysage d’optimisation des GANs. En utilisant ces outils, nous montrons que des composantes rotationnelles sont présentes dans le voisinage des équilibres, nous observons également que les GANs convergent rarement vers un équilibre de Nash mais converge plutôt vers des équilibres stables locaux (LSSP). Inspirer par le succès des GANs nous proposons pour finir, une nouvelle famille de jeux que nous appelons adversarial example games qui consiste à entrainer simultanément un générateur et un critique, le générateur cherchant à perturber les exemples afin d’induire en erreur le critique, le critique cherchant à être robuste aux perturbations. Nous montrons qu’à l’équilibre de ce jeu, le générateur est capable de générer des perturbations qui transfèrent à toute une famille de modèles. / Many machine learning (ML) problems can be formulated as minimization problems, with a large optimization literature that provides algorithms and guarantees to solve this type of problems. However, recently some ML problems have been proposed that cannot be formulated as minimization problems but instead require to define a game between several players where each player has a different objective. A successful application of such games in ML are generative adversarial networks (GANs), where generative modeling is formulated as a game between a generator and a discriminator, where the goal of the generator is to fool the discriminator, while the discriminator tries to distinguish between fake and real samples. However due to the adversarial nature of the game, GANs are notoriously hard to train, requiring careful fine-tuning of the hyper-parameters and leading to unstable training. While regularization techniques have been proposed to stabilize training, we propose in this thesis to look at these instabilities from an optimization perspective. We start by bridging the gap between the machine learning and optimization literature by casting GANs as an instance of the Variational Inequality Problem (VIP), and leverage the large literature on VIP to derive more efficient and stable algorithms to train GANs. To better understand what are the challenges of training GANs, we then propose tools to study the optimization landscape of GANs. Using these tools we show that GANs do suffer from rotation around their equilibrium, and that they do not converge to Nash-Equilibria. Finally inspired by the success of GANs to generate images, we propose a new type of games called Adversarial Example Games that are able to generate adversarial examples that transfer across different models and architectures.

Page generated in 0.0875 seconds