Return to search

Injection de style par blanchissage et coloration dans un réseau génératif profond

Dans la génération et la manipulation d'images basées sur les GANs, l'injection de style par Adaptive Instance Normalization (AdaIN) est devenue la norme pour paramétrer la génération avec une représentation latente du domaine des images. AdaIN fonctionne en modulant les statistiques des caractéristiques de l'image : il normalise d'abord les caractéristiques en soustrayant leur moyenne et en divisant par leur écart type puis injecte un vecteur de style par l'inverse de cette opération. Bien que cette méthode ait été utilisée avec succès dans une variété de scénarios de traduction d'image à image, la représentation statistique d'AdaIN est limitée en ce qu'elle ne tient pas compte des corrélations entre les caractéristiques. Cependant, dans la littérature du transfert de style, la transformation par blanchiment et coloration (Whitening & Coloring Transformation WCT) est devenue l'approche privilégiée, car elle prend compte de l'existence de ces corrélations. Toutefois, malgré ses bonnes performances en matière de transfert de style, l'utilisation du WCT n'a jusqu'à présent pas été explorée de manière approfondie dans le contexte de l'injection de style. Dans ce travail, nous comblons cette lacune en remplaçant AdaIN par une opération de WCT explicite pour l'injection de style dans les GAN. Plus précisément, nous introduisons un module qui peut être utilisé en remplacement des blocs AdaIN (sans changement additionnel) dans les architectures GAN populaires existantes et présentons son impact sur les tâches de génération. Effectivement, dans la génération d'images conditionnelles, où l'espace latent est destiné à représenter le style des images, nous constatons que le blanchiment aide à s'assurer que l'espace n'encode que des informations stylistiques, ce qui permet au contenu de l'image conditionnelle d'être plus visible. Nous démontrons les performances de notre méthode dans deux scénarios : 1) dans un context d'entraînement supervisé à l'aide du jeu de données Google Maps et 2) en ayant recours à l'architecture StarGANv2 multi-domaine et multi-modale dans une situation d'entraînement non-supervisé et ce en utilisant le jeu de données Animal Faces-HQ (AFHQ). / In the GAN-based images generation and manipulation domain, style injection by Adaptive Instance Normalization (AdaIN) has become the standard method to allow the generation with a latent representation of the image domain. AdaIN works by modulating the statistics of the characteristics of the image: it first normalizes the characteristics by subtracting their mean and dividing by their standard deviation then it injects a style vector by the reverse of this operation. Although this method has been used successfully in a variety of image-to-image translation scenarios, the statistical representation of AdaIN is limited in that it does not take into account the existing correlations between the features. However, in the style transfer literature, the transformation by whitening and coloring (Whitening & Coloring Transformation WCT) has become the preferred approach because it takes into account the existence of these correlations. Yet, despite its good performance in terms of style transfer, the use of WCT has so far not been explored in depth in the style injection literature. In this work, we fill this gap by replacing AdaIN by an explicit operation of WCT for style injection in GAN. More specifically, we introduce a module that can be used as a replacement for the AdaIN blocks (without any additional change) in the existing popular GAN architectures and we present its impact on generation tasks. Indeed, in the conditional image generation task, where the latent space is intended to represent the style of the images, we find that whitening helps ensure that the space encodes only stylistic information which allows the content of the input image to be more visible. We demonstrate the performance of our method in two scenarios: 1) in a supervised training context using the Google Maps dataset and 2) using multi-domain and multi-modal StarGANv2 architecture in an unsupervised training setup using the Animal Faces-HQ (AFHQ) dataset.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/73346
Date13 December 2023
CreatorsDufour, Antoine
ContributorsLalonde, Jean-François
Source SetsUniversité Laval
LanguageFrench
Detected LanguageEnglish
Typemémoire de maîtrise, COAR1_1::Texte::Thèse::Mémoire de maîtrise
Format1 ressource en ligne (ix, 62 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0025 seconds