[pt] Esta dissertação propõe a Rede Generativa Adversarial por Convolução
Rápida de Fourier (FCGAN). Essa abordagem inovadora utiliza convoluções
no domínio da frequência para permitir que a rede opere com um campo receptivo de abrangência global. Devido aos seus campos receptivos pequenos,
GANs baseadas em convoluções tradicionais enfrentam dificuldades para capturar padrões estruturais e geométricos. Nosso método utiliza Convoluções
Rápidas de Fourier (FFCs), que usam Transformadas de Fourier para operar
no domínio espectral, afetando globalmente os canais da imagem. Assim, a
FCGAN é capaz de gerar imagens considerando informações de todas as localizações dos mapas de entrada. Essa nova característica da rede pode levar a um
desempenho errático e instável. Mostramos que a utilização de normalização
espectral e injeções de ruído estabilizam o treinamento adversarial. O uso de
convoluções espectrais em redes convolucionais tem sido explorado para tarefas como inpainting e super-resolução de imagens. Este trabalho foca no seu
potencial para geração de imagens. Nossos experimentos também sustentam a
afirmação que features de Fourier são substitutos de baixo custo operacional
para camadas de self-attention, permitindo que a rede aprenda informações
globais desde camadas iniciais. Apresentamos resultados qualitativos e quantitativos para demonstrar que a FCGAN proposta obtém resultados comparáveis
a abordagens estado-da-arte com profundidade e número de parâmetros semelhantes, alcançando um FID de 18,98 no CIFAR-10 e 38,71 no STL-10 - uma
redução de 4,98 e 1,40, respectivamente. Além disso, em maiores dimensões de
imagens, o uso de FFCs em vez de self-attention permite batch-sizes com até
o dobro do tamanho, e iterações até 26 por cento mais rápidas. / [en] This thesis proposes the Fast Fourier Convolution Generative Adversarial
Network (FCGAN). This novel approach employs convolutions in the frequency
domain to enable the network to operate with a channel-wide receptive field.
Due to small receptive fields, traditional convolution-based GANs struggle
to capture structural and geometric patterns. Our method uses Fast Fourier
Convolutions (FFCs), which use Fourier Transforms to operate in the spectral
domain, affecting the feature input globally. Thus, FCGAN can generate
images considering information from all feature locations. This new hallmark
of the network can lead to erratic and unstable performance. We show that
employing spectral normalization and noise injections stabilizes adversarial
training. The use of spectral convolutions in convolutional networks has been
explored for tasks such as image inpainting and super-resolution. This work
focuses on its potential for image generation. Our experiments further support
the claim that Fourier features are lightweight replacements for self-attention,
allowing the network to learn global information from early layers. We present
qualitative and quantitative results to demonstrate that the proposed FCGAN
achieves results comparable to state-of-the-art approaches of similar depth
and parameter count, reaching an FID of 18.98 on CIFAR-10 and 38.71 on
STL-10 - a reduction of 4.98 and 1.40, respectively. Moreover, in larger image
dimensions, using FFCs instead of self-attention allows for batch sizes up to
twice as large and iterations up to 26 percent faster.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:66801 |
Date | 23 May 2024 |
Creators | PEDRO HENRIQUE BARROSO GOMES |
Contributors | MARCELO GATTASS |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0023 seconds