Return to search

[pt] APRIMORANDO A SÍNTESE DE IMAGENS A PARTIR DE TEXTO UTILIZANDO TRANSFERÊNCIA DE APRENDIZADO U2C / [en] IMPROVING TEXT-TO-IMAGE SYNTHESIS WITH U2C - TRANSFER LEARNING

[pt] As Redes Generativas Adversariais (GANs) são modelos não supervisionados capazes de aprender a partir de um número indefinidamente grande
de imagens. Entretanto, modelos que geram imagens a partir de linguagem
dependem de dados rotulados de alta qualidade, que são escassos. A transferência de aprendizado é uma técnica conhecida que alivia a necessidade de
dados rotulados, embora transformar um modelo gerativo incondicional em um
modelo condicionado a texto não seja uma tarefa trivial. Este trabalho propõe uma abordagem de ajuste simples, porém eficaz, chamada U2C transfer.
Esta abordagem é capaz de aproveitar modelos pré-treinados não condicionados enquanto aprende a respeitar as condições textuais fornecidas. Avaliamos
a eficiência do U2C transfer ao ajustar o StyleGAN2 em duas das fontes de
dados mais utilizadas para a geração images a partir de texto, resultando
na arquitetura Text-Conditioned StyleGAN2 (TC-StyleGAN2). Nossos modelos alcançaram rapidamente o estado da arte nas bases de dados CUB-200 e
Oxford-102, com valores de FID de 7.49 e 9.47, respectivamente. Esses valores
representam ganhos relativos de 7 por cento e 68 por cento, respectivamente, em comparação
com trabalhos anteriores. Demonstramos que nosso método é capaz de aprender detalhes refinados a partir de consultas de texto, produzindo imagens fotorrealistas e detalhadas. Além disso, mostramos que os modelos organizam o
espaço intermediário de maneira semanticamente significativa. Nossas descobertas revelam que as imagens sintetizadas usando nossa técnica proposta não
são apenas críveis, mas também exibem forte alinhamento com suas descrições
textuais correspondentes. De fato, os escores de alinhamento textual alcançados por nosso método são impressionantemente e comparáveis aos das imagens
reais. / [en] Generative Adversarial Networks (GANs) are unsupervised models that
can learn from an indefinitely large amount of images. On the other hand,
models that generate images from language queries depend on high-quality
labeled data that is scarce. Transfer learning is a known technique that alleviates the need for labeled data, though it is not trivial to turn an unconditional
generative model into a text-conditioned one. This work proposes a simple,
yet effective fine-tuning approach, called Unconditional-to-Conditional Transfer Learning (U2C transfer). It can leverage well-established pre-trained models
while learning to respect the given textual condition conditions. We evaluate
U2C transfer efficiency by fine-tuning StyleGAN2 in two of the most widely
used text-to-image data sources, generating the Text-Conditioned StyleGAN2
(TC-StyleGAN2). Our models quickly achieved state-of-the-art results in the
CUB-200 and Oxford-102 datasets, with FID values of 7.49 and 9.47, respectively. These values represent relative gains of 7 percent and 68 percent compared to prior
work. We show that our method is capable of learning fine-grained details from
text queries while producing photorealistic and detailed images. Our findings
highlight that the images created using our proposed technique are credible
and display a robust alignment with their corresponding textual descriptions.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:65990
Date06 February 2024
CreatorsVINICIUS GOMES PEREIRA
ContributorsEDUARDO SANY LABER
PublisherMAXWELL
Source SetsPUC Rio
LanguageEnglish
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.002 seconds