1 |
Text-Driven Fashion Image Manipulation with GANs : A case study in full-body human image manipulation in fashion / Textdriven manipulation av modebilder med GANs : En fallstudie om helkroppsbildsmanipulation av människor inom modeDadfar, Reza January 2023 (has links)
Language-based fashion image editing has promising applications in design, sustainability, and art. However, it is considered a challenging problem in computer vision and graphics. The diversity of human poses and the complexity of clothing shapes and textures make the editing problem difficult. Inspired by recent progress in editing face images through manipulating latent representations, such as StyleCLIP and HairCLIP, we apply those methods in editing the images of full-body humans in fashion datasets and evaluate their effectiveness. First, we assess different methodologies to find a latent representation of an image via Generative Adversarial Network (GAN) inversion; then, we apply three image manipulation schemes. Thus, a pre-trained e4e encoder is initially utilized for the inversion process, while the results are compared to a more accurate method, Pivotal Tuning Inversion (PTI). Next, we employ an optimization scheme that uses the Contrastive Language Image Pre-training (CLIP) model to guide the latent representation of an image in the direction of attributes described in the input text. We address the problem of the accuracy and speed of the process by incorporating a mapper network. Finally, we propose an optimized mapper called Text-Driven Garment Editing Mapper (TD-GEM) to achieve high-quality image editing in a disentangled way. Our empirical results show that the proposed method can edit fashion items for changing color and sleeve length. / Språkbaserad bildredigering inom mode har lovande tillämpningar inom design, hållbarhet och konst. Det betraktas dock som ett utmanande problem inom datorseende och grafik. Mångfalden och variationen av mänskliga poser och komplexiteten i klädform och texturer gör redigeringsproblemet svårt. Inspirerade av den senaste utvecklingen inom redigering av ansiktsbilder genom manipulation av latenta representationer, såsom StyleCLIP och HairCLIP, tillämpar vi dessa metoder för att redigera bilderna av fullständiga mänskliga kroppar i mode-dataset och utvärderar deras effektivitet. Först jämför vi olika metoder för att hitta en latent representation av en bild via så kallade Generative Adversarial Network (GAN) inversion; sedan tillämpar vi tre bildmanipulationsscheman. En förtränad (eng: pre-trained) e4e-encoder model används först för inversionsprocessen, medan resultaten jämförs med en mer exakt metod, Pivotal Tuning Inversion (PTI). Därefter använder vi en optimeringmetod som använder Contrastive Language Image Pre-training (CLIP) -modell för att vägleda den latenta representationen av en bild i riktning mot attribut som beskrivs i inmatningstexten. Vi tar upp problemet med noggrannhet och hastigheten i processen genom att integrera en mapper-nätverk. Slutligen föreslår vi en optimerad mapper som kallas TD-GEM för att uppnå högkvalitativ bildredigering på ett lösgjort sätt. Våra empiriska resultat visar att den föreslagna metoden kan redigera modeobjekt för att ändra färg och ärmens längd.
|
Page generated in 0.122 seconds