Return to search

Guiding generation of 2D pixel art characters using text-image similarity models : A comparative study of generating 2D pixel art characters using PixelDraw and Diffusion Model guided by text-image similarity models / Guidad bildgeneration med använding av text-bild-likhetsmodeller för generation av 2D-pixel art karaktärer : En komparativ studie mellan bildgenerering av 2D-pixel art karaktärer med använding av PixelDraw och Diffusion model guidad av text-bild-likhetsmodeller

Image generation has been taking large strides and new models showing great potential have been created. One of the continued struggles with image generation is controlling what the output will be, with no real way of guiding the generation into creating what the user wants. This has now been improved with the creation of text-image similarity models, which can be used together with an image generation model to guide the generation. This thesis will examine this new method of using a text-image similarity model and see how well it can generate pixel art of humanoid characters. The thesis compares the popular model Diffusion with a simple image generation method that relies solely on the text-image similarity models guidance. The results show that combining a diffusion model with a text-image similarity model improves the results over only using the text-image similarity model in almost every regard. Using a text-image similarity model allows the user to guide the generation, although sometimes the model will misinterpret the request. / Bildgeneration har tagit stora steg och nya modeller har tagits fram som visar stor potential. En av de forsatta svårigheterna med bildgeneration är att kontrollera vad modellen genererar. De nya text-bild-likhet modellerna förenklar nu för användare att tillsammans med en bildgenerator modell använda text-bild-likhet modellen att styra bildgeneratorn. Den här uppsatsen kommer utforska den nya metoden och se hur väl den kan användas för att generera mänskliga pixel art karaktärer. I uppsatsen kommer den populära Diffusion modellen jämföras med en enkel ritmetod som styrs av text-bild likhet modeller. Resultatet visar att kombinationen av en Diffusion modell och text-bild likhets modell ökar prestandan på nästan alla sätt i jämförelse med att låta text-bild-likhets modellen styra bildgeneratorn helt och hållet. Det visar sig att text-bild likhet modellen kan användas för att styra generationen men ibland så missförstår modellen vad som önskas.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-345841
Date January 2024
CreatorsLöwenström, Paul
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2024:25

Page generated in 0.0021 seconds