Spelling suggestions: "subject:"text2image 1generation"" "subject:"text2image 4egeneration""
1 |
Towards Affective Vision and LanguageHaydarov, Kilichbek 30 November 2021 (has links)
Developing intelligent systems that can recognize and express human affects is essential to bridge the gap between human and artificial intelligence. This thesis explores the creative and emotional frontiers of artificial intelligence. Specifically, in this thesis, we investigate the relation between the affective impact of visual stimuli and natural language by collecting and analyzing a new dataset called ArtEmis. Furthermore, capitalizing on this dataset, we demonstrate affective AI models that can emotionally talk about artwork and generate them given their affective descriptions. In text-to-image generation task, we present HyperCGAN: a conceptually simple and general approach for text-to-image synthesis that uses hypernetworks to condition a GAN model on text. In our setting, the generator and the discriminator weights are controlled by their corresponding hypernetworks, which modulate weight parameters based on the provided text query. We explore different mechanisms to modulate the layers depending on the underlying architecture of a target network and the structure of the conditioning variable.
|
2 |
Assisted Prompt Engineering : Making Text-to-Image Models Available Through Intuitive Prompt Applications / Assisterad Prompt Engineering : Gör Text-till-Bild Modeller Tillgängliga Med Intuitiva Prompt ApplikationerBjörnler, Zimone January 2024 (has links)
This thesis explores the application of prompt engineering combined with human-AI interaction (HAII) to make text-to-image (TTI) models more accessible and intuitive for non-expert users. The thesis research focuses on developing an application with an intuitive interface that enables users to generate images without extensive knowledge of prompt engineering. A pre-post study was conducted to evaluate the application, demonstrating significant improvements in user satisfaction and ease of use. The findings suggest that such tailored interfaces can make AI technologies more accessible, empowering users to engage creatively with minimal technical barriers. This study contributes to the fields of Media technology and AI by showcasing how simplifying prompt engineering can enhance the accessibility of generative AI tools. / Detta examensarbete utforskar tillämpningen av prompt engineering i kombination med human-AI interaction för att göra text-till-bild modeller mer tillgängliga och intuitiva för icke-experter. Forskningen för examensarbetet fokuseras på att utveckla en applikation med ett intuitivt gränssnitt som gör det möjligt för användare att generera bilder utan omfattande kunskaper om prompt engineering. En före-efter-studie genomfördes för att utvärdera applikationen, vilket visade på en tydlig ökning i användarnöjdhet och användarvänlighet. Utfallet från studien tyder på att skräddarsydda gränssnitt kan göra AI-tekniken mer tillgänglig, och göra det möjligt för användare att nyttja det kreativa skapandet med minimerade tekniska hinder. Den här studien bidrar till områdena avmedieteknik och AI genom att demonstrera hur prompt engineering kan förenklas vilket kan förbättra tillgängligheten av AI-verktyg.
|
3 |
muGen : Generative AI as Machinic Exploration of Cultural Archives / muGen : Generativ AI som maskinell utforskning av kulturarkivYu, Yan January 2023 (has links)
In recent years, generative AI has quickly become a new creative and artistic tool that could challenge our understanding of the creative process and the role of the machine. Despite having exhibited visually promising results, images generated by AI tools present various challenges, most notably their tendency to display cultural, gender and racial biases. The objective of the project is to speculate on the concept and prototype of an alternative text-to-image generation system, designed to mitigate biases from linguistic and cultural differences, and facilitate diversity in machine creativity. muGen, the final design, is a fictional system that allows the user to generate images using data in different languages, while adding user controls such as time period to better associate user’s idea with the system. / Under de senaste åren har generativ AI snabbt blivit ett nytt kreativt och konstnärligt verktyg som kan utmana vår förståelse av den kreativa processen och maskinens roll. Trots att bilder som genererats av AI-verktyg har uppvisat visuellt lovande resultat finns det flera utmaningar, framför allt deras tendens att visa kulturella, köns- och rasmässiga partiskhet. Syftet med projektet är att spekulera kring konceptet och prototypen för ett alternativt text-till-bild-genereringssystem, utformat för att mildra partiskhet från språkliga och kulturella skillnader, och underlätta mångfald i maskinkreativitet. muGen, den slutliga designen, är ett fiktivt system som låter användaren generera bilder med hjälp av data på olika språk, samtidigt som det lägger till användarkontroller som tidsperiod för att bättre associera användarens idé med systemet.
|
Page generated in 0.1081 seconds