Return to search

Comparative Study of Deep Learning-based Generative Models for Image Compression

Denna studie fördjupar sig i effektiviteten av generativa modeller, nämligen Variational Autoencoders (VAEs), Diffusion Models (DMs) och Generative Adversarial Networks (GANs), i bildkomprimering. Forskningen fokuserar på att utvärdera dessa modeller utifrån deras förmåga att komprimera bilder med bibehållen visuell trohet. Utvärderingsmått som Peak Signal-to-Noise Ratio (PSNR) och Bits Per Pixel (bpp) används för att bedöma modellernas prestanda. Genom en jämförelse av olika tillvägagångssätt och förtränade modeller identifierades en praktisk och effektiv metod för bildkomprimering som belyste potentialen hos generativa modeller inom detta område. Metoden som användes var att låta modellerna komprimera en uppsättning av fem bilder från kodak-dataset, de komprimerade bilderna var desamma längs alla modeller. De rekonstruerade bilderna analyserades sedan genom att mäta deras Peak signal-to-noise ratio (PSNR) och värdet för bitar per pixel (BPP) för varje modell. Resultaten visar att VAE tenderar att ge bättre återgivningsbilder med ett PSNR-medelvärde 37 jämfört med GAN(28) och DM(30) medan GAN:er minskar bildstorleken mest med och ett medelvärde på 0,2 bitar per pixel jämfört med 0,7 för DM och 0,9 för VAE. / This study delves into the effectiveness of generative models, namely Variational Autoencoders (VAEs), Diffusion Models (DMs) and Generative Adversarial Networks (GANs), in image compression. The research focuses on evaluating these models based on their ability to compress images while maintaining visual fidelity. Evaluation metrics such as the Peak Signal-to-Noise Ratio (PSNR) and Bits Per Pixel (bpp) are utilized to assess the performance of the models. Through a comparison of different approaches and pre-trained models, a practical and efficient method for image compression was identified, shedding light on the potential of generative models in this domain. The method used was letting the models compress a set of five images from the kodak dataset, the images compressed were the same along all models. The reconstructed images were then analyzed by measuring their their Peak signalto-noise ratio(PSNR) and the bits per pixel(BPP) value of each model. The results show that the VAE tends to give better fidelity images with a PSNR average value 37 compared to GAN(28) and DM(30) while GANs reduce the image size the most with and average value of 0.2 bits per pixel compared with 0.7 for DM and 0.9 for VAE.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:miun-51615
Date January 2024
CreatorsKanda, Isaac Ntambu
PublisherMittuniversitetet, Institutionen för data- och elektroteknik (2023-)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds