Return to search

Optimizing ESRGAN for Mobile Deployment : Enhancing Image Super-Resolution on Android Devices

Rapporten presenterar det arbete som utfördes för en kandidatuppsats i ämnesområdet datavetenskap. Den ursprungliga uppgiften var att undersöka hur djupinlärningsarkitekturen ESRGAN, som används för superupplösning, kan komprimeras så att minimal precision förloras. Projektet resulterade i utvärderingen av tre optimeringsmetoder; dynamic range, full integer och float16-kvantisering. Mätningarna utfördes med hjälp av två mobila enheter; en Samsung Galaxy S9+ surfplatta och en S10+ Android-telefon. Mätningarna genomfördes med hjälp av mätvärdena inferenstid, PSNR, SSIM och kompressionsförhållande. Resultaten visade att Dynamic Range hade en avsevärt långsammare inferenstid jämfört med Full Integer och Float16-kvantisering. Dynamic Range hade ett validerings-PSNR på 27.0 och ett test-PSNR på 22.3. De resulterande SSIM-värdena var 0.81 för valideringsdatasetet och 0.67 för testdatasetet. Full Integer slutade med PSNR-värdena 26.3 och 21.9 för validering respektive test. När det gäller SSIM fick Full Integer poängen 0.77 (validering) och 0.64 (test). Slutligen genererade Float16 PSNR-värdena 27.1 och 22.3, samt SSIM-värdena 0.81 och 0.67. PSNR- och SSIM-utvärderingarna visade att de komprimerade modellerna behövde mer kalibrering för att uppnå högre poäng i dessa metoder, och således högre noggrannhet. / This report presents the work that was carried out for a bachelor’s thesis in computer science. The original task was to investigate how the deep learning architecture ESRGAN used for super resolution can be compressed such that minimal accuracy is lost. The project resulted in the evaluation of three optimization methods; dynamic range, full integer, and float16 quantization. Dynamic range quantizes the weights of the neural network into 8 bits of precision, full integer quantizes all floating point parameters, and float16 reduces halves the floating point precisions. The benchmarks were performed using two mobile devices; a Samsung Galaxy S9+ tablet and an S10+ android phone. Measurements were conducted using metrics inference time, PSNR, SSIM, and compression ratio. The results showed that Dynamic Range had a significantly slower inference time compared to Full Integer and Float16 quantization. Dynamic range had the validation PSNR score of 27.0, and a testing PSNR score of 22.3. The resulting SSIM values were 0.81 for the validation dataset and 0.67 for the testing dataset. Full integer ended up with the PSNR scores 26.3, 21.9 for validation and testing respectively. As for SSIM, Full integer brought the scores 0.77 (validation) and 0.64 (testing). Finally, Float16 generated PSNR scores 27.1 and 22.3, and the SSIM scores 0.81 and 0.67. The PSNR and SSIM evaluations showed that the compressed models needed more calibration for a higher score in these metrics, and consequently a higher level of accuracy.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:miun-51626
Date January 2024
CreatorsFredin, Arvid
PublisherMittuniversitetet, Institutionen för data- och elektroteknik (2023-)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0097 seconds