Return to search

Reducing the computational complexity of a CNN-based neural network used for partitioning in VVC compliant encoders / Reducering av beräkningskomplexiteten i ett CNN-baserat neuralt nätvärk använt för partitionering i VVC-kompatibla kodare

Block partitioning is a computationally heavy step in the video coding process. Previously, this stage has been done using a full-search-esque algorithm. Recently, Artificial Neural Networks (ANN) approaches to speed-up block partitioning in encoders compliant to the Versatile Video Coding (VVC) standard have shown to significantly decrease the time needed for block partitioning. In this degree project, a state of the art Convolutional Neural Network (CNN) was ported to VTM16. It was ablated into 7 new models which were trained and tested. The eects of the ablations were compared and discussed with respect to the number of Multiply-Accumulate operations (MAC) a model required, the speed-up in the encoding stage as well as the quality of the encoding. The results show that the number of MACs can be substantially decreased from that of the state of the art model while having low negative eects on the quality of the encoding. Furthermore, the results show that the two tested approaches of reducing the computational complexity of the model were eective. Those were: 1) reducing the image’s resolution earlier in the model. 2) reducing the number of features in the beginning layers. The results point towards the first approach being more eective. / Blockpartitionering är ett beräkningstungt steg i videokodningsprocessen. Tidigare har detta gjorts genom att använda en algoritm i fullsökningsstil. Nyligen har artificiella neurala nätverk (ANN) visats vara eektiva för att minska tidsåtgången för blockpartitioneringen i enkodare som följer Versatile Video Coding-standarden (VVC). I detta examensarbete har en framgångsrik Convolutional Neural Networkmodell (CNN) portats till VTM16. Stegvisa ändringar på denna modell har gjorts för att ta fram sju modeller som tränades och testades. Eekten av ändringarna på ursprungsmodellen jämfördes och diskuterades med hänsyn till antalet Multiply-Accumulate-operationer (MAC) som respektive modell krävde, deras påverkan på tidsåtgången samt deras påverkan på kvalitén av kodningen. Resultaten visar att antalet MACs kan minskas betydligt utan att betydelsefullt minska kvalitén på kodningen. Resultaten visar att de båda testade tillvägagångssätt för att minska beräkningskomplexiteten var eektiva. Tillvägagångssätten var 1) minska bildens upplösning i ett tidigare skede i modellen. 2) minska antalet kanaler i de tidigare lagren. Resultaten pekar mot att det första tillvägagångssättet är mer eektivt.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325152
Date January 2022
CreatorsRassam, Saman
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:922

Page generated in 0.0588 seconds