Block partitioning is a computationally heavy step in the video coding process. Previously, this stage has been done using a full-search-esque algorithm. Recently, Artificial Neural Networks (ANN) approaches to speed-up block partitioning in encoders compliant to the Versatile Video Coding (VVC) standard have shown to significantly decrease the time needed for block partitioning. In this degree project, a state of the art Convolutional Neural Network (CNN) was ported to VTM16. It was ablated into 7 new models which were trained and tested. The eects of the ablations were compared and discussed with respect to the number of Multiply-Accumulate operations (MAC) a model required, the speed-up in the encoding stage as well as the quality of the encoding. The results show that the number of MACs can be substantially decreased from that of the state of the art model while having low negative eects on the quality of the encoding. Furthermore, the results show that the two tested approaches of reducing the computational complexity of the model were eective. Those were: 1) reducing the image’s resolution earlier in the model. 2) reducing the number of features in the beginning layers. The results point towards the first approach being more eective. / Blockpartitionering är ett beräkningstungt steg i videokodningsprocessen. Tidigare har detta gjorts genom att använda en algoritm i fullsökningsstil. Nyligen har artificiella neurala nätverk (ANN) visats vara eektiva för att minska tidsåtgången för blockpartitioneringen i enkodare som följer Versatile Video Coding-standarden (VVC). I detta examensarbete har en framgångsrik Convolutional Neural Networkmodell (CNN) portats till VTM16. Stegvisa ändringar på denna modell har gjorts för att ta fram sju modeller som tränades och testades. Eekten av ändringarna på ursprungsmodellen jämfördes och diskuterades med hänsyn till antalet Multiply-Accumulate-operationer (MAC) som respektive modell krävde, deras påverkan på tidsåtgången samt deras påverkan på kvalitén av kodningen. Resultaten visar att antalet MACs kan minskas betydligt utan att betydelsefullt minska kvalitén på kodningen. Resultaten visar att de båda testade tillvägagångssätt för att minska beräkningskomplexiteten var eektiva. Tillvägagångssätten var 1) minska bildens upplösning i ett tidigare skede i modellen. 2) minska antalet kanaler i de tidigare lagren. Resultaten pekar mot att det första tillvägagångssättet är mer eektivt.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325152 |
Date | January 2022 |
Creators | Rassam, Saman |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:922 |
Page generated in 0.0024 seconds