Return to search

Offline H.264 encoding method for omnidirectional videos with empirical region-of-interest

Panoramic virtual reality is an emerging technology that has recently gained the attention of both the research community and regular consumers. It allows the users to immerse themselves in omnidirectional videos with the help of a virtual reality headset : thanks to an increasing amount of affordable head-mounted-displays, any recent smartphone can offer a decent panoramic virtual reality experience. However since omnidirectional videos are videos with a large field-of-view that covers the entire sphere around the camera, they require large resolutions and thus high bitrates. This master degree project conducted at RE’FLEKT GmbH is an exploratory work that seeks to reduce the panoramic video bitrate. Because of the nature of omnidirectional videos, the user can only see a subpart of each video frame, and thus some zones of the video can attract more attention than others. The purpose of this study is to introduce the concept of region-of-interest encoding in panoramic VR. The main contribution is a method to encode panoramic videos in an H.264 video format stream with a space-variant level of details depending on the zones that attract the most the viewers’ interest. First, the region-of-interest are detected through a head-tracking module combined with a Gaussian attention model. Then, the reference video is encoded with the open source x264 encoder, with a quantization step adjusted to the region-of-interest information. The International Telecommunications Union standard subjective tests show that this method can perform better than classic H.264 encoding only in specific cases. / Panoramisk virtuell verklighet (VR) är en kommande teknik som nyligen har mött intresse från forskarsamhället och vanliga konsumenter. Det gör det möjligt för användarna att fördjupa sig i videor upptagna från flera riktningar, med hjälp av ett VR-headset : tack vare ett växande antal billiga och huvudburna bildskärmar, erbjuder alla nya smarttelefoner en passande panoramisk VR-erfarenhet. Men på grund av den breda synvinkeln i flerriktade media behöver videor med 360 graders synfält stor upplösning och därför höga bithastigheter. Detta masterexamensarbete som utförts på RE’FLEKT GmbH är ett utforskande arbete som strävar efter att reducera panoramabildens bithastighet. I flerriktade videoklipp kan användaren bara se en del av varje bildruta, härigenom får somliga zoner mer uppmärksamhet än andra. Syftet med denna studie är att introducera begreppet region-av-intresse (ROI) kodning i panoramisk VR. Huvudbidraget är en metod för att koda panoramisk video i en H.264-ström med en varierande nivå av detaljer som beror på de zoner som får mest av tittarnas intresse. Först detekteras ROI genom en huvudspårningsmodul kombinerad med en gaussisk uppmärksamhetsmodell. Därefter kodas referensvideoen med x264-kodaren (öppen källkod) med hjälp av ROI-informationen. ITU-standardens subjektiva test visar att den här metoden kan fungera bättre än klassisk H.264-kodning i enskilda fall.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-211518
Date January 2017
CreatorsSormain, Rémi
PublisherKTH, Skolan för informations- och kommunikationsteknik (ICT)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-ICT-EX ; 2017:120

Page generated in 0.0019 seconds