Panoramic virtual reality is an emerging technology that has recently gained the attention of both the research community and regular consumers. It allows the users to immerse themselves in omnidirectional videos with the help of a virtual reality headset : thanks to an increasing amount of affordable head-mounted-displays, any recent smartphone can offer a decent panoramic virtual reality experience. However since omnidirectional videos are videos with a large field-of-view that covers the entire sphere around the camera, they require large resolutions and thus high bitrates. This master degree project conducted at RE’FLEKT GmbH is an exploratory work that seeks to reduce the panoramic video bitrate. Because of the nature of omnidirectional videos, the user can only see a subpart of each video frame, and thus some zones of the video can attract more attention than others. The purpose of this study is to introduce the concept of region-of-interest encoding in panoramic VR. The main contribution is a method to encode panoramic videos in an H.264 video format stream with a space-variant level of details depending on the zones that attract the most the viewers’ interest. First, the region-of-interest are detected through a head-tracking module combined with a Gaussian attention model. Then, the reference video is encoded with the open source x264 encoder, with a quantization step adjusted to the region-of-interest information. The International Telecommunications Union standard subjective tests show that this method can perform better than classic H.264 encoding only in specific cases. / Panoramisk virtuell verklighet (VR) är en kommande teknik som nyligen har mött intresse från forskarsamhället och vanliga konsumenter. Det gör det möjligt för användarna att fördjupa sig i videor upptagna från flera riktningar, med hjälp av ett VR-headset : tack vare ett växande antal billiga och huvudburna bildskärmar, erbjuder alla nya smarttelefoner en passande panoramisk VR-erfarenhet. Men på grund av den breda synvinkeln i flerriktade media behöver videor med 360 graders synfält stor upplösning och därför höga bithastigheter. Detta masterexamensarbete som utförts på RE’FLEKT GmbH är ett utforskande arbete som strävar efter att reducera panoramabildens bithastighet. I flerriktade videoklipp kan användaren bara se en del av varje bildruta, härigenom får somliga zoner mer uppmärksamhet än andra. Syftet med denna studie är att introducera begreppet region-av-intresse (ROI) kodning i panoramisk VR. Huvudbidraget är en metod för att koda panoramisk video i en H.264-ström med en varierande nivå av detaljer som beror på de zoner som får mest av tittarnas intresse. Först detekteras ROI genom en huvudspårningsmodul kombinerad med en gaussisk uppmärksamhetsmodell. Därefter kodas referensvideoen med x264-kodaren (öppen källkod) med hjälp av ROI-informationen. ITU-standardens subjektiva test visar att den här metoden kan fungera bättre än klassisk H.264-kodning i enskilda fall.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-211518 |
Date | January 2017 |
Creators | Sormain, Rémi |
Publisher | KTH, Skolan för informations- och kommunikationsteknik (ICT) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-ICT-EX ; 2017:120 |
Page generated in 0.0019 seconds