The majority of computer vision algorithms only use RGB images to make inferencesabout the state of the world. With the increasing availability of RGB-D cameras it is im-portant to examine ways to effectively fuse this extra modality for increased effective-ness. This paper examines how depth can be fused into CNNs to increase accuracy in thetasks of classification and semantic segmentation, as well as examining how this depthshould best be effectively encoded prior to inclusion in the network. Concatenating depthas a fourth image channel and modifying the dimension of the initial layer of a pretrainedCNN is initially examined. Creating a separate duplicate network to train depth on, andfusing both networks in later stages is shown to be an effective technique for both tasks.The results show that depth concatenation is an ineffective strategy as it clamps the ac-curacy to the lower accuracy of the two modalities, whilst late fusion can improve thetask accuracy beyond that of just the RGB trained network for both tasks. It is also foundthat methods such as HHA encoding which revolve around calculating geometric prop-erties of the depth, such as surface normals, are a superior encoding method than sim-pler colour space transformations such as HSV. This only holds true when these depthimages are normalised over the maximum depth of the dataset as opposed to the maxi-mum depth of each individual image, thus retaining geometric consistency between im-ages. The reverse holds true for simpler colour space transformations. / Majoriteten av algoritmerna för datorseende använder bara färginformation för att dra sultsatser om hur världen ser ut. Med ökande tillgänglighet av RGB-D-kameror är det viktigt att undersöka sätt att effektivt kombinera färg- med djupinformation. I denna uppsats undersöks hur djup kan kombineras med färg i CNN:er för att öka presentandan i både klassificering och semantisk segmentering, så väl som att undersöka hur djupet kodas mest effektivt före dess inkludering i nätverket. Att lägga till djupet som en fjärde färgkanal och modifiera en förtränad CNN utreds inledningsvis. Sedan studeras att istället skapa en separat kopia av nätverket för att träna djup och sedan kombinera utdata från båda nätverken. Resultatet visar att det är ineffektivt att lägga till djup som en fjärde färgkanal då nätverket begränsas av den sämsta informationen från djup och färg. Fusion från två separata nätverk med färg och djup ökar prestanda bortom det som färg och djup erbjuder separat. Resultatet visar också att metoder så som HHA-kodning, är överlägsna jämfört med enklare transformationer så som HSV. Värt att notera är att detta endast gäller då djupbilderna är normaliserade över alla bilders maxdjup och inte i varje enskild bilds för sig. Motsatsen är sann för enklare transformationer.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-233371 |
Date | January 2018 |
Creators | Lotz, Max |
Publisher | KTH, Robotik, perception och lärande, RPL |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2018:508 |
Page generated in 0.0025 seconds