Return to search

Depth Inclusion for Classification and Semantic Segmentation / Klassificering och semantisk segmentering med färg och djup

The  majority  of  computer  vision  algorithms  only  use  RGB  images  to  make  inferencesabout  the  state  of  the  world.  With  the  increasing  availability  of  RGB-D  cameras  it  is  im-portant  to  examine  ways  to  effectively  fuse  this  extra  modality  for  increased  effective-ness.  This  paper  examines  how  depth  can  be  fused  into  CNNs  to  increase  accuracy  in  thetasks  of  classification  and  semantic  segmentation,  as  well  as  examining  how  this  depthshould  best  be  effectively  encoded  prior  to  inclusion  in  the  network.  Concatenating  depthas  a  fourth  image  channel  and  modifying  the  dimension  of  the  initial  layer  of  a  pretrainedCNN  is  initially  examined.  Creating  a  separate  duplicate  network  to  train  depth  on,  andfusing  both  networks  in  later  stages  is  shown  to  be  an  effective  technique  for  both  tasks.The  results  show  that  depth  concatenation  is  an  ineffective  strategy  as  it  clamps  the  ac-curacy  to  the  lower  accuracy  of  the  two  modalities,  whilst  late  fusion  can  improve  thetask  accuracy  beyond  that  of  just  the  RGB  trained  network  for  both  tasks.  It  is  also  foundthat  methods  such  as  HHA  encoding  which  revolve  around  calculating  geometric  prop-erties  of  the  depth,  such  as  surface  normals,  are  a  superior  encoding  method  than  sim-pler  colour  space  transformations  such  as  HSV.  This  only  holds  true  when  these  depthimages  are  normalised  over  the  maximum  depth  of  the  dataset  as  opposed  to  the  maxi-mum  depth  of  each  individual  image,  thus  retaining  geometric  consistency  between  im-ages.  The  reverse  holds  true  for  simpler  colour  space  transformations. / Majoriteten av algoritmerna för datorseende använder bara färginformation för att dra sultsatser om hur världen ser ut. Med ökande tillgänglighet av RGB-D-kameror är det viktigt att undersöka sätt att effektivt kombinera färg- med djupinformation. I denna uppsats undersöks hur djup kan kombineras med färg i CNN:er för att öka presentandan i både klassificering och semantisk segmentering, så väl som att undersöka hur djupet kodas mest effektivt före dess inkludering i nätverket. Att lägga till djupet som en fjärde färgkanal och modifiera en förtränad CNN utreds inledningsvis. Sedan studeras att istället skapa en separat kopia av nätverket för att träna djup och sedan kombinera utdata från båda nätverken. Resultatet visar att det är ineffektivt att lägga till djup som en fjärde färgkanal då nätverket begränsas av den sämsta informationen från djup och färg. Fusion från två separata nätverk med färg och djup ökar prestanda bortom det som färg och djup erbjuder separat. Resultatet visar också att metoder så som HHA-kodning, är överlägsna jämfört med enklare transformationer så som HSV. Värt att notera är att detta endast gäller då djupbilderna är normaliserade över alla bilders maxdjup och inte i varje enskild bilds för sig. Motsatsen är sann för enklare transformationer.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-233371
Date January 2018
CreatorsLotz, Max
PublisherKTH, Robotik, perception och lärande, RPL
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:508

Page generated in 0.0025 seconds