Return to search

Gating Networks in Learning Machines for Multimodal Data : Decision Fusion on Single Modality Classifiers

Different architectures of gating networks that aggregate information from multiple modalities and their suitability for decision fusion is investigated. The research question, how does a gating network for decision fusion in multimodal classification problem compare to other alternatives, is answered by a quantitative and inductive reasoning approach. This is done by training different machine learning methods on individual modalities and fusing their predictions forthe final classification using M-MNIST, a new data set with three modalities (image, audio, and text). The gating networks achieve greater classification accuracy when fusing information from all modalities, in contrast to considering only one modality, or without fusion. The gating network potential is demonstrated by training it on modalities with different levels of classification accuracy where it achieves the highest average normalized gain when scoring the highest validation accuracy of the three fusion methods, where the results indicate that the gating network can suppress noise in the data. Moreover, by adding an additional weak modality to the gating network, the classification accuracy is improved, hinting at that there might be an incentive to use many weak modalities instead of a few strong ones. / Olika arkitekturer för gating-nätverk som aggregerar information från flera olika modaliteter undersöks här, liksom deras lämplighet för användning för att förena olika beslutsunderlag. Forskningsfrågan ”Hur bra står sig ett gating- nätverk för att ensa beslutsunderlag i multimodala klassificeringsproblem?” besvaras med ett kvantitativt och induktivt tillvägagångssätt. Olika maskininlärningsmetoder har tränats på singulära modaliteter och sedan ensa deras prediktioner för klassificering i M-MNIST: en ny ansamling data med tre modaliteter (bild, ljud och text). Nätverket uppnår bättre resultat i klassificeringen när information från alla modaliteter används, än när endast en modalitet används (eller utan ensning). Nätverkets potential har kunnat illustreras genom träning på modaliteter med olika nivåer av klassificeringskapacitet. Det får bästa resultat, mätt i högsta genomsnittliga normaliserade ökning, i samband med högsta valideringsresultat av de tre metoderna för ensning. Här indikerar resultaten att gating-nätverket kan undertrycka brus i datat. Genom att lägga till ytterligare en (svag) modalitet till nätverket så kan klassificeringens kvalitet ökas på, vilket antyder att det kan finnas skäl att använda många svaga modaliteter iställer för få starka modaliteter.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-252921
Date January 2019
CreatorsGuðmundsson, Óttar
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2019:159

Page generated in 0.0023 seconds