Return to search

A real-time Multi-modal fusion model for visible and infrared images : A light-weight and real-time CNN-based fusion model for visible and infrared images in surveillance

Infrared images could highlight the semantic areas like pedestrians and be robust to luminance changes, while visible images provide abundant background details and good visual effects. Multi-modal image fusion for surveillance application aims to generate an informative fused images from two source images real-time, so as to facilitate surveillance observatory or object detection tasks. In this work, we firstly investigate conventional methods like multi-scale transform-based methods and subspace-based methods, and deep learning-based methods like AE, CNN and GAN in details. After fully discussion of their advantages and disadvantages, CNN-based methods are chosen due to their robustness and end-to-end feature. A novel real-time CNN-based model is proposed with optimized model architecture and loss functions. The model is based on Dense net structure to reuse the previous features, but the number of layers and the depth are extremely optimized, so as to improve the fusion efficiency. The size of the feature maps keeps the same to avoid information losses. The loss function includes pixel intensity loss, gradient loss and decompose loss. The intensity and gradient loss use the maximum strategy to keep the highlighted semantic areas, and the decompose loss is to compare the reconstructed images and source images, so as to push the fusion model maintain more features. The model is trained on MSRS dataset, and evaluate on the LLVIP, MSRS and TNO datasets with other 9 state-of-the-art algorithms qualitatively and quantitatively. The good visual effect of our proposed model and the outstanding comparison results on 10 evaluation metrics comprehensively and objectively proves its good fusion ability. / Infraröda bilder kan markera semantiska områden så som fotgängare och vara robusta för ljusförändringar, medan synliga bilder ger rikliga bakgrundsdetaljer och goda visuella effekter. Multimodal bildfusion för övervakningsapplikation syftar till att generera en informativ samansatt bild från två källbilder i realtid, för att underlätta övervakningsobservatorium eller objektdetekteringsuppgifter. I detta arbete undersöker vi först konventionella metoder som flerskaliga transformbaserade metoder och subspace-baserade metoder, och djupinlärningsbaserade metoder som AE, CNN och GAN i detalj. Efter fullständig diskussion om deras fördelar och nackdelar väljs CNN-baserade metoder på grund av deras robusthet och end-to-end-funktion. En ny CNN-baserad modell i realtid föreslås med optimerad modellarkitektur och förlustfunktioner. Modellen är baserad på tät nätstruktur för att återanvända de tidigare funktionerna, men antalet lager och djupet är extremt optimerade för att förbättra fusionseffektiviteten. Storleken på funktionskartorna förblir densamma för att undvika informationsförluster. Förlustfunktionen inkluderar pixelintensitetsförlust, gradientförlust och sönderdelningsförlust. Intensitets- och gradientförlusten använder den maximala strategin för att behålla de markerade semantiska områdena, och nedbrytningsförlusten är att jämföra de rekonstruerade bilderna och källbilderna för att driva fusionsmodellen med fler funktioner. Modellen tränas på MSRS-datauppsättning och utvärderas på LLVIP-, MSRS- och TNO-dataset med andra 9 toppmoderna algoritmer kvalitativt och kvantitativt. Den goda visuella effekten av vår föreslagna modell och de enastående jämförelseresultaten på 10 utvärderingsmått bevisar omfattande och objektivt dess goda fusionsförmåga.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-326123
Date January 2023
CreatorsWanqi, Jin
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:98

Page generated in 0.0029 seconds