Return to search

Improving Multi-Task Learning in Autonomous Driving Perception with Dynamic Loss Weights and Individual Encoders / Förbättrande av multi-task learning i autonom körning med dynamiska viktminskningar och enskilda encoders

The perception tasks in autonomous driving, namely 3D object detection and map segmentation, play a crucial role in enabling vehicles to perceive the surrounding environment. The traditional approach is to have a single network for each task and complete all tasks in a sequential manner. However, this method suffers from repeated feature extraction and error propagation, leading to inefficiency and reduced accuracy. While multi-task learning can eliminate redundant computations and facilitate information exchange among tasks, improving efficiency and overall system performance, it can also lead to a reduction in the performance of a particular task, compared to single-task training due to gradient dominance. To tackle this problem, this thesis aims to bridge the performance gap between multi-task and single-task learning. We first utilize the GradNorm method to dynamically readjust the loss weights while training. We further add individual encoders to allow fine-grained feature learning for each task. Based on the existing perception network, we adapt our dynamic loss strategy and new encoder architecture, which shows that our results match or even surpass the performance of each task in a multitask setting, compared to the single task. We also evaluate the computational efficiency of our method, further demonstrating the advantages of multi-task learning in the autonomous driving domain where real-time computing is non-negotiable. / Perception inom autonom körning, det vill säga 3D objektsdetektion och map segmentation, spelar en avgörande roll för att möjliggöra att fordon uppfattar den omgivande miljön. Traditionellt sett utförs detta av en grupp nätverk, en för varje uppgift, där uppgifterna utförs sekventiellt. Detta skapar problem i form av upprepad extrahering av egenskaper i datan och felfortplantning vilket leder till försämrad beräkningshastighet och resultat. Multi-task learning kan eliminera onödiga beräkningar och möjliggöra utbyte av information mellan uppgifter, vilket medför förbättringar inom effektivitet och systemets generella prestanda i relation till single-task learning. Däremot kan det leda till försämrade resultat i enskilda uppgifter på grund av gradient dominans. Denna avhandling syftar till att bemöta detta problem genom att överbrygga gapet mellan multi-task och single-task learning. Vi använder oss av GradNorm metoden för att dynamiskt justera gradienternas magnitud under träning. Enskilda encoders lades till i vardera nätverk för att möjliggöra fine-grained feature learning för varje uppgift. GradNorm och ytterligare encoders applicerades på det befintliga perception-nätverket, vilket gav resultat som är lika bra eller bättre vid multi-task learning som single-task learning för varje uppgift. Även effektivitet vid beräkning utvärderades, vilket ytterligare visade fördelarna av att använda multi-task learning i autonom körning där beräkning i realtid är av högsta prioritet.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-347546
Date January 2024
CreatorsJiang, Zehao
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2024:105

Page generated in 0.0023 seconds