Global ETD Search

1	Improving Multi-Task Learning in Autonomous Driving Perception with Dynamic Loss Weights and Individual Encoders / Förbättrande av multi-task learning i autonom körning med dynamiska viktminskningar och enskilda encoders Jiang, Zehao January 2024 (has links) The perception tasks in autonomous driving, namely 3D object detection and map segmentation, play a crucial role in enabling vehicles to perceive the surrounding environment. The traditional approach is to have a single network for each task and complete all tasks in a sequential manner. However, this method suffers from repeated feature extraction and error propagation, leading to inefficiency and reduced accuracy. While multi-task learning can eliminate redundant computations and facilitate information exchange among tasks, improving efficiency and overall system performance, it can also lead to a reduction in the performance of a particular task, compared to single-task training due to gradient dominance. To tackle this problem, this thesis aims to bridge the performance gap between multi-task and single-task learning. We first utilize the GradNorm method to dynamically readjust the loss weights while training. We further add individual encoders to allow fine-grained feature learning for each task. Based on the existing perception network, we adapt our dynamic loss strategy and new encoder architecture, which shows that our results match or even surpass the performance of each task in a multitask setting, compared to the single task. We also evaluate the computational efficiency of our method, further demonstrating the advantages of multi-task learning in the autonomous driving domain where real-time computing is non-negotiable. / Perception inom autonom körning, det vill säga 3D objektsdetektion och map segmentation, spelar en avgörande roll för att möjliggöra att fordon uppfattar den omgivande miljön. Traditionellt sett utförs detta av en grupp nätverk, en för varje uppgift, där uppgifterna utförs sekventiellt. Detta skapar problem i form av upprepad extrahering av egenskaper i datan och felfortplantning vilket leder till försämrad beräkningshastighet och resultat. Multi-task learning kan eliminera onödiga beräkningar och möjliggöra utbyte av information mellan uppgifter, vilket medför förbättringar inom effektivitet och systemets generella prestanda i relation till single-task learning. Däremot kan det leda till försämrade resultat i enskilda uppgifter på grund av gradient dominans. Denna avhandling syftar till att bemöta detta problem genom att överbrygga gapet mellan multi-task och single-task learning. Vi använder oss av GradNorm metoden för att dynamiskt justera gradienternas magnitud under träning. Enskilda encoders lades till i vardera nätverk för att möjliggöra fine-grained feature learning för varje uppgift. GradNorm och ytterligare encoders applicerades på det befintliga perception-nätverket, vilket gav resultat som är lika bra eller bättre vid multi-task learning som single-task learning för varje uppgift. Även effektivitet vid beräkning utvärderades, vilket ytterligare visade fördelarna av att använda multi-task learning i autonom körning där beräkning i realtid är av högsta prioritet. Light Detection and Ranging Autonomous Driving Deep Learning Multi-task Network Light Detection and Ranging Autonom Körning Deep Learning Multi-task Network Computer Sciences Datavetenskap (datalogi) Computer and Information Sciences Data- och informationsvetenskap
2	Deep Convolutional Neural Network for Effective Image Analysis : DESIGN AND IMPLEMENTATION OF A DEEP PIXEL-WISE SEGMENTATION ARCHITECTURE Marti, Marco Ros January 2017 (has links) This master thesis presents the process of designing and implementing a CNN-based architecture for image recognition included in a larger project in the field of fashion recommendation with deep learning. Concretely, the presented network aims to perform localization and segmentation tasks. Therefore, an accurate analysis of the most well-known localization and segmentation networks in the state of the art has been performed. Afterwards, a multi-task network performing RoI pixel-wise segmentation has been created. This proposal solves the detected weaknesses of the pre-existing networks in the field of application, i.e. fashion recommendation. These weaknesses are basically related with the lack of a fine-grained quality of the segmentation and problems with computational efficiency. When it comes to improve the details of the segmentation, this network proposes to work pixel- wise, i.e. performing a classification task for each of the pixels of the image. Thus, the network is more suitable to detect all the details presented in the analysed images. However, a pixel-wise task requires working in pixel resolution, which implies that the number of operations to perform is usually large. To reduce the total number of operations to perform in the network and increase the computational efficiency, this pixel-wise segmentation is only done in the meaningful regions of the image (Regions of Interest), which are also computed in the network (RoI masks). Then, after a study of the more recent deep learning libraries, the network has been successfully implemented. Finally, to prove the correct operation of the design, a set of experiments have been satisfactorily conducted. In this sense, it must be noted that the evaluation of the results obtained during testing phase with respect to the most well-known architectures is out of the scope of this thesis as the experimental conditions, especially in terms of dataset, have not been suitable for doing so. Nevertheless, the proposed network is totally prepared to perform this evaluation in the future, when the required experimental conditions are available. / Denna examensarbete presenterar processen för att designa och implementera en CNN-baserad arkitektur för bildigenkänning som ingår i ett större projekt inom moderekommendation med djup inlärning. Konkret, det presenterade nätverket syftar till att utföra lokaliseringsoch segmenteringsuppgifter. Därför har en noggrann analys av de mest kända lokaliseringsoch segmenteringsnätena utförts inom den senaste tekniken. Därefter har ett multi-task-nätverk som utför RoI pixel-wise segmentering skapats. Detta förslag löser de upptäckta svagheterna hos de befintliga näten inom tillämpningsområdet, dvs modeanbefaling. Dessa svagheter är i grund och botten relaterade till bristen på en finkornad kvalitet på segmenteringen och problem med beräkningseffektivitet. När det gäller att förbättra detaljerna i segmenteringen, föreslår detta nätverk att arbeta pixelvis, dvs att utföra en klassificeringsuppgift för var och en av bildpunkterna i bilden. Nätverket är sålunda lämpligare att detektera alla detaljer som presenteras i de analyserade bilderna. En pixelvis uppgift kräver dock att man arbetar med pixelupplösning, vilket innebär att antalet operationer som ska utföras är vanligtvis stor. För att minska det totala antalet operationer som ska utföras i nätverket och öka beräkningseffektiviteten görs denna pixelvisa segmentering endast i de meningsfulla regionerna i bilden (intressanta regioner), som också beräknas i nätverket (RoI-masker) . Sedan, efter en studie av de senaste djuplärningsbiblioteken, har nätverket framgångsrikt implementerats. Slutligen, för att bevisa korrekt funktion av konstruktionen, har en uppsättning experiment genomförts på ett tillfredsställande sätt. I detta avseende måste det noteras att utvärderingen av de resultat som uppnåtts under testfasen i förhållande till de mest kända arkitekturerna ligger utanför denna avhandling, eftersom de experimentella förhållandena, särskilt vad gäller dataset, inte har varit lämpliga För att göra det. Ändå är det föreslagna nätverket helt beredd att utföra denna utvärdering i framtiden när de nödvändiga försöksvillkoren är tillgängliga. / En aquest treball de fi de màster es presenta el disseny i la implementació d’una arquitectura pel reconeixement d’imatges fent ús de CNN. Aquesta xarxa es troba inclosa en un projecte de major envergadura en el camp de la recomanació de moda. En concret, la xarxa presentada en aquest document s’encarrega de realitzar les tasques de localització i segmentació. Després d’un estudi a consciència de les xarxes més conegudes de l’estat de l’art, s’ha dissenyat una xarxa multi-tasca encarregada de realitzar una segmentació a resolució de píxel de les regions d’interès de la imatge, les quals han sigut prèviament calculades i emmascarades. Aquesta proposta soluciona les mancances detectades en les xarxes ja existents pel que fa a la tasca de recomanació de moda. Aquestes mancances es basen en la obtenció d’una segmentació sense prou nivell de detalls i en una rellevant complexitat computacional. Pel que fa a la qualitat de la segmentació, aquesta tesi proposa treballar en resolució de píxel, classificant tots els píxels de la imatge de forma individual, per tal de poder adaptar-se a tots els detalls que puguin aparèixer a la imatge analitzada. No obstant, treballar píxel a píxel implica la realització d’una gran quantitat d’operacions. Per reduir-les, proposem fer la segmentació píxel a píxel només a les regions d’interès de la imatge. A continuació, després d’un estudi detallat de les llibreries de deep learnign més destacades, el disseny ha sigut implementat. Finalment s’han dut a terme una sèrie d’experiments per provar el correcte funcionament del disseny. En aquest sentit és important destacar que aquesta tesi no té com a objectiu avaluar el disseny respecte d’altres xarxes ja existents. La raó és que les condicions d’experimentació, sobretot pel que fa a la base de dades, no són adequades per aquesta tasca. No obstant, la xarxa està perfectament preparada per fer aquesta avaluació un cop les condicions d’experimentació així ho permetin. CNN Co-CNN segmentation localization RoI masking RoI masking multi-task network pixel resolution overfitting CNN segmentació localització RoI emmascarar filtratge de RoIs xarxa multi-tasca resolució de píxel overfitting CNN Co-CNN segmentering lokalisering RoI maskering RoI- maskering flera uppgiftsnätverk pixelupplösning övermontering Computer and Information Sciences Data- och informationsvetenskap

Search results

Improving Multi-Task Learning in Autonomous Driving Perception with Dynamic Loss Weights and Individual Encoders / Förbättrande av multi-task learning i autonom körning med dynamiska viktminskningar och enskilda encoders

Deep Convolutional Neural Network for Effective Image Analysis : DESIGN AND IMPLEMENTATION OF A DEEP PIXEL-WISE SEGMENTATION ARCHITECTURE