1 |
Channel Reconstruction for High-Rank User EquipmentZhao, Yu January 2019 (has links)
In a 5 Generation massive Multiple Input Multiple Output radio network, the Channel State Information is playing a central role in the algorithm design and system evaluation. However, Acquisition of Channel State Information consumes system resources (e.g. time, frequency) which in turn decrease the link utilization, i.e. fewer resources left for actual data transmission. This problem is more apparent in a scenario when User Equipment terminals have multi-antennas and it would be beneficial to obtain Channel State Information between Base Station and different User Equipment antennas e.g. for purpose of high rank (number of streams) transmission towards this User Equipment. Typically, in current industrial implementations, in order to not waste system resources, Channel State Information is obtained for only one of the User Equipment antennas which then limits the downlink transmission rank to 1. Hence, we purpose a method based on Deep learning technique. In this paper, multi-layer perception and convolutional neural network are implemented. Data are generated by MATLAB simulator using the parameters provided by Huawei Technologies Co., Ltd. Finally, the model proposed by this project provides the best performance compared to the baseline algorithms. / I ett 5-generationsmassivt massivt multipel-inmatningsradio-nätverk spelar kanalstatens information en central roll i algoritmdesignen och systemutvärderingen. Förvärv av Channel State Information konsumerar emellertid systemresurser (t.ex. tid, frekvens) som i sin tur minskar länkanvändningen, dvs färre resurser kvar för faktisk dataöverföring. Detta problem är mer uppenbart i ett scenario när användarutrustningsterminaler har flera antenner och det skulle vara fördelaktigt att erhålla kanalstatusinformation mellan basstationen och olika användarutrustningsantenner, t.ex. för överföring av hög rang (antal strömmar) till denna användarutrustning. I nuvarande industriella implementeringar erhålls kanalstatusinformation för endast en av användarutrustningens antenner för att inte slösa bort systemresurser, vilket sedan begränsar överföringsrankningen för nedlänkning till 1. Därför syftar vi på en metod baserad på Deep learning-teknik. I detta dokument implementeras flerskiktsuppfattning och inblandat neuralt nätverk. Data genereras av MATLAB-simulator med hjälp av parametrarna som tillhandahålls av Huawei Technologies Co., Ltd. Slutligen ger modellen som föreslås av detta projekt bästa prestanda jämfört med baslinjealgoritmerna.
|
2 |
Fair NFTs evaluation based on historical sales, market data and NFTs metadata / Rättvis NFTs utvärdering baserad på historisk försäljning, marknadsdata och NFTs metadataRigotti, Marcello January 2023 (has links)
Blockchain technology is rapidly growing and with it, the opportunities it brings. Non-fungible tokens (NFTs) are a type of token that represents unique data that can be owned and traded on a blockchain. The NFT market is still in its early stages, making it difficult for newcomers to enter without a solid background and knowledge of the technology. In this study, we aimed to discover if the new information provided by blockchain and NFTs can be used to build better estimation models. We focused on the availability of every single transaction and the attributes attached to NFTs. Our results showed that the availability of each transaction improves the accuracy slightly, while the attributes attached to the NFT greatly improve accuracy. We are confident that with more data over time, the accuracy will continue to improve mainly if the transactions are able to cover almost all the NFTs inside a collection because all the different combinations of attributes will be analyzed. / Blockchain-teknologin växer snabbt och med det, möjligheterna det ger. Non-fungible tokens (NFTs) är en typ av token som representerar unika data som kan ägas och bytas ut på en blockchain. NFT-marknaden är fortfarande i sina tidiga stadier, vilket gör det svårt för nykomlingar att komma in utan en solid bakgrund och kunskap om teknologin. I den här studien ville vi upptäcka om den nya informationen som tillhandahålls av blockchain och NFTs kan användas för att bygga bättre estimeringsmodeller. Vi fokuserade på tillgängligheten av varje enskild transaktion och attributen som är kopplade till NFTs. Våra resultat visade att tillgängligheten av varje transaktion förbättrar noggrannheten något, medan attributen som är kopplade till NFTs förbättrar noggrannheten mycket. Vi är säkra på att med mer data över tid kommer noggrannheten att fortsätta att förbättras främst om transaktionerna är i stånd att täcka nästan alla NFTs inom en samling eftersom alla olika kombinationer av attribut kommer att analyseras.
|
3 |
Graphical Glitch Detection in Video Games Using CNNs / Användning av CNNs för att upptäcka felaktiga bilder i videospelGarcía Ling, Carlos January 2020 (has links)
This work addresses the following research question: Can we detect videogame glitches using Convolutional Neural Networks? Focusing on the most common types of glitches, texture glitches (Stretched, Lower Resolution, Missing, and Placeholder). We first systematically generate a dataset with both images with texture glitches and normal samples. To detect the faulty images we try both Classification and Semantic Segmentation approaches, with a clear focus on the former. The best setting in classification uses a ShuffleNetV2 architecture and obtains precisions of 80.0%, 64.3%, 99.2%, and 97.0% in the respective glitch classes Stretched, Lower Resolution, Missing, and Placeholder. All of this with a low false positive rate of 6.7%. To complement this study, we also discuss how the models extrapolate to different graphical environments, which are the main sources of confusion for the model, how to estimate the confidence of the network, and ways to interpret the internal behavior of the models. / Detta projekt svarar på följande forskningsfråga: Kan man använda Convolutional Neural Networks för att upptäcka felaktiga bilder i videospel? Vi fokuserar på de vanligast förekommande grafiska defekter i videospel, felaktiga textures (sträckt, lågupplöst, saknas och platshållare). Med hjälp av en systematisk process genererar vi data med både normala och felaktiga bilder. För att hitta defekter använder vi CNN via både Classification och Semantic Segmentation, med fokus på den första metoden. Den bäst presterande Classification-modellen baseras på ShuffleNetV2 och når 80.0%, 64.3%, 99.2% och 97.0% precision på respektive sträckt-, lågupplöst-, saknas- och platshållare-buggar. Detta medan endast 6.7% av negativa datapunkter felaktigt klassifieras som positiva. Denna undersökning ser även till hur modellen generaliserar till olika grafiska miljöer, vilka de primära orsakerna till förvirring hos modellen är, hur man kan bedöma säkerheten i nätverkets prediktion och hur man bättre kan förstå modellens interna struktur.
|
4 |
Heart rate estimation from wrist-PPG signals in activity by deep learning methodsStefanos, Marie-Ange January 2023 (has links)
In the context of health improving, the measurement of vital parameters such as heart rate (HR) can provide solutions for health monitoring, prevention and screening for certain chronic diseases. Among the different technologies for HR measuring, photoplethysmography (PPG) technique embedded in smart watches is the most commonly used in the field of consumer electronics since it is comfortable and does not require any user intervention. To be able to provide an all day and night long HR monitoring method, difficulties associated with PPG signals vulnerability to Motion Artifact (MA) must be overcome. Conventional signal processing solutions (power spectral density analysis) have limited generalization capability as they are specific to certain types of movements, highlighting the interest of machine learning tools, particularly deep learning (DL). Since DL models in the literature are trained on data from a different sensor than the internal sensor, transfer learning may prove unsuccessful. This work proposes a DL approach for estimating HR from wrist PPG signals. The model is trained on internal data with a greater demographic diversity of participants. This project also illustrates the contribution of multi-path and multi-wavelength PPG instead of the conventional single green PPG solution. This work presents several models, called DeepTime, with selected input channels and wavelengths: Mono_Green, Multi_Green, Multi_Wavelength, and Multi_Channel_Multi_Wavelength. They take temporal PPG signals as inputs along with 3D acceleration and provide HR estimation every 2 seconds with an 8-second initialization. This convolutional neural network comprised of several input branches improves the existing Withings internal method’s overall Mean Absolute Error (MAE) from 9.9 BPM to 6.9 BPM on the holdout test set. This work could be completed and improved by adding signal temporal history using recurrent layers, such as Long-Short-Term-Memory (LSTM), training the model with a bigger dataset, improving preprocessing steps or using a more elaborate loss function that includes a trust score. / I sammanhanget av förbättring av hälsouppföljning kan mätning av vitala parametrar som hjärtfrekvens (HR) erbjuda lösningar för förebyggande och screening av vissa kroniska sjukdomar. Bland olika tekniker för mätning av HR är fotoplethysmografi (PPG) integrerad i smartklockor den vanligast använda inom elektronikområdet eftersom den är bekväm och inte kräver något användaringripande. För att erbjuda en kontinuerlig HRövervakningsmetod utgör sårbarheten hos PPG-signaler för rörelseartefakter (MA) en stor utmaning. Konventionella signalbehandlingslösningar (analys av effektspektraltäthet) har begränsad generaliseringsförmåga eftersom de är specifika för vissa typer av rörelser, vilket betonar intresset för maskininlärningsverktyg, särskilt djupinlärning (DL). Eftersom DL-modeller i litteraturen tränas på data från en annan sensor än den interna sensorn kan överföringsinlärning vara misslyckad. Detta arbete föreslår en DL-ansats för att uppskatta HR från PPG-signaler på handleden. Modellen tränas på interna data med en större demografisk mångfald bland deltagarna. Detta projekt illustrerar även bidraget från flervägs- och flervågs-PPG istället för den konventionella enkla gröna PPG-lösningen. Detta arbete presenterar flera modeller, kallade DeepTime, med utvalda ingångskanaler och våglängder: Mono_Green, Multi_Green, Multi_Wavelength och Multi_Channel_Multi_Wavelength. De tar in temporära PPG-signaler tillsammans med 3D-acceleration och ger HR-uppskattning var 2:a sekund med en initialisering på 8 sekunder. Detta konvolutionella neurala nätverk, som består av flera ingångsgrenar, förbättrar den totala medelabsoluta felet (MAE) från 9,9 BPM (befintlig intern metod) till 6,9 BPM på testuppsättningen. Detta arbete kan kompletteras och förbättras genom att integrera den temporala historiken hos signalen med hjälp av återkommande lager (som LSTM), träna modellen på mer data, förbättra förbehandlingsstegen eller välja en mer sofistikerad förlustfunktion som inkluderar ett konfidensvärde.
|
5 |
Exploring the Depth-Performance Trade-Off : Applying Torch Pruning to YOLOv8 Models for Semantic Segmentation Tasks / Utforska kompromissen mellan djup och prestanda : Tillämpning av Torch Pruning på YOLOv8-modeller för uppgifter om semantisk segmenteringWang, Xinchen January 2024 (has links)
In order to comprehend the environments from different aspects, a large variety of computer vision methods are developed to detect objects, classify objects or even segment them semantically. Semantic segmentation is growing in significance due to its broad applications in fields such as robotics, environmental understanding for virtual or augmented reality, and autonomous driving. The development of convolutional neural networks, as a powerful tool, has contributed to solving classification or object detection tasks with the trend of larger and deeper models. It is hard to compare the models from the perspective of depth since they are of different structure. At the same time, semantic segmentation is computationally demanding for the reason that it requires classifying each pixel to certain classes. Running these complicated processes on resource-constrained embedded systems may cause performance degradation in terms of inference time and accuracy. Network pruning, a model compression technique, targeting to eliminate the redundant parameters in the models based on a certain evaluation rule, is one solution. Most traditional network pruning methods, structural or nonstructural, apply zero masks to cover the original parameters rather than literally eliminate the connections. A new pruning method, Torch-Pruning, has a general-purpose library for structural pruning. This method is based on the dependency between parameters and it can remove groups of less important parameters and reconstruct the new model. A cutting-edge research work towards solving several computer vision tasks, Yolov8 has proposed several pre-trained models from nano, small, medium to large and xlarge with similar structure but different parameters for different applications. This thesis applies Torch-Pruning to Yolov8 semantic segmentation models to compare the performance of pruning based on existing models with similar structures, thus it is meaningful to compare the depth of the model as a factor. Several configurations of the pruning have been explored. The results show that greater depth does not always lead to better performance. Besides, pruning can bring about more generalization ability for Gaussian noise at medium level, from 20% to 40% compared with the original models. / För att förstå miljöer från olika perspektiv har en mängd olika datorseendemetoder utvecklats för att upptäcka objekt, klassificera objekt eller till och med segmentera dem semantiskt. Semantisk segmentering växer i betydelse på grund av dess breda tillämpningar inom områden som robotik, miljöförståelse för virtuell eller förstärkt verklighet och autonom körning. Utvecklingen av konvolutionella neurala nätverk, som är ett kraftfullt verktyg, har bidragit till att lösa klassificerings- eller objektdetektionsuppgifter med en trend mot större och djupare modeller. Det är svårt att jämföra modeller från djupets perspektiv eftersom de har olika struktur. Samtidigt är semantisk segmentering beräkningsintensiv eftersom den kräver att varje pixel klassificeras till vissa klasser. Att köra dessa komplicerade processer på resursbegränsade inbäddade system kan orsaka prestandanedgång när det gäller inferenstid och noggrannhet. Nätverksbeskärning, en modellkomprimeringsteknik som syftar till att eliminera överflödiga parametrar i modellerna baserat på en viss utvärderingsregel, är en lösning. De flesta traditionella nätverksbeskärningsmetoder, både strukturella och icke-strukturella, tillämpar nollmasker för att täcka de ursprungliga parametrarna istället för att bokstavligen eliminera anslutningarna. En ny beskärningsmetod, Torch-Pruning, har en allmän användningsområde för strukturell beskärning. Denna metod är baserad på beroendet mellan parametrar och den kan ta bort grupper av mindre viktiga parametrar och återskapa den nya modellen. Ett banbrytande forskningsarbete för att lösa flera datorseenduppgifter, Yolov8, har föreslagit flera förtränade modeller från nano, liten, medium till stor och xstor med liknande struktur men olika parametrar för olika tillämpningar. Denna avhandling tillämpar Torch-Pruning på Yolov8 semantiska segmenteringsmodeller för att jämföra prestandan för beskärning baserad på befintliga modeller med liknande strukturer, vilket gör det meningsfullt att jämföra djupet som en faktor. Flera konfigurationer av beskärningen har utforskats. Resultaten visar att större djup inte alltid leder till bättre prestanda. Dessutom kan beskärning medföra en större generaliseringsförmåga för gaussiskt brus på medelnivå, från 20% till 40%, jämfört med de ursprungliga modellerna.
|
6 |
A Deep-Learning-Based Approach for Stiffness Estimation of Deformable Objects / En djupinlärningsbaserad metod för elasticitetsuppskattning av deformerbara objektYang, Nan January 2022 (has links)
Object deformation is an essential factor for the robot to manipulate the object, as the deformation impacts the grasping of the deformable object either positively or negatively. One of the most challenging problems with deformable objects is estimating the stiffness parameters such as Young’s modulus and Poisson’s ratio. This thesis presents a learning-based approach to predicting the stiffness parameters of a 3D (volumetric) deformable object based on vision and haptic feedback. A deep learning network is designed to predict Young’s modulus of homogeneous isotropic deformable objects from the forces of squeezing the object and the depth images of the deformed part of the object. The results show that the developed method can estimate Young’s modulus of the selected synthetic objects in the validation samples dataset with 3.017% error upper bound on the 95% confidence interval. The conclusion is that this method contributes to predicting Young’s modulus of the homogeneous isotropic objects in the simulation environments. In future work, the diversity of the object shape samples can be expanded for broader application in predicting Young’s modulus. Besides, the method can also be extended to real-world objects after validating real-world experiments. / Objekt är en väsentlig faktor för roboten att manipulera objektet, eftersom det påverkar greppet om det deformerbara objektets deformation antingen positivt eller negativt. Ett av de mest utmanande problemen med deformerbara objekt är att uppskatta styvhetsparametrarna som Youngs modul och Poissons förhållande . Denna avhandling presenterar en inlärningsbaserad metod för att förutsäga styvhetsparametrarna för ett 3D (volumetriskt) deformerbart objekt baserat på syn och haptisk feedback. Ett nätverk för djupinlärning är utformat för att förutsäga Youngs modul av homogena isotropa deformerbara objekt från krafterna från att klämma ihop objektet och djupbilderna av den deformerade delen av objektet Resultaten visar att den utvecklade metoden kan uppskatta Youngs modul för de utvalda syntetiska objekten i valideringsexempeldatauppsättningen med 3.017% fel övre gräns på 95% konfidensintervall. Slutsatsen är att denna metod bidrar till att förutsäga Youngs modul för de homogena isotropa objekten i simuleringsmiljöerna. I framtida bredare arbete kan mångfalden av objektformproverna utökas för tillämpning vid förutsägelse av Youngs modul. Dessutom kan metoden också utvidgas till verkliga objekt efter validering av verkliga experiment.
|
7 |
Data Augmentation in Solving Data Imbalance ProblemsGao, Jie January 2020 (has links)
This project mainly focuses on the various methods of solving data imbalance problems in the Natural Language Processing (NLP) field. Unbalanced text data is a common problem in many tasks especially the classification task, which leads to the model not being able to predict the minority class well. Sometimes, even we change to some more excellent and complicated model could not improve the performance, while some simple data strategies that focus on solving data imbalanced problems such as over-sampling or down-sampling produce positive effects on the result. The common data strategies include some re-sampling methods that duplicate new data from the original data or remove some original data to have the balance. Except for that, some other methods such as word replacement, word swap, and word deletion are used in previous work as well. At the same time, some deep learning models like BERT, GPT and fastText model, which have a strong ability for a general understanding of natural language, so we choose some of them to solve the data imbalance problem. However, there is no systematic comparison in practicing these methods. For example, over-sampling and down-sampling are fast and easy to use in previous small scales of datasets. With the increase of the dataset, the newly generated data by some deep network models is more compatible with the original data. Therefore, our work focus on how is the performance of various data augmentation techniques when they are used to solve data imbalance problems, given the dataset and task? After the experiment, Both qualitative and quantitative experimental results demonstrate that different methods have their advantages for various datasets. In general, data augmentation could improve the performance of classification models. For specific, BERT especially our fine-tuned BERT has an excellent ability in most using scenarios(different scales and types of the dataset). Still, other techniques such as Back-translation has a better performance in long text data, even it costs more time and has a complicated model. In conclusion, suitable choices for data augmentation methods could help to solve data imbalance problems. / Detta projekt fokuserar huvudsakligen på de olika metoderna för att lösa dataobalansproblem i fältet Natural Language Processing (NLP). Obalanserad textdata är ett vanligt problem i många uppgifter, särskilt klassificeringsuppgiften, vilket leder till att modellen inte kan förutsäga minoriteten Ibland kan vi till och med byta till en mer utmärkt och komplicerad modell inte förbättra prestandan, medan några enkla datastrategier som fokuserar på att lösa data obalanserade problem som överprov eller nedprovning ger positiva effekter på resultatet. vanliga datastrategier inkluderar några omprovningsmetoder som duplicerar nya data från originaldata eller tar bort originaldata för att få balans. Förutom det används vissa andra metoder som ordbyte, ordbyte och radering av ord i tidigare arbete Samtidigt har vissa djupinlärningsmodeller som BERT, GPT och fastText-modellen, som har en stark förmåga till en allmän förståelse av naturliga språk, så vi väljer några av dem för att lösa problemet med obalans i data. Det finns dock ingen systematisk jämförelse när man praktiserar dessa metoder. Exempelvis är överprovtagning och nedprovtagning snabba och enkla att använda i tidigare små skalor av datamängder. Med ökningen av datauppsättningen är de nya genererade data från vissa djupa nätverksmodeller mer kompatibla med originaldata. Därför fokuserar vårt arbete på hur prestandan för olika dataförstärkningstekniker används när de används för att lösa dataobalansproblem, givet datamängden och uppgiften? Efter experimentet visar både kvalitativa och kvantitativa experimentella resultat att olika metoder har sina fördelar för olika datamängder. I allmänhet kan dataförstärkning förbättra prestandan hos klassificeringsmodeller. För specifika, BERT speciellt vår finjusterade BERT har en utmärkt förmåga i de flesta med hjälp av scenarier (olika skalor och typer av datamängden). Ändå har andra tekniker som Back-translation bättre prestanda i lång textdata, till och med det kostar mer tid och har en komplicerad modell. Sammanfattningsvis lämpliga val för metoder för dataökning kan hjälpa till att lösa problem med obalans i data.
|
8 |
Simulation and time-series analysis for Autonomous Emergency Braking systems / Simulering och tidsserie-analys för Autonoma nödbromsning systemXu, Zhiying January 2021 (has links)
One central challenge for Autonomous Driving (AD) systems is ensuring functional safety. This is affected by all parts of vehicle automation systems: environment perception, decision making, and actuation. The AD system manages its activity towards achieving its goals to maintain in the safety domain, upon an environment using observation through sensors and consequent actuators. Therefore, this research investigates the operational safety for the AD system. In this research, a simulation for the Autonomous Emergency Braking (AEB) system and a simple scenario are constructed on CARLA, an open-source simulator for autonomous driving systems, to investigate the factors that impact the performance of the AEB system. The time-series data that influence the AEB are collected and fed into three time-series analysis algorithms, Autoregressive Integrated Moving Average model (ARIMA), regression tree and Long short-term memory (LSTM), to select a suitable time-series algorithm to be used for the AEB system. The results show that weather, the measurement range of the sensors, and noise can affect the results of the AEB system. After comparing the performance of these three time-series algorithms through contrasting the recall and precision of these three algorithms to detect noise in the data, the results can be obtained that LSTM has the better performance for long-term analysis. And ARIMA is more suitable for short-term time-series analysis. LSTM is chosen to analyze the time-series data, since the long-term time-series analysis is necessary for the AEB system and it can detect the noise in the variables of the AEB system with better performance. / En central utmaning för AD system är att säkerställa funktionell säkerhet. Detta påverkas av alla delar av fordonsautomatiseringssystem: miljöuppfattning, beslutsfattande och aktivering. AD -systemet hanterar sin aktivitet för att uppnå sina mål att upprätthålla inom säkerhetsområdet, i en miljö som använder observation genom sensorer och därav följande ställdon. Därför undersöker denna forskning den operativa säkerheten för AD systemet. I denna forskning konstrueras en simulering för AEB -systemet och ett enkelt scenario på CARLA, en simulator med öppen källkod för autonoma körsystem, för att undersöka de faktorer som påverkar prestandan för AEB systemet. Tidsseriedata som påverkar AEB samlas in och matas in i tre tidsserieanalysalgoritmer, ARIMA, regressionsträd och LSTM, för att välja en lämplig tidsserie-algoritm som ska används för AEB systemet. Resultaten visar att väder, mätområdet för sensorerna och brus kan påverka resultaten av AEB systemet. Efter att ha jämfört prestandan för dessa tre tidsserie-algoritmer genom att kontrastera återkallelsen och precisionen för dessa tre algoritmer för att detektera brus i data kan resultaten erhållas att LSTM har bättre prestanda för långsiktig analys. Och ARIMA är mer lämpad för korttidsanalyser i tidsserier. LSTM väljs för att analysera tidsseriedata, eftersom långsiktig tidsserieanalys är nödvändig för AEB systemet och det kan detektera bruset i variablerna i AEB system med bättre prestanda.
|
9 |
The V-SLAM Hurdler : A Faster V-SLAM System using Online Semantic Dynamic-and-Hardness-aware Approximation / V-SLAM Häcklöparen : Ett Snabbare V-SLAM System med Online semantisk Dynamisk-och-Hårdhetsmedveten ApproximationMingxuan, Liu January 2022 (has links)
Visual Simultaneous Localization And Mapping (V-SLAM) and object detection algorithms are two critical prerequisites for modern XR applications. V-SLAM allows XR devices to geometrically map the environment and localize itself within the environment, simultaneously. Furthermore, object detectors based on Deep Neural Network (DNN) can be used to semantically understand what those features in the environment represent. However, both of these algorithms are computationally expensive, which makes it challenging for them to achieve good real-time performance on device. In this thesis, we first present TensoRT Quantized YOLOv4 (TRTQYOLOv4), a faster implementation of YOLOv4 architecture [1] using FP16 reduced precision and INT8 quantization powered by NVIDIA TensorRT [2] framework. Second, we propose the V-SLAM Hurdler: A Faster VSLAM System using Online Dynamic-and-Hardness-aware Approximation. The proposed system integrates the base RGB-D V-SLAM ORB-SLAM3 [3] with the INT8 TRTQ-YOLOv4 object detector, a novel Entropy-based Degreeof- Difficulty Estimator, an Online Hardness-aware Approximation Controller and a Dynamic Object Eraser, applying online dynamic-and-hardness aware approximation to the base V-SLAM system during runtime while increasing its robustness in dynamic scenes. We first evaluate the proposed object detector on public object detection dataset. The proposed FP16 precision TRTQ-YOLOv4 achieves 2×faster than the full-precision model without loss of accuracy, while the INT8 quantized TRTQ-YOLOv4 is almost 3×faster than the full-precision one with only 0.024 loss in mAP@50:5:95. Second, we evaluate our proposed V-SLAM system on public RGB-D SLAM dataset. In static scenes, the proposed system speeds up the base VSLAM system by +21.2% on average with only −0.7% loss of accuracy. In dynamic scenes, the proposed system not only accelerate the base system by +23.5% but also improves the accuracy by +89.3%, making it as robust as in the static scenes. Lastly, the comparison against the state-of-the-art SLAMs designed dynamic environments shows that our system outperforms most of the compared methods in highly dynamic scenes. / Visual SLAM (V-SLAM) och objektdetekteringsalgoritmer är två kritiska förutsättningar för moderna XR-applikationer. V-SLAM tillåter XR-enheter att geometriskt kartlägga miljön och lokalisera sig i miljön samtidigt. Dessutom kan DNN-baserade objektdetektorer användas för att semantiskt förstå vad dessa egenskaper i miljön representerar. Men båda dessa algoritmer är beräkningsmässigt dyra, vilket gör det utmanande för dem att uppnå bra realtidsprestanda på enheten. I det här examensarbetet presenterar vi först TRTQ-YOLOv4, en snabbare implementering av YOLOv4 arkitektur [1] med FP16 reducerad precision och INT8 kvantisering som drivs av NVIDIA TensorRT [2] ramverk. För det andra föreslår vi V-SLAM-häckaren: ett snabbare V-SLAM-system som använder online-dynamisk och hårdhetsmedveten approximation. Det föreslagna systemet integrerar basen RGB-D V-SLAM ORB-SLAM3 [3] med INT8 TRTQYOLOv4 objektdetektorn, en ny Entropi-baserad svårighetsgradsuppskattare, en online hårdhetsmedveten approximationskontroller och en Dynamic Object Eraser, applicerar online-dynamik- och hårdhetsmedveten approximation till bas-V-SLAM-systemet under körning samtidigt som det ökar dess robusthet i dynamiska scener. Vi utvärderar först den föreslagna objektdetektorn på datauppsättning för offentlig objektdetektering. Den föreslagna FP16 precision TRTQ-YOLOv4 uppnår 2× snabbare än fullprecisionsmodellen utan förlust av noggrannhet, medan den INT8 kvantiserade TRTQ-YOLOv4 är nästan 3× snabbare än fullprecisionsmodellen med endast 0.024 förlust i mAP@50:5:95. För det andra utvärderar vi vårt föreslagna V-SLAM-system på offentlig RGB-D SLAM-datauppsättning. I statiska scener snabbar det föreslagna systemet upp V-SLAM-bassystemet med +21.2% i genomsnitt med endast −0.7% förlust av noggrannhet. I dynamiska scener accelererar det föreslagna systemet inte bara bassystemet med +23.5% utan förbättrar också noggrannheten med +89.3%, vilket gör det lika robust som i de statiska scenerna. Slutligen visar jämförelsen med de senaste SLAM-designade dynamiska miljöerna att vårt system överträffar de flesta av de jämförda metoderna i mycket dynamiska scener.
|
10 |
Pushing the boundary of Semantic Image SegmentationJain, Shipra January 2020 (has links)
The state-of-the-art object detection and image classification methods can perform impressively on more than 9k classes. In contrast, the number of classes in semantic segmentation datasets are fairly limited. This is not surprising , when the restrictions caused by the lack of labeled data and high computation demand are considered. To efficiently perform pixel-wise classification for c number of classes, segmentation models use cross-entropy loss on c-channel output for each pixel. The computational demand for such prediction turns out to be a major bottleneck for higher number of classes. The major goal of this thesis is to reduce the number of channels of the output prediction, thus allowing to perform semantic segmentation with very high number of classes. The reduction of dimension has been approached using metric learning for the semantic feature space. The metric learning provides us the mapping from pixel to embedding with minimal, still sufficient, number of dimensions. Our proposed approximation of groundtruth class probability for cross entropy loss helps the model to place the embeddings of same class pixels closer, reducing inter-class variabilty of clusters and increasing intra-class variability. The model also learns a prototype embedding for each class. In loss function, these class embeddings behave as positive and negative samples for pixel embeddings (anchor). We show that given a limited computational memory and resources, our approach can be used for training a segmentation model for any number of classes. We perform all experiments on one GPU and show that our approach performs similar and in some cases slightly better than deeplabv3+ baseline model for Cityscapes and ADE20K dataset. We also perform experiments to understand trade-offs in terms of memory usage, inference time and performance metrics. Our work helps in alleviating the problem of computational complexity, thus paving the way for image segmentation task with very high number of semantic classes. / De ledande djupa inlärningsmetoderna inom objektdetektion och bildklassificering kan hantera väl över 9000 klasser. Inom semantisk segmentering är däremot antalet klasser begränsat för vanliga dataset. Detta är inte förvånande då det behövs mycket annoterad data och beräkningskraft. För att effektivt kunna göra en pixelvis klassificering av c klasser, använder segmenteringsmetoder den s.k. korsentropin över c sannolikhets värden för varje pixel för att träna det djupa nätverket. Beräkningskomplexiteten från detta steg är den huvudsakliga flaskhalsen för att kunna öka antalet klasser. Det huvudsakliga målet av detta examensarbete är att minska antalet kanaler i prediktionen av nätverket för att kunna prediktera semantisk segmentering även vid ett mycket högt antal klasser. För att åstadkomma detta används metric learning för att träna slutrepresentationen av nätet. Metric learning metoden låter oss träna en representation med ett minimalt, men fortfarande tillräckligt antal dimensioner. Vi föreslår en approximation av korsentropin under träning som låter modellen placera representationer från samma klass närmare varandra, vilket reducerar interklassvarians och öka intraklarrvarians. Modellen lär sig en prototyprepresentation för varje klass. För inkärningskostnadsfunktionen ses dessa prototyper som positiva och negativa representationer. Vi visar att vår metod kan användas för att träna en segmenteringsmodell för ett godtyckligt antal klasser givet begränsade minnes- och beräkningsresurser. Alla experiment genomförs på en GPU. Vår metod åstadkommer liknande eller något bättre segmenteringsprestanda än den ursprungliga deeplabv3+ modellen på Cityscapes och ADE20K dataseten. Vi genomför också experiment för att analysera avvägningen mellan minnesanvändning, beräkningstid och segmenteringsprestanda. Vår metod minskar problemet med beräkningskomplexitet, vilket banar väg för segmentering av bilder med ett stort antal semantiska klasser.
|
Page generated in 0.0773 seconds