• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 52
  • 19
  • Tagged with
  • 71
  • 53
  • 46
  • 40
  • 33
  • 32
  • 30
  • 27
  • 18
  • 15
  • 14
  • 14
  • 13
  • 12
  • 11
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

A Scala DSL for Rust code generation

Segeljakt, Klas January 2018 (has links)
Continuous Deep Analytics (CDA) is a new form of analytics with performance requirements exceeding what the current generation of distributed systems can offer. This thesis is part of a five year project in collaboration between RISE SICS and KTH to develop a next generation distributed system capable of CDA. The two issues which the system aims to solve are computation sharing and hardware acceleration. The former refers to how BigData and machine learning libraries such as TensorFlow, Pandas and Numpy must collaborate in the most efficient way possible. Hardware acceleration relates to how the back-end of current generation general purpose data processing systems such as Spark and Flink are bottlenecked by the Java Virtual Machine (JVM). As the JVM abstracts over the underlying hardware, its applications become portable but also forfeit the opportunity to fully exploit the available hardware resources. This thesis aims to explore the area of Domain Specific Languages (DSLs) and code generation as a solution to hardware acceleration. The idea is to translate incoming queries to the system into low-level code, tailor suited to each worker machine’s specific hardware. To this end, two Scala DSLs for generating Rust code have been developed for the translation step. Rust is a new, low-level programming language with a unique take on memory management which makes it as safe as Java and fast as C. Scala is a language which is well suited towards development of DSLs due to its flexible syntax and semantics. The first DSL is implemented as a string interpolator. The interpolator splices strings of Rust code together, at compile time or runtime, and passes the result to an external process for static checking. The second DSL instead provides an API for constructing an abstract syntax tree, which after construction can be traversed and printed into Rust source code. The API combines three concepts: heterogeneous lists, fluent interfaces, and algebraic data types. These allow the userto express advanced Rust syntax such as polymorphic structs, functions, and traits, without sacrificing type safety. / Kontinuerlig Djup Analys (CDA) är en ny form av analys med prestandakrav som överstiger vad den nuvarande generationen av distributerade system kan erbjuda. Den här avhandlingen är del av ett project mellan RISE SICS och KTH för att utveckla ett nästa-generations distribuerat system kapabelt av CDA. Det är två problem som systemet syftar på att lösa: hårdvaruacceleration och beräkningsdelning. Det första handlar om hur BigData och maskininlärningssystem som sådan som TensorFlow, Pandas och Numpy måste kunna samarbeta så effektivt som möjligt. Hårdvaruacceleration relaterar till hur back-end delen i den dagens distribuerade beräknings system, såsom Spark och Flink, flaskhalsas av Javas Virtuella Maskin. JVM:en abstraherar över den underliggande hårvaran. Som resultat blir dess applikationer portabla, men ger också upp möjligheten att fullständigt utnyttja de tillgängliga hårdvaruresurserna. Den här avhandlingen siktar på att utforska området kring Domänspecifika Språk (DSLer) och kodgenerering som en lösning till hårdvaruacceleration. Idén är att översätta inkommande förfrågningar till låg-nivå kod, skräddarsydd till varje arbetar maskin’s specifika hårdvara. Till detta ändamål har två Scala DSLer utvecklats för generering av Rust kod. Rust är ett nytt låg-nivå språk med ett unikt vidtagande kring minneshantering som gör det både lika säkert som Java och snabbt som C. Scala är ett språk som passar bra tillutveckling av DSLer pågrund av dess flexibla syntax och semantik. Den första DSLen är implementerad som en sträng-interpolator. Interpolatorn sammanfogar strängar av Rust kod, under kompileringstid eller exekveringstid, och passerar resultatet till enextern process för statisk kontroll. Den andra DSLen består istället av ett API för att konstruera ett abstrakt syntaxträd, som efteråt kan traverseras och skrivas ut till Rust kod. API:et kombinerar tre koncept: heterogena listor, flytande gränssnitt, och algebraiska datatyper. Dessa tillåter användaren att uttrycka avancerad Rust syntax, såsom polymorfiska strukts, funktioner, och traits, utan att uppoffra typsäkerhet.
32

An empirical study on synthetic image generation techniques for object detectors

Arcidiacono, Claudio Salvatore January 2018 (has links)
Convolutional Neural Networks are a very powerful machine learning tool that outperformed other techniques in image recognition tasks. The biggest drawback of this method is the massive amount of training data required, since producing training data for image recognition tasks is very labor intensive. To tackle this issue, different techniques have been proposed to generate synthetic training data automatically. These synthetic data generation techniques can be grouped in two categories: the first category generates synthetic images using computer graphic software and CAD models of the objects to recognize; the second category generates synthetic images by cutting the object from an image and pasting it on another image. Since both techniques have their pros and cons, it would be interesting for industries to investigate more in depth the two approaches. A common use case in industrial scenarios is detecting and classifying objects inside an image. Different objects appertaining to classes relevant in industrial scenarios are often undistinguishable (for example, they all the same component). For these reasons, this thesis work aims to answer the research question “Among the CAD model generation techniques, the Cut-paste generation techniques and a combination of the two techniques, which technique is more suitable for generating images for training object detectors in industrial scenarios”. In order to answer the research question, two synthetic image generation techniques appertaining to the two categories are proposed.The proposed techniques are tailored for applications where all the objects appertaining to the same class are indistinguishable, but they can also be extended to other applications. The two synthetic image generation techniques are compared measuring the performances of an object detector trained using synthetic images on a test dataset of real images. The performances of the two synthetic data generation techniques used for data augmentation have been also measured. The empirical results show that the CAD models generation technique works significantly better than the Cut-Paste generation technique where synthetic images are the only source of training data (61% better),whereas the two generation techniques perform equally good as data augmentation techniques. Moreover, the empirical results show that the models trained using only synthetic images performs almost as good as the model trained using real images (7,4% worse) and that augmenting the dataset of real images using synthetic images improves the performances of the model (9,5% better). / Konvolutionella neurala nätverk är ett mycket kraftfullt verktyg för maskininlärning som överträffade andra tekniker inom bildigenkänning. Den största nackdelen med denna metod är den massiva mängd träningsdata som krävs, eftersom det är mycket arbetsintensivt att producera träningsdata för bildigenkänningsuppgifter. För att ta itu med detta problem har olika tekniker föreslagits för att generera syntetiska träningsdata automatiskt. Dessa syntetiska datagenererande tekniker kan grupperas i två kategorier: den första kategorin genererar syntetiska bilder med hjälp av datorgrafikprogram och CAD-modeller av objekten att känna igen; Den andra kategorin genererar syntetiska bilder genom att klippa objektet från en bild och klistra in det på en annan bild. Eftersom båda teknikerna har sina fördelar och nackdelar, skulle det vara intressant för industrier att undersöka mer ingående de båda metoderna. Ett vanligt fall i industriella scenarier är att upptäcka och klassificera objekt i en bild. Olika föremål som hänför sig till klasser som är relevanta i industriella scenarier är ofta oskiljbara (till exempel de är alla samma komponent). Av dessa skäl syftar detta avhandlingsarbete till att svara på frågan “Bland CAD-genereringsteknikerna, Cut-paste generationsteknikerna och en kombination av de två teknikerna, vilken teknik är mer lämplig för att generera bilder för träningsobjektdetektorer i industriellascenarier”. För att svara på forskningsfrågan föreslås två syntetiska bildgenereringstekniker som hänför sig till de två kategorierna. De föreslagna teknikerna är skräddarsydda för applikationer där alla föremål som tillhör samma klass är oskiljbara, men de kan också utökas till andra applikationer. De två syntetiska bildgenereringsteknikerna jämförs med att mäta prestanda hos en objektdetektor som utbildas med hjälp av syntetiska bilder på en testdataset med riktiga bilder. Föreställningarna för de två syntetiska datagenererande teknikerna som används för dataförökning har också uppmätts. De empiriska resultaten visar att CAD-modelleringstekniken fungerar väsentligt bättre än Cut-Paste-genereringstekniken, där syntetiska bilder är den enda källan till träningsdata (61% bättre), medan de två generationsteknikerna fungerar lika bra som dataförstoringstekniker. Dessutom visar de empiriska resultaten att modellerna som utbildats med bara syntetiska bilder utför nästan lika bra som modellen som utbildats med hjälp av riktiga bilder (7,4% sämre) och att förstora datasetet med riktiga bilder med hjälp av syntetiska bilder förbättrar modellens prestanda (9,5% bättre).
33

Graphical Glitch Detection in Video Games Using CNNs / Användning av CNNs för att upptäcka felaktiga bilder i videospel

García Ling, Carlos January 2020 (has links)
This work addresses the following research question: Can we detect videogame glitches using Convolutional Neural Networks? Focusing on the most common types of glitches, texture glitches (Stretched, Lower Resolution, Missing, and Placeholder). We first systematically generate a dataset with both images with texture glitches and normal samples.  To detect the faulty images we try both Classification and Semantic Segmentation approaches, with a clear focus on the former. The best setting in classification uses a ShuffleNetV2 architecture and obtains precisions of 80.0%, 64.3%, 99.2%, and 97.0% in the respective glitch classes Stretched, Lower Resolution, Missing, and Placeholder. All of this with a low false positive rate of 6.7%. To complement this study, we also discuss how the models extrapolate to different graphical environments, which are the main sources of confusion for the model, how to estimate the confidence of the network, and ways to interpret the internal behavior of the models. / Detta projekt svarar på följande forskningsfråga: Kan man använda Convolutional Neural Networks för att upptäcka felaktiga bilder i videospel? Vi fokuserar på de vanligast förekommande grafiska defekter i videospel, felaktiga textures (sträckt, lågupplöst, saknas och platshållare). Med hjälp av en systematisk process genererar vi data med både normala och felaktiga bilder. För att hitta defekter använder vi CNN via både Classification och Semantic Segmentation, med fokus på den första metoden. Den bäst presterande Classification-modellen baseras på ShuffleNetV2 och når 80.0%, 64.3%, 99.2% och 97.0% precision på respektive sträckt-, lågupplöst-, saknas- och platshållare-buggar. Detta medan endast 6.7% av negativa datapunkter felaktigt klassifieras som positiva. Denna undersökning ser även till hur modellen generaliserar till olika grafiska miljöer, vilka de primära orsakerna till förvirring hos modellen är, hur man kan bedöma säkerheten i nätverkets prediktion och hur man bättre kan förstå modellens interna struktur.
34

Heart rate estimation from wrist-PPG signals in activity by deep learning methods

Stefanos, Marie-Ange January 2023 (has links)
In the context of health improving, the measurement of vital parameters such as heart rate (HR) can provide solutions for health monitoring, prevention and screening for certain chronic diseases. Among the different technologies for HR measuring, photoplethysmography (PPG) technique embedded in smart watches is the most commonly used in the field of consumer electronics since it is comfortable and does not require any user intervention. To be able to provide an all day and night long HR monitoring method, difficulties associated with PPG signals vulnerability to Motion Artifact (MA) must be overcome. Conventional signal processing solutions (power spectral density analysis) have limited generalization capability as they are specific to certain types of movements, highlighting the interest of machine learning tools, particularly deep learning (DL). Since DL models in the literature are trained on data from a different sensor than the internal sensor, transfer learning may prove unsuccessful. This work proposes a DL approach for estimating HR from wrist PPG signals. The model is trained on internal data with a greater demographic diversity of participants. This project also illustrates the contribution of multi-path and multi-wavelength PPG instead of the conventional single green PPG solution. This work presents several models, called DeepTime, with selected input channels and wavelengths: Mono_Green, Multi_Green, Multi_Wavelength, and Multi_Channel_Multi_Wavelength. They take temporal PPG signals as inputs along with 3D acceleration and provide HR estimation every 2 seconds with an 8-second initialization. This convolutional neural network comprised of several input branches improves the existing Withings internal method’s overall Mean Absolute Error (MAE) from 9.9 BPM to 6.9 BPM on the holdout test set. This work could be completed and improved by adding signal temporal history using recurrent layers, such as Long-Short-Term-Memory (LSTM), training the model with a bigger dataset, improving preprocessing steps or using a more elaborate loss function that includes a trust score. / I sammanhanget av förbättring av hälsouppföljning kan mätning av vitala parametrar som hjärtfrekvens (HR) erbjuda lösningar för förebyggande och screening av vissa kroniska sjukdomar. Bland olika tekniker för mätning av HR är fotoplethysmografi (PPG) integrerad i smartklockor den vanligast använda inom elektronikområdet eftersom den är bekväm och inte kräver något användaringripande. För att erbjuda en kontinuerlig HRövervakningsmetod utgör sårbarheten hos PPG-signaler för rörelseartefakter (MA) en stor utmaning. Konventionella signalbehandlingslösningar (analys av effektspektraltäthet) har begränsad generaliseringsförmåga eftersom de är specifika för vissa typer av rörelser, vilket betonar intresset för maskininlärningsverktyg, särskilt djupinlärning (DL). Eftersom DL-modeller i litteraturen tränas på data från en annan sensor än den interna sensorn kan överföringsinlärning vara misslyckad. Detta arbete föreslår en DL-ansats för att uppskatta HR från PPG-signaler på handleden. Modellen tränas på interna data med en större demografisk mångfald bland deltagarna. Detta projekt illustrerar även bidraget från flervägs- och flervågs-PPG istället för den konventionella enkla gröna PPG-lösningen. Detta arbete presenterar flera modeller, kallade DeepTime, med utvalda ingångskanaler och våglängder: Mono_Green, Multi_Green, Multi_Wavelength och Multi_Channel_Multi_Wavelength. De tar in temporära PPG-signaler tillsammans med 3D-acceleration och ger HR-uppskattning var 2:a sekund med en initialisering på 8 sekunder. Detta konvolutionella neurala nätverk, som består av flera ingångsgrenar, förbättrar den totala medelabsoluta felet (MAE) från 9,9 BPM (befintlig intern metod) till 6,9 BPM på testuppsättningen. Detta arbete kan kompletteras och förbättras genom att integrera den temporala historiken hos signalen med hjälp av återkommande lager (som LSTM), träna modellen på mer data, förbättra förbehandlingsstegen eller välja en mer sofistikerad förlustfunktion som inkluderar ett konfidensvärde.
35

Exploring the Depth-Performance Trade-Off : Applying Torch Pruning to YOLOv8 Models for Semantic Segmentation Tasks / Utforska kompromissen mellan djup och prestanda : Tillämpning av Torch Pruning på YOLOv8-modeller för uppgifter om semantisk segmentering

Wang, Xinchen January 2024 (has links)
In order to comprehend the environments from different aspects, a large variety of computer vision methods are developed to detect objects, classify objects or even segment them semantically. Semantic segmentation is growing in significance due to its broad applications in fields such as robotics, environmental understanding for virtual or augmented reality, and autonomous driving. The development of convolutional neural networks, as a powerful tool, has contributed to solving classification or object detection tasks with the trend of larger and deeper models. It is hard to compare the models from the perspective of depth since they are of different structure. At the same time, semantic segmentation is computationally demanding for the reason that it requires classifying each pixel to certain classes. Running these complicated processes on resource-constrained embedded systems may cause performance degradation in terms of inference time and accuracy. Network pruning, a model compression technique, targeting to eliminate the redundant parameters in the models based on a certain evaluation rule, is one solution. Most traditional network pruning methods, structural or nonstructural, apply zero masks to cover the original parameters rather than literally eliminate the connections. A new pruning method, Torch-Pruning, has a general-purpose library for structural pruning. This method is based on the dependency between parameters and it can remove groups of less important parameters and reconstruct the new model. A cutting-edge research work towards solving several computer vision tasks, Yolov8 has proposed several pre-trained models from nano, small, medium to large and xlarge with similar structure but different parameters for different applications. This thesis applies Torch-Pruning to Yolov8 semantic segmentation models to compare the performance of pruning based on existing models with similar structures, thus it is meaningful to compare the depth of the model as a factor. Several configurations of the pruning have been explored. The results show that greater depth does not always lead to better performance. Besides, pruning can bring about more generalization ability for Gaussian noise at medium level, from 20% to 40% compared with the original models. / För att förstå miljöer från olika perspektiv har en mängd olika datorseendemetoder utvecklats för att upptäcka objekt, klassificera objekt eller till och med segmentera dem semantiskt. Semantisk segmentering växer i betydelse på grund av dess breda tillämpningar inom områden som robotik, miljöförståelse för virtuell eller förstärkt verklighet och autonom körning. Utvecklingen av konvolutionella neurala nätverk, som är ett kraftfullt verktyg, har bidragit till att lösa klassificerings- eller objektdetektionsuppgifter med en trend mot större och djupare modeller. Det är svårt att jämföra modeller från djupets perspektiv eftersom de har olika struktur. Samtidigt är semantisk segmentering beräkningsintensiv eftersom den kräver att varje pixel klassificeras till vissa klasser. Att köra dessa komplicerade processer på resursbegränsade inbäddade system kan orsaka prestandanedgång när det gäller inferenstid och noggrannhet. Nätverksbeskärning, en modellkomprimeringsteknik som syftar till att eliminera överflödiga parametrar i modellerna baserat på en viss utvärderingsregel, är en lösning. De flesta traditionella nätverksbeskärningsmetoder, både strukturella och icke-strukturella, tillämpar nollmasker för att täcka de ursprungliga parametrarna istället för att bokstavligen eliminera anslutningarna. En ny beskärningsmetod, Torch-Pruning, har en allmän användningsområde för strukturell beskärning. Denna metod är baserad på beroendet mellan parametrar och den kan ta bort grupper av mindre viktiga parametrar och återskapa den nya modellen. Ett banbrytande forskningsarbete för att lösa flera datorseenduppgifter, Yolov8, har föreslagit flera förtränade modeller från nano, liten, medium till stor och xstor med liknande struktur men olika parametrar för olika tillämpningar. Denna avhandling tillämpar Torch-Pruning på Yolov8 semantiska segmenteringsmodeller för att jämföra prestandan för beskärning baserad på befintliga modeller med liknande strukturer, vilket gör det meningsfullt att jämföra djupet som en faktor. Flera konfigurationer av beskärningen har utforskats. Resultaten visar att större djup inte alltid leder till bättre prestanda. Dessutom kan beskärning medföra en större generaliseringsförmåga för gaussiskt brus på medelnivå, från 20% till 40%, jämfört med de ursprungliga modellerna.
36

A Deep-Learning-Based Approach for Stiffness Estimation of Deformable Objects / En djupinlärningsbaserad metod för elasticitetsuppskattning av deformerbara objekt

Yang, Nan January 2022 (has links)
Object deformation is an essential factor for the robot to manipulate the object, as the deformation impacts the grasping of the deformable object either positively or negatively. One of the most challenging problems with deformable objects is estimating the stiffness parameters such as Young’s modulus and Poisson’s ratio. This thesis presents a learning-based approach to predicting the stiffness parameters of a 3D (volumetric) deformable object based on vision and haptic feedback. A deep learning network is designed to predict Young’s modulus of homogeneous isotropic deformable objects from the forces of squeezing the object and the depth images of the deformed part of the object. The results show that the developed method can estimate Young’s modulus of the selected synthetic objects in the validation samples dataset with 3.017% error upper bound on the 95% confidence interval. The conclusion is that this method contributes to predicting Young’s modulus of the homogeneous isotropic objects in the simulation environments. In future work, the diversity of the object shape samples can be expanded for broader application in predicting Young’s modulus. Besides, the method can also be extended to real-world objects after validating real-world experiments. / Objekt är en väsentlig faktor för roboten att manipulera objektet, eftersom det påverkar greppet om det deformerbara objektets deformation antingen positivt eller negativt. Ett av de mest utmanande problemen med deformerbara objekt är att uppskatta styvhetsparametrarna som Youngs modul och Poissons förhållande . Denna avhandling presenterar en inlärningsbaserad metod för att förutsäga styvhetsparametrarna för ett 3D (volumetriskt) deformerbart objekt baserat på syn och haptisk feedback. Ett nätverk för djupinlärning är utformat för att förutsäga Youngs modul av homogena isotropa deformerbara objekt från krafterna från att klämma ihop objektet och djupbilderna av den deformerade delen av objektet Resultaten visar att den utvecklade metoden kan uppskatta Youngs modul för de utvalda syntetiska objekten i valideringsexempeldatauppsättningen med 3.017% fel övre gräns på 95% konfidensintervall. Slutsatsen är att denna metod bidrar till att förutsäga Youngs modul för de homogena isotropa objekten i simuleringsmiljöerna. I framtida bredare arbete kan mångfalden av objektformproverna utökas för tillämpning vid förutsägelse av Youngs modul. Dessutom kan metoden också utvidgas till verkliga objekt efter validering av verkliga experiment.
37

AI for an Imperfect-Information Wargame with Self-Play Reinforcement Learning / AI med självspelande förstärkningsinlärning för ett krigsspel med imperfekt information

Ryblad, Filip January 2021 (has links)
The task of training AIs for imperfect-information games has long been difficult. However, recently the algorithm ReBeL, a general framework for self-play reinforcement learning, has been shown to excel at heads-up no-limit Texas hold 'em, among other imperfect-information games. In this report the ability to adapt ReBeL to a downscaled version of the strategy wargame \say{Game of the Generals} is explored. It is shown that an implementation of ReBeL that uses no domain-specific knowledge is able to beat all benchmark bots, which indicates that ReBeL can be a useful framework when training AIs for imperfect-information wargames. / Det har länge varit en utmaning att träna AI:n för spel med imperfekt information. Nyligen har dock algoritmen ReBeL, ett generellt ramverk för självspelande förstärkningsinlärning, visat lovande prestanda i heads-up no-limit Texas hold 'em och andra spel med imperfekt information. I denna rapport undersöks ReBeLs förmåga att anpassas till en nedskalad version av spelet \say{Game of the Generals}, vilket är ett strategiskt krigsspel. Det visas att en implementation av ReBeL som inte använder någon domänspecifik kunskap klarar av att besegra alla bottar som användes vid jämförelse, vilket indikerar att ReBeL kan vara ett användbart ramverk för att träna AI:n för krigsspel med imperfekt information.
38

Deep Learning for Building Damage Assessment of the 2023 Turkey Earthquakes : A comparison of two remote sensing methods / Djupinlärning för bedömning av byggnadsskador efter jordbävningarna i Turkiet 2023 : En jämförelse av två fjärranalysmetoder

Karlbrg, Tobias, Malmgren, Jennifer January 2023 (has links)
Current disaster response strategies are based on damage assessments carried out on the ground, which can be dangerous following a ä destructive event. Damage assessments can also be performed remotely using satellite imagery, but are usually carried out through visual interpretation, which can take a lot of time. This thesis explored a way of using artificial intelligence to automate remote damage assessment. We implemented a dual-task U-Net deep learning model, trained it with the xBD dataset for assessing building damage, and applied the model to pre- and post-event very high resolution satellite imagery of the February 6, 2023 earthquakes in Turkey. The results were compared to damage maps produced using a traditional object based method by calculating the F1 scores associated with the outputs of each method and ground truth data that we compiled. The study areas were parts of the two cities Kahramanmaraş and Antakya. The deep learning model almost only correctly identified undamaged buildings, achieving F1 scores of 0.95 during training as well as 0.93 and 0.83 in the damage assessments of Kahramanmaras and Antakya, respectively. For the other damage classes, the best result was the classification of destroyed buildings, both in training and in the study areas, with a F1-score of 0.45 in training and 0.16 in Kahramanmaraş. The deep learning model performed similarly to the object based method. Although the thesis did not yield good damage maps in the areas of interest, it had many limitations, and there is still a lot of potential for deep learning models to be useful in building damage assessment.
39

Smart Tracking for Edge-assisted Object Detection : Deep Reinforcement Learning for Multi-objective Optimization of Tracking-based Detection Process / Smart Spårning för Edge-assisterad Objektdetektering : Djup Förstärkningsinlärning för Flermålsoptimering av Spårningsbaserad Detekteringsprocess

Zhou, Shihang January 2023 (has links)
Detecting generic objects is one important sensing task for applications that need to understand the environment, for example eXtended Reality (XR), drone navigation etc. However, Object Detection algorithms are particularly computationally heavy for real-time video analysis on resource-constrained mobile devices. Thus Object Tracking, which is a much lighter process, is introduced under the Tracking-By-Detection (TBD) paradigm to alleviate the computational overhead. Still, it is common that the configurations of the TBD remain unchanged, which would result in unnecessary computation and/or performance loss in many cases.\\ This Master's Thesis presents a novel approach for multi-objective optimization of the TBD process on precision and latency, with the platform being power-constrained devices. We propose a Deep Reinforcement Learning based scheduling architecture that selects appropriate TBD actions in video sequences to achieve the desired goals. Specifically, we develop a simulation environment providing Markovian state information as input for the scheduler neural network, justified options of TBD actions, and a scalarized reward function to combine the multiple objectives. Our results demonstrate that the trained policies can learn to utilize content information from the current and previous frames, thus optimally controlling the TBD process at each frame. The proposed approach outperforms the baselines that have fixed TBD configurations and recent research works, achieving the precision close to pure detection while keeping the latency much lower. Both tuneable configurations show positive and synergistic contribution to the optimization objectives. We also show that our policies are generalizable, with inference and action time of the scheduler having minimal latency overhead. This makes our scheduling design highly practical in real XR or similar applications on power-constrained devices. / Att upptäcka generiska objekt är en viktig uppgift inom avkänning för tillämpningar som behöver förstå omgivningen, såsom eXtended Reality (XR) och navigering med drönare, bland annat. Algoritmer för objektdetektering är dock särskilt beräkningstunga när det gäller videoanalyser i realtid på resursbegränsade mobila enheter. Objektspårning, å andra sidan, är en lättare process som vanligtvis implementeras under Tracking-By-Detection (TBD)-paradigmet för att minska beräkningskostnaden. Det är dock vanligt att TBD-konfigurationerna förblir oförändrade, vilket leder till onödig beräkning och/eller prestandaförlust i många fall.\\ I detta examensarbete presenteras en ny metod för multiobjektiv optimering av TBD-processen med avseende på precision och latens på plattformar med begränsad prestanda. Vi föreslår en djup förstärkningsinlärningsbaserad schemaläggningsarkitektur som väljer lämpliga TBD-åtgärder för videosekvenser för att uppnå de önskade målen. Vi utvecklar specifikt en simulering som tillhandahåller Markovian state-information som indata för schemaläggaren, samt neurala nätverk, motiverade alternativ för TBD-åtgärder och en skalariserad belöningsfunktion för att kombinera de olika målen. Våra resultat visar att de tränade strategierna kan lära sig att använda innehållsinformation från aktuella och tidigare ramar för att optimalt styra TBD-processen för varje bild. Det föreslagna tillvägagångssättet är bättre än både de grundläggande metoderna med en fast TBD-konfiguration och nyare forskningsarbeten. Det uppnår en precision som ligger nära den rena detektionen samtidigt som latensen hålls mycket låg. Båda justerbara konfigurationerna bidrar positivt och synergistiskt till optimeringsmålen. Vi visar också att våra strategier är generaliserbara genom att dela upp träning och testning med en 50 %-ig uppdelning, vilket resulterar i minimal inferenslatens och schemaläggarens handlingslatens. Detta gör vår schemaläggningsdesign mycket praktisk i verkliga XR- eller liknande tillämpningar på enheter med begränsad strömförsörjning.
40

Data Augmentation in Solving Data Imbalance Problems

Gao, Jie January 2020 (has links)
This project mainly focuses on the various methods of solving data imbalance problems in the Natural Language Processing (NLP) field. Unbalanced text data is a common problem in many tasks especially the classification task, which leads to the model not being able to predict the minority class well. Sometimes, even we change to some more excellent and complicated model could not improve the performance, while some simple data strategies that focus on solving data imbalanced problems such as over-sampling or down-sampling produce positive effects on the result. The common data strategies include some re-sampling methods that duplicate new data from the original data or remove some original data to have the balance. Except for that, some other methods such as word replacement, word swap, and word deletion are used in previous work as well. At the same time, some deep learning models like BERT, GPT and fastText model, which have a strong ability for a general understanding of natural language, so we choose some of them to solve the data imbalance problem. However, there is no systematic comparison in practicing these methods. For example, over-sampling and down-sampling are fast and easy to use in previous small scales of datasets. With the increase of the dataset, the newly generated data by some deep network models is more compatible with the original data. Therefore, our work focus on how is the performance of various data augmentation techniques when they are used to solve data imbalance problems, given the dataset and task? After the experiment, Both qualitative and quantitative experimental results demonstrate that different methods have their advantages for various datasets. In general, data augmentation could improve the performance of classification models. For specific, BERT especially our fine-tuned BERT has an excellent ability in most using scenarios(different scales and types of the dataset). Still, other techniques such as Back-translation has a better performance in long text data, even it costs more time and has a complicated model. In conclusion, suitable choices for data augmentation methods could help to solve data imbalance problems. / Detta projekt fokuserar huvudsakligen på de olika metoderna för att lösa dataobalansproblem i fältet Natural Language Processing (NLP). Obalanserad textdata är ett vanligt problem i många uppgifter, särskilt klassificeringsuppgiften, vilket leder till att modellen inte kan förutsäga minoriteten Ibland kan vi till och med byta till en mer utmärkt och komplicerad modell inte förbättra prestandan, medan några enkla datastrategier som fokuserar på att lösa data obalanserade problem som överprov eller nedprovning ger positiva effekter på resultatet. vanliga datastrategier inkluderar några omprovningsmetoder som duplicerar nya data från originaldata eller tar bort originaldata för att få balans. Förutom det används vissa andra metoder som ordbyte, ordbyte och radering av ord i tidigare arbete Samtidigt har vissa djupinlärningsmodeller som BERT, GPT och fastText-modellen, som har en stark förmåga till en allmän förståelse av naturliga språk, så vi väljer några av dem för att lösa problemet med obalans i data. Det finns dock ingen systematisk jämförelse när man praktiserar dessa metoder. Exempelvis är överprovtagning och nedprovtagning snabba och enkla att använda i tidigare små skalor av datamängder. Med ökningen av datauppsättningen är de nya genererade data från vissa djupa nätverksmodeller mer kompatibla med originaldata. Därför fokuserar vårt arbete på hur prestandan för olika dataförstärkningstekniker används när de används för att lösa dataobalansproblem, givet datamängden och uppgiften? Efter experimentet visar både kvalitativa och kvantitativa experimentella resultat att olika metoder har sina fördelar för olika datamängder. I allmänhet kan dataförstärkning förbättra prestandan hos klassificeringsmodeller. För specifika, BERT speciellt vår finjusterade BERT har en utmärkt förmåga i de flesta med hjälp av scenarier (olika skalor och typer av datamängden). Ändå har andra tekniker som Back-translation bättre prestanda i lång textdata, till och med det kostar mer tid och har en komplicerad modell. Sammanfattningsvis lämpliga val för metoder för dataökning kan hjälpa till att lösa problem med obalans i data.

Page generated in 0.0385 seconds