Global ETD Search

11	Teaching an Agent to Replicate Melodies by Listening : A Reinforcement Learning Approach to Generating Piano Rolls and Parameters of Physically Modeled Instruments from Target Audios / Att lära en agent att replikera melodier från gehör : En förstärkningsinlärningsmetod för att generera pianorullar och parametrar för fysiskt modellerade instrument från referensljud Eriksson, Wille January 2022 (has links) Reinforcement learning has seen great improvements in recent years, with new frameworks and algorithms continually being developed. Some efforts have also been made to incorporate this method into music in various ways. In this project, the prospect of using reinforcement learning to make an agent learn to replicate a piece of music using a model of an instrument is explored. Both synthesizers and physically modeled instruments, in particular the Karplus-Strong algorithm, are considered. Two reward functions are introduced to measure the similarity between two audios: one based on frequency content and another based on waveform envelope. The results suggest that audio can be successfully replicated, both using a synthesizer and the Karplus-Strong algorithm. Further research can be conducted on replicating more complex melodies and creatively composing using physical models of instruments. https://github.com/wille-eriksson/RL-instruments / Förstärkningsinlärning är ett fält som har genomgått stor utveckling under de senaste åren, då nya ramverk och algoritmer har tillgängliggjorts. Vissa försök har gjorts för att använda metoden i samband med musik. I detta projekt utforskas möjligheterna att använda förstärkningsinlärning för att lära en agent att återskapa musikstycken med modellerade instrument. Både syntar och fysiskt modellerade instrument, särskilt Karplus-Strongs algoritm, tas i beaktan. Två belöningsfunktioner presenteras för att bedöma likheten mellan två ljudsignaler: en baserad på frekvensinehåll och en annan på vågformshöljet. Resultaten antyder att ljudsignaler kan återskapas med framgång, både med syntar och med Karplus-Strongs algoritm. Fortsatt forskning kan göras för att utveckla ett ramverk som kan hantera komplexare melodier samt skapa kreativa kompositioner med ett fysiskt modellerat instrument. https://github.com/wille-eriksson/RL-instruments Reinforcement Learning Music Informatics Audio Processing Physical Models Instruments Förstärkningsinlärning Musikinformatik Ljudbehandling Fysiska modeller Instrument Computer and Information Sciences Data- och informationsvetenskap
12	Cooperative Modular Neural Networks for Artificial Intelligence in Games : A Comparison with A Monolithic Neural Network Regarding Technical Aspects and The Player Experience Högstedt, Emil, Ødegård, Ove January 2023 (has links) Recent years have seen multiple machine-learning research projects concerning agents in video games. Yet, there is a disjoint between this academic research and the video game industry, evidenced by the fact that game developers still hesitate to use neural networks (NN) due to lack of clarity and control. Particularly for denizens, which are agents that take specific roles and have highly specialized purposes. Many denizens share features that could be exploited to reduce the hardship of training different types of denizens. A Cooperative Modular Neural Network (CMNN) seeks to provide more clarity and control than a monolithic neural network (Mono-NN) by breaking down the problem into specialist modules that exploit common denizen features and fuse them via a main network. The objective is to compare the CMNN and the Mono-NN in technical performance, and to compare the player satisfaction of playing against the two approaches in the same video game, Star Fetchers. The game was chosen because it belongs to the established genre of two-dimensional platforming games, providing a simple context. All NNs were implemented using the library TorchSharp. The approaches were compared on frame time, memory usage, and training time. A User Study of 58 participants' opinions regarding engagement and denizen movement was conducted and the results were analyzed for any statistical significance. The CMNN approach was shown to perform worse in frame time and memory usage. However, through parallelization of the modules, and by sharing modules between CMNNs, the gap can be bridged slightly. The training time was shown to be worse for the CMNN compared to the Mono-NN. Backward propagation, however, was faster for the CMNN, counterbalancing the time lost during forward propagation at shorter episode lengths. The CMNN also produces a minimum viable denizen in fewer epochs, significantly reducing the real-time spent training the denizen. The results of the User Study was inconclusive due to statistical insignificance. The CMNN is a viable competitor to Mono-NNs, at least in some aspects. Training is still costly in terms of time and effort and the complexity concerning hyperparameters and intelligent choice of reward function remains. However, the modules provide out-of-the-box networks that can be reused. More work within the area of cooperative modular methods is needed before the video game industry has any reason to make the change over from other time-proven methods. / De senaste åren har flera maskininlärningsforskningsprojekt om agenter i datorspel genomförts. Trots detta finns en klyfta mellan denna akademiska forskning och datorspelsindustrin. Detta tydliggörs av det faktum att spelutvecklare fortfarande tvekar att använda neurala nätverk på grund av bristande klarhet och kontroll. Detta gäller särskilt "invånare", agenter som har specifika roller och specialiserade syften. Många invånare delar egenskaper som skulle kunna utnyttjas för att minska svårigheten med att träna olika typer av invånare. Ett Kooperativt Modulärt Neuralt Nätverk (CMNN) strävar efter att ge mer klarhet och kontroll än ett monolitiskt neuralt nätverk (Mono-NN) genom att bryta ned problemet i specialiserade moduler som utnyttjar gemensamma egenskaper hos invånare och förenar dem via ett huvudnätverk. Syftet är att jämföra ett CMNN och ett Mono-NN i teknisk prestanda, och att jämföra användarupplevelsen då användaren spelar mot de två metoderna i samma datorspel, Star Fetchers. Spelet valdes då det tillhör den väletablerade genren av två-dimensionella plattformsspel, vilket ger en simpel kontext för arbetet. Båda neurala nätverken implementerades med biblioteket TorchSharp. Nätverken jämfördes med avseende på tid per bild, minnesanvändning och träningstid. En användarstudie samlade åsikter från 58 deltagare angående spelarens engagemang och invånarnas rörelse, vilket analyserades för eventuella statistiska signifikanser. CMNN presterade sämre med tanke på tid per bild och minnesanvändning. Dock, genom parallellisering och delning av moduler mellan flera CMNN, kan klyftan mellan dem minskas. Träningstiden visade sig vara sämre för CMNN jämfört med Mono-NN. Bakåtpropagering var dock snabbare med CMNN, vilket kompenserar för den tid som förloras under framåtpropagering vid kortare episodlängder. CMNN producerar också en acceptabel invånare på färre epoker, vilket markant minskar den verkliga tiden som spenderas på att träna invånare. Resultaten från användarstudien var inte övertygande på grund av brist på statistisk signifikans. CMNN är ett bra alternativ till Mono-NN, åtminstone med tanke på vissa aspekter. Träningen är fortfarande resurskrävande i form av tid och ansträngning och komplexiteten kring hyperparametrar och intelligent val av belöningsfunktion består. Modulerna tillhandahåller dock färdiga nätverk som kan återanvändas. Det krävs i framtiden mer arbete inom kooperativa och modulära metoder innan datorspelsindustrin har någon anledning att byta över från andra, beprövade metoder. Neural Network Modularization Sensor Reinforcement Learning Supervised Learning Neuralt Nätverk Modulärisering Sensor Förstärkningsinlärning Väglett Lärande Computer Sciences Datavetenskap (datalogi)
13	Dopamine Waves Lead to a Swift and Adaptive Reinforcement Learning Algorithm / Dopaminvågor ger upphov till en snabb och adaptiv förstärkningsinlärningsalgoritm Gömöri, Gergö January 2021 (has links) Accumulating evidence suggests that dopaminergic neurons show significant task-related diversity. Curiously, dopamine concentration and dopamine axon activity show spatio-temporal wave patterns in the dorsal striatum. What could be the function of this wave-like dynamics of dopamine in the striatum, particularly in Reinforcement Learning? This work introduces a novel Reinforcement Learning algorithm that exploits the wave-like dynamics of dopamine to increase speed, reliability and flexibility in decision-making. An agent can form a cognitive map by exploring the environment and obtaining the information about the expectation of time spent in each future state given a departing state (i.e. the Successor Representation). This map captures the temporal connections of the visited states and outlines several possible state transition trajectories leading to the reward. Using the cognitive map, following a single reward delivery, the reward prediction errors can be computed for each state. In the cognitive map, states leading to the reward possess a high positive error, while temporally distant states retain smaller errors. Thus, the dynamics of errors exhibit a wave front travelling in the cognitive map. Under the assumption of the neurons representing adjacent states in the cognitive map are also spatial neighbors, it automatically follows that the reward prediction error carrying signal will also show wave-like dynamics in space. By exploiting the dopamine waves, the proposed Reinforcement Learning approach outperforms three classical Reinforcement Learning algorithms: basic SARSA, the Successor Representation and SARSA with eligibility traces. Consequently, the algorithm suggests conditions under which wave-like dynamics of dopamine release in the striatum can have direct functional implications for learning. / En ökande mängd bevis pekar på att dopaminerga nervceller uppvisar en betydande uppgiftsrelaterad diversitet. Märkligt nog uppvisar såväl dopaminkoncentrationen som aktiviteten i dopaminerga axon i dorsala striatum en vågliknande dynamik. Vilken funktion kan dopaminets vågliknande dynamik tänkas fylla i striatum, särskillt vid förstärkningsinlärning? I detta arbete introduceras en ny förstärkningsinlärningsalgoritm som utnyttjar dopaminets vågliknande dynamik för att öka snabbheten, tillförlitligheten och flexbiliteten vid beslutsfattande. En agent kan skapa en kognitiv karta genom att utforska en miljö och tillgodogöra sig information om den förväntade tiden som kommer tillbringas i varje framtida tillstånd givet ett starttillstånd (en så kallad successionsrepresentation). Denna karta fångar upp de tidsmässiga förbindelserna mellan besökta tillstånd och ger en skiss för flera möjliga serier av tillståndsövergångar som leder till belöning. Genom att använda denna kognitiva karta efter en enskild belöning kan belöningsförutsägningsfel beräknas för varje tillstånd. I den kognitiva kartan har tillstånd som leder till belöning ett stort positivt fel, medan tidsmässigt avlägsna tillstånd har mindre fel. Detta ger upphov till att dynamiken för felen uppvisar en vågfront in den kognitiva kartan. Under antagandet att nervceller som representerar närliggande tillstånd i den kognitiva kartan också är fysiska grannar, följer det automatiskt att signalen för belöningsförutsägningsfel också uppvisar en våglikannde dynamik i rummet. Genom att utnyttja dopaminvågor överträffar den föreslagna förstärkningsinlärningsalgoritmen tre klassiska förstärkningsinlärningsalgoritmer: vanlig SARSA, successionsrepresentation, och SARSA med kvalificeringsspår. Algoritmen förslår därför betingelser under vilka en vågliknande dynamik av dopaminfrisättning i striatum kan ha direkta funktionella implikationer för inlärning. Reinforcement Learning Dopamine Basal Ganglia Successor Representation förstärkningsinlärning dopamin basala ganglierna successionsrepresentation Computer and Information Sciences Data- och informationsvetenskap
14	Improving robustness of beyond visual range strategies with adapted training distributions / Förbättring av robustheten i luftstridsstrategier bortom visuell räckvidd med anpassat träningsmotstånd Malmgren, Dennis January 2022 (has links) A key obstacle for training an autonomous agent in real air-to-air combat is the lack of available training data, which makes it difficult to apply supervised learning techniques. Self-play is a method that can be used where an agent trains against itself or against versions of itself without imitation data or human instruction. Agents training only against themselves learn brittle strategies that do not generalize very well, which is why training against a distribution of strategies is necessary to improve robustness. In this thesis, we study two problems. First, what is a robust strategy, and how do we evaluate it? Secondly, how do we increase the robustness of strategies learned in a self-play setting by adapting the training distribution? The problems are significant to study because self-play is a very promising method of training not only for air combat but in any non-cooperative problem setting where a simulator can be used to gather training data with no human in the loop. Specifically, in the aircraft industry, the cost of gathering samples is incredibly high. To evaluate the robustness of a population of strategies we turned to evolutionary game theory and connected theα-rank algorithm to what we perceive as robustness. Theα-rank induces a strict ordering over the set, which we then take as an evaluation of the robustness of the strategies. We validated that a highα-rank correlated well with performing well in an out of population evaluation. To study how the robustness of a population correlated with training distributions, we trained populations against four different training distributions. We used the uniform, δ-uniform, andα-rank distributions that rely on no information, information on the training process, and information on the robustness of agents, respectively. We also designed a novel amortizedα-rank training distribution that combines the information behind the δ-uniform and α-rank distributions, and we showed that it induced superior robustness properties in the learned strategies. Our efforts indicate that even better training distributions can be produced, which is useful when looking at using self-play in the future. / Ett stort hinder vid träning av en autonom agent för riktig luftstrid är bristen på träningsdata vilket gör det svårt att applicera övervakad inlärning. Självspelande är en metod där agenter tränar mot sig själva eller mot versioner av sig själva utan tillgång till data att imitera och utan mänsklig instruktion. Agenter som tränar enbart mot sig själva lär sig dock sköra strategier som inte generaliserar tillräckligt väl. Därför krävs träning mot en distribution av strategier för att en agent ska kunna bli robust. I denna uppsats studerar vi två problem. Ett, vad är en robust strategi och hur utvärderar vi den? Två, hur ökar vi robustheten hos strategier som tränats fram via självspelande genom att anpassa träningsdistributionen? Problemen är relevanta att studera på grund av att självspelande är en lovande metod som kan användas inte bara för luftstrid utan för ett brett spektrum av icke-kooperativa problemområden där en simulator kan användas för att genomföra datainsamling utan en människa i loopen. Speciellt inom flygplansindustrin är kostnaden för insamling av riktig träningsdata extremt hög. För att utvärdera robustheten i en population av strategier vände vi oss tillevolutionär spelteori och koppladeα-rank-algoritmen till vad vi uppfattar som robusthet.α-rank, som vi tolkar som en utvärdering av robusthet, induceraren strikt ranking över en mängd av strategier. Vi validerade att en högα-rankkorrelerade väl med goda resultat vid en utvärdering av strategierna i en annan population. För att studera hur robustheten i en population korrelerade med användandet av olika träningsdistributioner tränade vi populationer mot fyra olika tränings-distributioner. Vi använde den uniforma distributionen, den δ-uniforma distributionen ochα-rank-distributionen, som baseras på ingen information, information om träningsprocessen respektive information om agenternas robusthet. Videsignade även en amorteradα-rank-distribution, som kombinerar informationen bakom den δ-uniforma distributionen ochα-rank-distributionen, och vi visade att träning mot den nya distributionen resulterade i mer robusta strategier. Våra resultat indikerar att det är möjligt att skräddarsy ännu bättre träningsdistributioner, vilket är användbart när vi tittar på att utnyttja själv-spelande i högre grad i framtiden. Reinforcement Learning Game Theory Air Combat Neural Networks Förstärkningsinlärning Spelteori Luftstrid Neuronnät Computer and Information Sciences Data- och informationsvetenskap
15	Autonomous agents in Industry 4.0 : A self-optimizing approach for automated guided vehicles in Industry 4.0 environments Hjulström, Leo January 2022 (has links) Automated guided vehicles are an integral part of industrial production today. They are moving products to and from shelves in storage warehouses and fetching tools between different workstations in factories. These robots usually follow strict pre-determined paths and are not good at adapting to changes in the environment. Technologies like artificial intelligence and machine learning are currently being implemented in industrial production, a part of what is called Industry 4.0, with the aim of increasing efficiency and automation. Industry 4.0 is also characterized by more connected factory environments, where objects communicate their status, location, and other relevant information to their surroundings. Automated guided vehicles can take advantage of these technologies and can benefit from self-optimizing approaches for better navigation and increased flexibility. Reinforcement learning is used in this project to teach automated guided vehicles to move objects around in an Industry 4.0 warehouse environment. A 10x10 grid world with numerous object destinations, charging stations and agents is created for evaluation purposes. The results show that the agents are able to learn to take efficient routes by balancing the need to finish tasks as fast as possible and recharge their batteries when needed. The agents successfully complete all tasks without running out of battery or colliding with objects in the environment. The result is a demonstration of how reinforcement learning can be applied to automated guided vehicles in Industry 4.0 environments. / Automatiserade styrda fordon är en integrerad del av dagens industriproduktion. De flyttar produkter till och från hyllor i lagerlokaler och hämtar verktyg mellan olika arbetsstationer i fabriker. Dessa robotar följer vanligtvis strikta förutbestämda vägar och är inte bra på att anpassa sig till förändringar i miljön. Teknik som artificiell intelligens och maskininlärning implementeras just nu i industriproduktion, en del av det som kallas Industri 4.0, i syfte om ökad effektivitet och automatisering. Industri 4.0 kännetecknas också av mer uppkopplade fabriksmiljöer, där objekt kommunicerar sin status, plats och annan relevant information till sin omgivning. Automatiserade styrda fordon kan utnyttja de här teknikerna och kan dra nytta av självoptimerande metoder för bättre navigering och ökad flexibilitet. Förstärkningsinlärning används i detta projekt för att lära automatiserade styrda fordon att flytta runt föremål i en Industri 4.0 lagermiljö. En 10x10 stor rut-värld med flertalet destinationer, laddningsstationer och agenter skapas i utvärderingssyfte. Resultaten visar att agenterna kan lära sig att ta effektiva vägar genom att balansera behovet av att slutföra sina uppgifter så fort som möjligt och ladda upp sina batterier när det behövs. Agenterna slutför framgångsrikt sina uppgifter utan att få slut på batteri eller att kollidera med föremål i miljön. Resultatet är en demonstration av hur förstärkningsinlärning kan tillämpas på automatiserade styrda fordon i Industri 4.0-miljöer. Automated guided vehicles Industry 4.0 Agents Reinforcement learning Automatiserade guidade fordon Industri 4.0 Agenter Förstärkningsinlärning Computer Engineering Datorteknik
16	Hyperparameter optimisation using Q-learning based algorithms / Hyperparameteroptimering med hjälp av Q-learning-baserade algoritmer Karlsson, Daniel January 2020 (has links) Machine learning algorithms have many applications, both for academic and industrial purposes. Examples of applications are classification of diffraction patterns in materials science and classification of properties in chemical compounds within the pharmaceutical industry. For these algorithms to be successful they need to be optimised, part of this is achieved by training the algorithm, but there are components of the algorithms that cannot be trained. These hyperparameters have to be tuned separately. The focus of this work was optimisation of hyperparameters in classification algorithms based on convolutional neural networks. The purpose of this thesis was to investigate the possibility of using reinforcement learning algorithms, primarily Q-learning, as the optimising algorithm. Three different algorithms were investigated, Q-learning, double Q-learning and a Q-learning inspired algorithm, which was designed during this work. The algorithms were evaluated on different problems and compared to a random search algorithm, which is one of the most common optimisation tools for this type of problem. All three algorithms were capable of some learning, however the Q-learning inspired algorithm was the only one to outperform the random search algorithm on the test problems. Further, an iterative scheme of the Q-learning inspired algorithm was implemented, where the algorithm was allowed to refine the search space available to it. This showed further improvements of the algorithms performance and the results indicate that similar performance to the random search may be achieved in a shorter period of time, sometimes reducing the computational time by up to 40%. / Maskininlärningsalgoritmer har många tillämpningsområden, både akademiska och inom industrin. Exempel på tillämpningar är, klassificering av diffraktionsmönster inom materialvetenskap och klassificering av egenskaper hos kemiska sammansättningar inom läkemedelsindustrin. För att dessa algoritmer ska prestera bra behöver de optimeras. En del av optimering sker vid träning av algoritmerna, men det finns komponenter som inte kan tränas. Dessa hyperparametrar måste justeras separat. Fokuset för det här arbetet var optimering av hyperparametrar till klassificeringsalgoritmer baserade på faltande neurala nätverk. Syftet med avhandlingen var att undersöka möjligheterna att använda förstärkningsinlärningsalgoritmer, främst ''Q-learning'', som den optimerande algoritmen. Tre olika algoritmer undersöktes, ''Q-learning'', dubbel ''Q-learning'' samt en algoritm inspirerad av ''Q-learning'', denna utvecklades under arbetets gång. Algoritmerna utvärderades på olika testproblem och jämfördes mot resultat uppnådda med en slumpmässig sökning av hyperparameterrymden, vilket är en av de vanligare metoderna för att optimera den här typen av algoritmer. Alla tre algoritmer påvisade någon form av inlärning, men endast den ''Q-learning'' inspirerade algoritmen presterade bättre än den slumpmässiga sökningen. En iterativ implemetation av den ''Q-learning'' inspirerade algoritmen utvecklades också. Den iterativa metoden tillät den tillgängliga hyperparameterrymden att förfinas mellan varje iteration. Detta medförde ytterligare förbättringar av resultaten som indikerade att beräkningstiden i vissa fall kunde minskas med upp till 40% jämfört med den slumpmässiga sökningen med bibehållet eller förbättrat resultat. Hyperparameter optimisation Reinforcement learning Convolutional neural networks Hyperparameteroptimering Förstärkningsinlärning Faltande neurala nätverk Engineering and Technology Teknik och teknologier Computer and Information Sciences Data- och informationsvetenskap
17	Automatic game-testing with personality : Multi-task reinforcement learning for automatic game-testing / Automatisk speltestning med personlighet : Multi-task förstärkning lärande för automatisk speltestning Canal Anton, Oleguer January 2021 (has links) This work presents a scalable solution to automate game-testing. Traditionally, game-testing has been performed by either human players or scripted Artificial Intelligence (AI) agents. While the first produces the most reliable results, the process of organizing testing sessions is time consuming. On the other hand, scripted AI dramatically speeds up the process, however, the insights it provides are far less useful: these agents’ behaviors are highly predictable. The presented solution takes the best of both worlds: the automation of scripted AI, and the richness of human testing by framing the problem within the Deep Reinforcement Learning (DRL) paradigm. Reinforcement Learning (RL) agents are trained to adapt to any unseen level and present customizable human personality traits: such as aggressiveness, greed, fear, etc. This is achieved exploring the problem from a multi-task RL setting. Each personality trait is understood as a different task which can be linearly combined by the proposed algorithm. Furthermore, since Artificial Neural Networks (ANNs) have been used to model the agent’s policies, the solution is highly adaptable and scalable. This thesis reviews the state of the art in both automatic game-testing and RL, and proposes a solution to the above-mentioned problem. Finally, promising results are obtained evaluating the solution on two different environments: a simple environment used to quantify the quality of the designed algorithm, and a generic game environment useful to show-case its applicability. In particular, results show that the designed agent is able to perform good on game levels never seen before. In addition, the agent can display any convex combination of the trained behaviors. Furthermore, its performance is as good as if it had been specifically trained on that particular combination. / Detta arbete presenterar en skalbar lösning för att automatisera speltestning. Traditionellt har speltestning utförts av antingen mänskliga spelare eller förprogrammerade agenter. Även om det förstanämnda ger de mest tillförlitliga resultaten är processen tidskrävande. Å andra sidan påskyndar förprogrammerade agenter processen dramatiskt, men de insikter som de ger är mycket mindre användbara: dessa agenters beteenden är mycket förutsägbara. Den presenterade lösningen använder det bästa av två världar: automatiseringsmöjligheten från förprogrammerade agenter samt möjligheten att simulera djupet av mänskliga tester genom att inrama problemet inom paradigmet Djup Förstärkningsinlärning. En agent baserad på förstärkningsinlärning tränas i att anpassa sig till tidigare osedda spelmiljöer och presenterar anpassningsbara mänskliga personlighetsdrag: som aggressivitet, girighet, rädsla... Eftersom Artificiella Neurala Nätverk (ANNs) har använts för att modellera agentens policyer är lösningen potentiellt mycket anpassnings- och skalbar. Denna rapport granskar först den senaste forskningen inom både automatisk speltestning och förstärkningsinlärning. Senare presenteras en lösning för ovan nämnda problem. Slutligen evalueras lösningen i två olika miljöer med lovande resultat. Den första miljön används för att kvantifiera kvaliteten på den designade algoritmen. Den andra är en generisk spelmiljö som är användbar för att påvisa lösningens tillämplighet. Deep Reinforcement Learning Multi-Task Successor Features Game- Testing Personas Djup förstärkningsinlärning Multitasking Efterföljande kännetecken Speltestning Artificiell intelligens Persona. Computer and Information Sciences Data- och informationsvetenskap
18	AI-driven admission control : with Deep Reinforcement Learning / AI-driven antagningskontroll : med Djup Förstärkningslärande Ai, Lingling January 2021 (has links) 5G is expected to provide a high-performance and highly efficient network to prominent industry verticals with ubiquitous access to a wide range of services with orders of magnitude of improvement over 4G. Network slicing, which allocates network resources according to users’ specific requirements, is a key feature to fulfil the diversity of requirements in 5G network. However, network slicing also brings more orchestration and difficulty in monitoring and admission control. Although the problem of admission control has been extensively studied, those research take measurements for granted. Fixed high monitoring frequency can waste system resources, while low monitoring frequency (low level of observability) can lead to insufficient information for good admission control decisions. To achieve efficient admission control in 5G, we consider the impact of configurable observability, i.e. control observed information by configuring measurement frequency, is worth investigating. Generally, we believe more measurements provide more information about the monitored system, thus enabling a capable decision-maker to have better decisions. However, more measurements also bring more monitoring overhead. To study the problem of configurable observability, we can dynamically decide what measurements to monitor and their frequencies to achieve efficient admission control. In the problem of admission control with configurable observability, the objective is to minimize monitoring overhead while maintaining enough information to make proper admission control decisions. In this thesis, we propose using the Deep Reinforcement Learning (DRL) method to achieve efficient admission control in a simulated 5G end-to-end network, including core network, radio access network and four dynamic UEs. The proposed method is evaluated by comparing with baseline methods using different performance metrics, and then the results are discussed. With experiments, the proposed method demonstrates the ability to learn from interaction with the simulated environment and have good performance in admission control and used low measurement frequencies. After 11000 steps of learning, the proposed DRL agents generally achieve better performance than the threshold-based baseline agent, which takes admission decisions based on combined threshold conditions on RTT and throughput. Furthermore, the DRL agents that take non-zero measurement costs into consideration uses much lower measurement frequencies than DRL agents that take measurement costs as zero. / 5G förväntas ge ett högpresterande och högeffektivt nätverk till framstående industrivertikaler genom allmän tillgång till ett brett utbud av tjänster, med förbättringar i storleksordningar jämfört med 4G. Network slicing, som allokerar nätverksresurser enligt specifika användarkrav, är en nyckelfunktion för att uppfylla mångfalden av krav i 5G-nätverk. Network slicing kräver däremot också mer orkestrering och medför svårigheter med övervakning och tillträdeskontroll. Även om problemet med tillträdeskontroll har studerats ingående, tar de studierna mätfrekvenser för givet. Detta trots att hög övervakningsfrekvens kan slösa systemresurser, medan låg övervakningsfrekvens (låg nivå av observerbarhet) kan leda till otillräcklig information för att ta bra beslut om antagningskontroll. För att uppnå effektiv tillträdeskontroll i 5G anser vi att effekten av konfigurerbar observerbarhet, det vill säga att kontrollera observerad information genom att konfigurera mätfrekvens, är värt att undersöka. Generellt tror vi att fler mätningar ger mer information om det övervakade systemet, vilket gör det möjligt för en kompetent beslutsfattare att fatta bättre beslut. Men fler mätningar ger också högre övervakningskostnader. För att studera problemet med konfigurerbar observerbarhet kan vi dynamiskt bestämma vilka mätningar som ska övervakas och deras frekvenser för att uppnå effektiv tillträdeskontroll. I problemet med tillträdeskontroll med konfigurerbar observerbarhet är målet att minimera övervakningskostnader samtidigt som tillräckligt med information bibehålls för att fatta korrekta beslut om tillträdeskontroll. I denna avhandling föreslår vi att använda Deep Reinforcement Learning (DRL)-metoden för att uppnå effektiv tillträdeskontroll i ett simulerat 5G-änd-till-änd-nätverk, inklusive kärnnät, radioaccessnätverk och fyra dynamiska användarenheter. Den föreslagna metoden utvärderas genom att jämföra med standardmetoder som använder olika prestationsmått, varpå resultaten diskuteras. I experiment visar den föreslagna metoden förmågan att lära av interaktion med den simulerade miljön och ha god prestanda i tillträdeskontroll och använda låga mätfrekvenser. Efter 11 000 inlärningssteg uppnår de föreslagna DRL-agenterna i allmänhet bättre prestanda än den tröskelbaserade standardagenten, som fattar tillträdesbeslut baserat på kombinerade tröskelvillkor för RTT och throughput. Dessutom använder de DRL-agenter som tar hänsyn till nollskilda mätkostnader, mycket lägre mätfrekvenser än DRL-agenter som tar mätkostnaderna som noll. Admission Control Reinforcement Learning Configurable Observability Network Slicing Deep Q-Learning Antagningskontroll förstärkningsinlärning konfigurerbar observerbarhet nätverksdelning Deep Q-Learning Computer and Information Sciences Data- och informationsvetenskap
19	Real-time Unsupervised Domain Adaptation / Oövervakad domänanpassning i realtid Botet Colomer, Marc January 2023 (has links) Machine learning systems have been demonstrated to be highly effective in various fields, such as in vision tasks for autonomous driving. However, the deployment of these systems poses a significant challenge in terms of ensuring their reliability and safety in diverse and dynamic environments. Online Unsupervised Domain Adaptation (UDA) aims to address the issue of continuous domain changes that may occur during deployment, such as sudden weather changes. Although these methods possess a remarkable ability to adapt to unseen domains, they are hindered by the high computational cost associated with constant adaptation, making them unsuitable for real-world applications that demand real-time performance. In this work, we focus on the challenging task of semantic segmentation. We present a framework for real-time domain adaptation that utilizes novel strategies to enable online adaptation at a rate of over 29 FPS on a single GPU. We propose a clever partial backpropagation in conjunction with a lightweight domain-shift detector that identifies the need for adaptation, adapting appropriately domain-specific hyperparameters to enhance performance. To validate our proposed framework, we conduct experiments in various storm scenarios using different rain intensities and evaluate our results in different domain shifts, such as fog visibility, and using the SHIFT dataset. Our results demonstrate that our framework achieves an optimal trade-off between accuracy and speed, surpassing state-of-the-art results, while the introduced strategies enable it to run more than six times faster at a minimal performance loss. / Maskininlärningssystem har visat sig vara mycket effektiva inom olika områden, till exempel i datorseende uppgifter för autonom körning. Spridning av dessa system utgör dock en betydande utmaning när det gäller att säkerställa deras tillförlitlighet och säkerhet i olika och dynamiska miljöer. Online Unsupervised Domain Adaptation (UDA) syftar till att behandla problemet med kontinuerliga domänändringar som kan inträffas under systemets användning, till exempel plötsliga väderförändringar. Även om dessa metoder har en anmärkningsvärd förmåga att anpassa sig till okända domäner, hindras de av den höga beräkningskostnaden som är förknippad med ständig nöndvändighet för anpassning, vilket gör dem olämpliga för verkliga tillämpningar som kräver realtidsprestanda. I detta avhandling fokuserar vi på utmanande uppgiften semantisk segmentering. Vi presenterar ett system för domänanpassning i realtid som använder nya strategier för att möjliggöra onlineanpassning med en hastighet av över 29 FPS på en enda GPU. Vi föreslår en smart partiell backpropagation i kombination med en lätt domänförskjutningsdetektor som identifierar nãr anpassning egentligen behövs, vilket kan konfigureras av domänspecifika hyperparametrar på lämpligt sätt för att förbättra prestandan. För att validera vårt föreslagna system genomför vi experiment i olika stormscenarier med olika regnintensiteter och utvärderar våra resultat i olika domänförskjutningar, såsom dimmasynlighet, och med hjälp av SHIFT-datauppsättningen. Våra resultat visar att vårt system uppnår en optimal avvägning mellan noggrannhet och hastighet, och överträffar toppmoderna resultat, medan de introducerade strategierna gör det möjligt att köra mer än sex gånger snabbare med minimal prestandaförlust. Unsupervised Domain Adaptation Real-Time applications Online Learning Self-Learning Semantic Segmentation Reinforcement Learning Oövervakad domänanpassning Realtidsapplikationer Onlineinlärning Självinlärning Semantisk Segmentering Förstärkningsinlärning Computer and Information Sciences Data- och informationsvetenskap
20	Learning to Search for Targets : A Deep Reinforcement Learning Approach to Visual Search in Unseen Environments / Inlärd sökning efter mål Lundin, Oskar January 2022 (has links) Visual search is the perceptual task of locating a target in a visual environment. Due to applications in areas like search and rescue, surveillance, and home assistance, it is of great interest to automate visual search. An autonomous system can potentially search more efficiently than a manually controlled one and has the advantages of reduced risk and cost of labor. In many environments, there is structure that can be utilized to find targets quicker. However, manually designing search algorithms that properly utilize structure to search efficiently is not trivial. Different environments may exhibit vastly different characteristics, and visual cues may be difficult to pick up. A learning system has the advantage of being applicable to any environment where there is a sufficient number of samples to learn from. In this thesis, we investigate how an agent that learns to search can be implemented with deep reinforcement learning. Our approach jointly learns control of visual attention, recognition, and localization from a set of sample search scenarios. A recurrent convolutional neural network takes an image of the visible region and the agent's position as input. Its outputs indicate whether a target is visible and control where the agent looks next. The recurrent step serves as a memory that lets the agent utilize features of the explored environment when searching. We compare two memory architectures: an LSTM, and a spatial memory that remembers structured visual information. Through experimentation in three simulated environments, we find that the spatial memory architecture achieves superior search performance. It also searches more efficiently than a set of baselines that do not utilize the appearance of the environment and achieves similar performance to that of a human searcher. Finally, the spatial memory scales to larger search spaces and is better at generalizing from a limited number of training samples. visual search reinforcement learning deep learning computer vision autonomous systems visuell sökning förstärkningsinlärning djupinlärning datorseende autonoma system

Search results