Global ETD Search

11	Model Based Reinforcement Learning for Automatic Tuning of Cavity Filters / Modellbaserad förstärkningsinlärning för automatisk inställning av filter Nimara, Doumitrou Daniil January 2021 (has links) As telecommunication continues developing, the demand for mass production of well calibrated Base Transceiver Stations (BTS) components increases. Cavity Filters are an essential piece of every BTS; however, manufacturing tolerances often lead to detuned filters which require costly post-production fine tuning. Model Free Reinforcement Learning has been proposed to automate this process; however agents are not sample efficient. This is especially problematic, as agent training with newer, more precise environment simulators is time demanding. This work aims to leverage Model Based Reinforcement Learning to improve sample efficiency, while maintaining the same degree of accuracy. To this end, we evaluate and improve upon the performance of three state-of-the-art methods, present in the literature. The proposed modifications on these methods can serve as a template for their application on other, high dimensional non image data problems. In particular, the proposed modification on the Dreamer is modular, improves training stability and greatly decreases sample complexity. More specifically, sample complexity was reduced by a factor of 4 for the 6p2z filter and by a factor of 10 for 8p4z. Furthermore, hyperparameter sensitivity analysis is provided to add extra insight behind each approach. Overall, results facilitate further research in this field. The reduced sample complexity opens the possibility of training on more accurate simulators of more complicated filters, which would previously be intractable due to the high amount of samples required. / Moderna mobilnät är uppbyggda av massproducerade basstationer (Base Tranciever Stations), som var och en innehåller ett antal kavitetsfilter. Dessa filter är mycket känsliga, vilket gör att de efter produktion behöver finjusteras manuellt för att fungera som avsett. För att automatisera denna process har man tidigare använt Model Free Reinforcement Learning (MFRL). Denna teknik kräver dock mycket beräkningar, vilket är problematiskt, eftersom man skulle vilja genomföra träningen med mer komplexa simuleringsmodeller, vilket inte går i dagsläget. I detta arbete skall vi undersöka möjligheten att använda Model Based Reinforcement Learning (MBRL) för att lösa samma problem med färre beräkningssteg. Vi utvärderar, och anpassar, därför tre befintliga MBRL-algoritmer till problemet. Dessa anpassningar kan även överföras till andra problem. Den anpassning som görs på Dreamer-algoritmen är modulär, förbättrar stabiliteten i träningen, och minskar antalet beräkningar som behövs. I detalj så minskade antalet beräkningar med en faktor 4 för ett så-kallat 6p2z-filter och en faktor 10 för ett 8p4z-filter. En känslighetsanalys vad gäller hyperparametrar har också gjorts för varje metod. Rapportens resultat kan användas i vidare forskning på så sätt att det minskade antalet beräkningar gör att man kan använda mer realistiska modeller, av mer komplicerade filter, på ett sätt som tidigare inte var möjligt. Reinforcement Learning Cavity Filter Tuning Sample Complexity Background Planning Förstärkande inlärning inställning av kavitetsfilter provkomplexitet bakgrundsplanering Computer and Information Sciences Data- och informationsvetenskap
12	Deep Reinforcement Learning for Temperature Control in Buildings and Adversarial Attacks Ammouri, Kevin January 2021 (has links) Heating, Ventilation and Air Conditioning (HVAC) systems in buildings are energy consuming and traditional methods used for building control results in energy losses. The methods cannot account for non-linear dependencies in the thermal behaviour. Deep Reinforcement Learning (DRL) is a powerful method for reaching optimal control in many different control environments. DRL utilizes neural networks to approximate the optimal actions to take given that the system is in a given state. Therefore, DRL is a promising method for building control and this fact is highlighted by several studies. However, neural network polices are known to be vulnerable to adversarial attacks, which are small, indistinguishable changes to the input, which make the network choose a sub-optimal action. Two of the main approaches to attack DRL policies are: (1) the Fast Gradient Sign Method, which uses the gradients of the control agent’s network to conduct the attack; (2) to train a a DRL-agent with the goal to minimize performance of control agents. The aim of this thesis is to investigate different strategies for solving the building control problem with DRL using the building simulator IDA ICE. This thesis is also going to use the concept of adversarial machine learning by applying the attacks on the agents controlling the temperature inside the building. We first built a DRL architecture to learn how to efficiently control temperature in a building. Experiments demonstrate that exploration of the agent plays a crucial role in the training of the building control agent, and one needs to fine-tune the exploration strategy in order to achieve satisfactory performance. Finally, we tested the susceptibility of the trained DRL controllers to adversarial attacks. These tests showed, on average, that attacks trained using DRL methods have a larger impact on building control than those using FGSM, while random perturbation have almost null impact. / Ventilationssystem i byggnader är energiförbrukande och traditionella metoder som används för byggnadskontroll resulterar i förlust av energisparande. Dessa metoder kan inte ta hänsyn till icke-linjära beroenden i termisk beteenden. Djup förstärkande inlärning (DRL) är en kraftfull metod för att uppnå optimal kontroll i många kontrollmiljöer. DRL använder sig av neurala nätverk för att approximera optimala val som kan tas givet att systemet befinner sig i en viss stadie. Därför är DRL en lovande metod för byggnadskontroll och detta faktumet är markerat av flera studier. Likväl, neurala nätverk i allmänhet är kända för att vara svaga mot adversarial attacker, vilket är små ändringar i inmatningen, som gör att neurala nätverket väljer en åtgärd som är suboptimal. Syftet med denna anvhandling är att undersöka olika strategier för att lösa byggnadskontroll-problemet med DRL genom att använda sig av byggnadssimulatorn IDA ICE. Denna avhandling kommer också att använda konceptet av adversarial machine learning för att attackera agenterna som kontrollerar temperaturen i byggnaden. Det finns två olika sätt att attackera neurala nätverk: (1) Fast Gradient Sign Method, som använder gradienterna av kontrollagentens nätverk för att utföra sin attack; (2) träna en inlärningsagent med DRL med målet att minimera kontrollagenternas prestanda. Först byggde vi en DRL-arkitektur som lärde sig kontrollera temperaturen i en byggad. Experimenten visar att utforskning av agenten är en grundläggande faktor för träningen av kontrollagenten och man måste finjustera utforskningen av agenten för att nå tillfredsställande prestanda. Slutligen testade vi känsligheten av de tränade DRL-agenterna till adversarial attacker. Dessa test visade att i genomsnitt har det större påverkan på kontrollagenterna att använda DRL metoder än att använda sig av FGSM medans att attackera helt slumpmässigt har nästan ingen påverkan. Deep Reinforcement Learning Adversarial Attacks Optimal Attacks Building Control Optimal Control Energy Efficiency Djup förstärkande inlärning Adversarial Attacker Optimala Attacker Byggnadskontroll Optimal Kontroll Energieffektivitet Computer Sciences Datavetenskap (datalogi)
13	Interference Aware Distributed Network Formation with Reinforcement Learning Okur, Berkcan January 2021 (has links) Ad-hoc networks suffer from dynamicity due to mobility of the nodes or node addition/removal to/from the system. This means, the formed topology may not be connected anymore or better topologies can be found as time passes if the position of the nodes changes or some nodes in the network is broken. Therefore, there is a need for an adaptive solution to make the network’s performance stable against these changes. A centralized manner induces a single point of failure, when the control unit’s service is unavailable, networks can not be formed and communication among the nodes is broken. Hence, a system that distributes the decision-making ability to nodes would be better to increase the robustness of the network. A detailed literature survey about the distributed network formation showed that two critical gaps that need to be filled. Firstly, provided solutions assumed that nodes are using the omnidirectional antennas, hence, they can make transmission and reception in all directions which inherently increases the total interference in the system. Therefore, we come up with the idea of using directional antennas to reduce the interference which requires antennas to point out each other for successful communication. This creates an optimization problem in terms of selecting directions of a certain amount of antennas deployed on a node to maximize the capacity while ensuring connectivity. Secondly, proposed distributed network formation solutions in literature depend on sequential decision-making algorithms that each node waits its turn to make a decision. In that case, deciding or distributing the rank of the nodes is another challenge that needs to be solved by the distributed algorithm. Therefore, in this work, we focused to design a distributed network formation algorithm for a system with directional antennas where all decisions are made simultaneously by nodes in the system. As a result, it is shown that the proposed reinforcement learning-based algorithm is successful and promising to give nodes the ability to adapt to new conditions cooperatively. / Ad-hoc-nätverk lider av dynamik på grund av nodernas mobilitet eller nodtillägg/borttagning till/från systemet. Detta betyder att den bildade topologin kanske inte är ansluten längre eller bättre topologier kan hittas allt eftersom nodernas position ändras eller om några noder i nätverket bryts. Därför finns det ett behov av en adaptiv lösning för att göra nätverkets prestanda stabil mot dessa förändringar. Ett centraliserat sätt inducerar en enda felpunkt, när kontrollenhetens tjänst inte är tillgänglig, nätverk kan inte bildas och kommunikationen mellan noderna bryts. Därför skulle ett system som fördelar beslutsförmågan till noder vara bättre för att öka nätverkets robusthet. En detaljerad litteraturundersökning om den distribuerade nätverksbildningen visade att två kritiska luckor måste fyllas. För det första antog förutsatta lösningar att noder använder rundstrålande antenner, och därför kan de göra sändning och mottagning i alla riktningar, vilket i sig ökar den totala störningen i systemet. Därför kommer vi på idén att använda riktade antenner för att minska störningarna som kräver att antenner pekar ut varandra för framgångsrik kommunikation. Detta skapar ett optimeringsproblem när det gäller att välja riktningar för en viss mängd antenner som är utplacerade på en nod för att maximera kapaciteten samtidigt som anslutningsmöjligheterna säkerställs. För det andra är föreslagna lösningar för distribuerad nätverksbildning i litteraturen beroende av sekventiella beslutsfattande algoritmer som varje nod väntar på sin tur för att fatta ett beslut. I så fall är att bestämma eller fördela nodernas rangordning en annan utmaning som måste lösas av den distribuerade algoritmen. Därför fokuserade vi i detta arbete på att designa en distribuerad nätverksbildningsalgoritm för ett system med riktade antenner där alla beslut fattas samtidigt av noder i systemet. Som ett resultat har det visat sig att den föreslagna förstärkningsinlärningsbaserade algoritmen är framgångsrik och lovande för att ge noder förmågan att anpassa sig till nya förhållanden i samarbete. distributed network formation topology formation reinforcement learning multi-agent distribuerad nätverksbildning topologibildning förstärkande inlärning multiagent Elektroteknik och elektronik
14	Parameter Tuning in a Jet Printing Machine usingReinforcement Learning / Parameterjustering i en jet printermaskin med enFörstärkande inlärningsalgoritm MURTAZA, ALEXANDER January 2021 (has links) Surface mount technology is a common way to assembly electrical components onto PrintedCircuit Boards (PCB). To assemble the components, solder paste is used. One way to apply solderpaste onto PCB is jet printing.The quality of the solder paste deposits on the PCB depends on the properties of the solder pasteand the ejection parameters settings of the jet printer. Every solder paste is unique with its owncharacteristics. Solder paste dots are of good quality if the positioning of the dot is good, the dotis circular, and the number of satellites is at a minimum. A satellite is a droplet that has fallenoutside the main droplet. The parameters that have the most effect on the solder paste are thewaveform parameters Rise time and Voltage level.This master thesis examined the possibility to design and implement a feedback-based machinelearning algorithm that can find the most suitable value for the Rise time and Voltage level, thatgives good quality of the solder paste deposits. The algorithm that was used was a ReinforcementLearning algorithm. Reinforcement Learning is a reward-based learning algorithm where an agentlearns to interact with an environment by using trial and error. The specific algorithm that wasused was a Deep-Q-Learning algorithm. In this master thesis, it was also examined how the cameraresolution affects the decision of the algorithm. To see the implication of the camera resolution,two machines were used, an older and a newer machine were used where one of the biggestdifferences is that the camera resolution.It was concluded that a Deep-Q-Learning algorithm can be used to find the most suitable value forthe waveform parameters Rise time and Voltage level, which results in specified quality of thesolder paste deposits. It was also concluded that the algorithm converges faster for a lower cameraresolution, but the results obtained are more optional with the higher camera resolution. / Ytmontering är en metod som används för att montera elektriska komponenter på kretskort. Föratt kunna montera komponenterna används lödpasta. En teknik för att applicera lödpasta påkretskort är jet printing.Kvaliteten på lödpastavolymen på ett kretskort beror dels på egenskaperna hos lödpastan, dels påutskjutningssparametrarna hos jetprintern. Varje lödpasta är unik med hänsyn till flödesegenskaper. En lödpastadeposition har god kvalitet om depositionen har en bra position, omdepositionen är cirkulär och om mängden satelliter är minimal. En satellit är en droppe lödpastasom fallit utanför huvuddepositionen. Parametrarna som har störst effekt på lödpasta ärvågformsparameterna stigtid och spänningsnivå.Detta examensarbete undersökte möjligheten att hitta en feedbackbaserad maskininlärningsalgoritm som kan hitta de mest lämpliga värdena för stigtiden och spänningsnivå som ger godkvalitet på lödpastadepositionen. Algoritmen som användes var en Förstärkande inlärningsalgoritm.Förstärkande inlärning är en belöningsbaserad inlärningsalgoritm där en agent lär sig attinteragera med en miljö genom att använda trial and error. Den specifika algoritmen som användesvar en Deep-Q-Learning-algoritm. I examensarbetet undersöktes även hur kameraupplösningenspåverkar algoritmen och dess beslut. För att undersöka detta användes två maskiner, en nyare ochäldre version där att kameraupplösningen är lägre.Slutsatsen som drogs var att en Deep-Q-Learning-algoritm kan användas för att hitta det mestlämpliga värdena för vågformsparametrarna stigtid och spänningsnivå. En annan slutsats somdrogs var att algoritmen konvergerade snabbare när kameraupplösningen är lägre. Parapeternasom är optimala för den kameran med lägre upplösning är inte optimala för den kameran medhögre upplösning. Jet printer Reinforcement Learning Q-learning Parameter tuning Surface mount technology Jet printer Förstärkande inlärning Q-learning Parameter justering Ytmontering Engineering and Technology Teknik och teknologier
15	Managing Climate Overshoot Risk with Reinforcement Learning : Carbon Dioxide Removal, Tipping Points and Risk-constrained RL / Hantering av risk vid överskjutning av klimatmål med förstärkande inlärning : Koldioxidinfångning, tröskelpunkter och riskbegränsad förstärkande inlärning Kerakos, Emil January 2024 (has links) In order to study how to reach different climate targets, scientists and policymakers rely on results from computer models known as Integrated Assessment Models (IAMs). These models are used to quantitatively study different ways of achieving warming targets such as the Paris goal of limiting warming to 1.5-2.0 °C, deriving climate mitigation pathways that are optimal in some sense. However, when applied to the Paris goal many IAMs derive pathways that overshoot the temperature target: global temperature temporarily exceeds the warming target for a period of time, before decreasing and stabilizing at the target. Although little is known with certainty about the impacts of overshooting, recent studies indicate that there may be major risks entailed. This thesis explores two different ways of including overshoot risk in a simple IAM by introducing stochastic elements to it. Then, algorithms from Reinforcement Learning (RL) are applied to the model in order to find pathways that take overshoot risk into consideration. In one experiment we apply standard risk-neutral RL to the DICE model extended with a probabilistic damage function and carbon dioxide removal technologies. In the other experiment, the model is further augmented with a probabilistic tipping element model. Using risk-constrained RL we then train an algorithm to optimally control this model, whilst controlling the conditional-value-at-risk of triggering tipping elements below a user-specified threshold. Although some instability and convergence issues are present during training, in both experiments the agents are able to achieve policies that outperform a simple baseline. Furthermore, the risk-constrained agent is also able to (approximately) control the tipping risk metric below a desired threshold in the second experiment. The final policies are analysed for domain insights, indicating that carbon removal via temporal carbon storage solutions could be a sizeable contributor to negative emissions on a time-horizon relevant for overshooting. In the end, recommended next steps for future work are discussed. / För att studera hur globala klimatmål kan nås använder forskare och beslutsfattare resultat från integrerade bedömningsmodeller (IAM:er). Dessa modeller används för att kvantitativt förstå olika vägar till temperaturmål, så som Parisavtalets mål om att begränsa den globala uppvärmningen till 1.5-2.0 °C. Resultaten från dessa modeller är så kallade ”mitigation pathways” som är optimala utifrån något uppsatt kriterium. När sådana modellkörningar görs med Parismålet erhålls dock ofta optimala pathways som överskjuter temperaturmålet tillfälligt: den globala temperaturen överstiger målet i en period innan den sjunker och till slut stabiliseras vid det satta målet. Kunskapen om vilken påverkan en överskjutning har är idag begränsad, men flertalet nyligen gjorda studier indikerar att stora risker potentiellt kan medföras. I denna uppsats utforskas två olika sätt att inkludera överskjutningsrisk i en enkel IAM genom användandet av stokastiska element. Därefter används Förstärkande Inlärning på modellen för att erhålla modellösningar som tar hänsyn till överkjutningsrisk. I ett av experimenten utökas IAM:en med en stokastisk skadefunktion och tekniker för koldioxidinfångning varpå vanlig Förstärkande Inlärning appliceras. I det andra experimentet utökas modellen ytterligare med en stokastisk modell för tröskelpunkter. Med hjälp av risk-begränsad Förstärkande Inlärning tränas därefter en modell för att optimalt kontrollera denna IAM samtidigt som risken att utlösa tröskelpunkter kontrolleras till en nivå satt av användaren. Även om en viss grad av instabilitet och problem med konvergens observeras under inlärningsprocessen så lyckas agenterna i båda experimenten hitta beslutsregler som överträffar en enkel baslinje. Vidare lyckas beslutsregeln som erhålls i det andra experimentet, med den risk-begränsade inlärningen, approximativt kontrollera risken att utlösa tröskelpunkter till det specificerade värdet. Efter träning analyseras de bästa beslutsreglerna i syfte att finna domänmässiga insikter, varav en av dessa insikter är att temporära kollager kan ge betydande bidrag för koldioxidinfångning i en tidshorisont relevant vid överskjutning. Slutligen diskuteras möjliga nästa steg för framtida arbeten inom området. Reinforcement Learning Risk-aware Reinforcement Learning IntegratedAssessment Model DICE Overshoot Risk Tipping Points Förstärkande Inlärning Riskmedveten Förstärkande Inlärning IntegreradeBedömningsmodeller DICE-modellen Överskjutningsrisk Koldioxidinfångning Tröskelpunkter Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
16	Deep Reinforcement Learning on Social Environment Aware Navigation based on Maps Sanchez, Victor January 2023 (has links) Reinforcement learning (RL) has seen a fast expansion in recent years of its successful application to a range of decision-making and complex control tasks. Moreover, deep learning offers RL the opportunity to enlarge its spectrum of complex fields. Social Robotics is a domain that involves challenges like Human-Robot Interaction which bears inspiration for development in deep RL. Autonomous systems demand a fast and efficient environment perception so as to guarantee safety. However, while being attentive to its surrounding, a robot needs to take decisions to navigate optimally and avoid potential obstacles. In this thesis, we investigate a deep RL method for mobile robot end-to-end navigation in a social environment. Using the observation collected in a simulation environment, a convolutional neural network is trained to predict an appropriate set of discrete angular and linear velocities for a robot based on its egocentric local occupancy grid map. We compare a random learning way to a curriculum learning approach to ameliorate speed convergence during training. We divide the main problem by analysing separately end-to-end navigation and obstacle avoidance in static and dynamic environments. For each problem, we propose an adaptation that aims to improve the surrounding awareness of the agent. The qualitative and quantitative evaluations of the investigated approach were performed in simulations. The results show that the end-to-end navigation map-based model is easy to set up and shows similar performance as a Model Predictive Control approach. However, we discern that obstacle avoidance is harder to translate to a deep RL framework. Despite this difficulty, using different RL methods and configurations will definitely help and bring ideas for improvement for future work. / Förstärkande Inlärning (RL) har sett en snabb expansion de senaste åren för sin fruktbara tillämpning på en rad beslutsfattande och komplexa kontrolluppgifter. Dessutom erbjuder djupinlärning RL möjligheten att utöka sitt spektrum till komplexa områden. Social Robotics är en domän som involverar utmaningar som människa-robot interaktion som bär inspiration för utveckling i djup RL. Autonoma system kräver en snabb och effektiv miljöuppfattning för att garantera säkerheten. Men samtidigt som den är uppmärksam på sin omgivning, måste en robot fatta beslut för att navigera optimalt och undvika potentiella hinder. I detta examensarbete undersöker vi en djup RL-metod för mobil robot-end-to-end-navigering i en social miljö. Med hjälp av observationen som samlats in i en simuleringsmiljö tränas ett faltningsneuralt nätverk för att förutsäga en lämplig uppsättning diskreta vinkel- och linjärhastigheter för en robot baserat på dess egocentriska rutnätskarta över lokala beläggningar. Vi jämför ett slumpmässigt inlärningssätt med läroplansinlärningsmetod för att förbättra hastighetskonvergensen. Vi delar upp huvudproblemet genom att separat analysera end-to-end-navigering och undvikande av hinder i statisk och dynamisk miljö. För varje problem föreslår vi en anpassning som syftar till att agenten bättre förstår sin omgivning. De kvalitativa och kvantitativa utvärderingarna av det undersökta tillvägagångssättet utfördes endast i simuleringar. Resultaten visar att den heltäckande navigationskartbaserade modellen är lätt att distribuera och visar liknande prestanda som en modell för prediktiv kontroll. Vi ser dock att undvikande av hinder är svårare att översätta till ett djupt RL-ramverk. Trots denna svårighet kommer användning av olika RL-metoder och konfiguration definitivt att hjälpa och ge idéer om förbättringar för framtida arbete. / L’apprentissage par renforcement (RL) a connu une expansion rapide ces dernières années pour ses applications à une gamme de tâches de prise de décision et de contrôle complexes. Le deep learning offre au RL la possibilité d’élargir son spectre à des domaines complexes. La robotique sociale est un domaine qui implique des défis tels que l’interaction homme-robot, source d’inspiration pour le développement en RL profond. Les systèmes autonomes exigent une perception rapide et efficace de l’environnement afin de garantir la sécurité. Cependant, tout en étant attentif à son environnement, un robot doit prendre des décisions pour naviguer de manière optimale et éviter les obstacles potentiels. Dans cette thèse, nous étudions une méthode de RL profond pour la navigation de bout a bout de robots mobiles dans un environnement social. À l’aide de l’observation recueillie dans un environnement de simulation, un réseau neuronal convolutif prédit un ensemble adapté de vitesses angulaires et linéaires discrètes pour un robot en fonction de sa carte de grille d’occupation locale égocentrique. Nous comparons une méthode d’apprentissage aléatoire à une approche d’apprentissage du curriculum pour accelerer la convergence durant l’entrainement. Nous divisons le problème principal en analysant séparément la navigation de bout a bout et l’évitement d’obstacles dans un environnement statique et dynamique. Pour chaque problème, nous proposons une adaptation visant à ce que l’agent comprenne mieux son environnement. Les évaluations qualitatives et quantitatives de l’approche étudiée ont été effectuées uniquement dans des simulations. Les résultats montrent que le modèle basé sur la carte de navigation de bout en bout est facile à déployer et affiche des performances similaires à celles d’une approche de contrôle prédictif de modèle. Cependant, nous discernons que l’évitement d’obstacles est plus difficile à traduire dans un cadre RL profond. Malgré cette difficulté, l’utilisation de différentes méthodes et configurations RL aidera certainement et apportera une idée d’amélioration pour les travaux futurs. Deep Reinforcement Learning Environment-aware navigation Robotics Artificial Intelligence Apprentissage par renforcement profond Navigation consciente de l’humain Intelligence Artificielle Robotique Djup Förstärkande Inlärning Människomedveten navigering Robotik Artificiell Intelligens Elektroteknik och elektronik
17	Model-based Residual Policy Learning for Sample Efficient Mobile Network Optimization / Modell-baserad residual-policyinlärning för dataeffektiv optimering av mobila nätverk Eriksson Möllerstedt, Viktor January 2022 (has links) Reinforcement learning is a powerful tool which enables an agent to learn how to control complex systems. However, during the early phases of training, the performance is often poor. Increasing sample efficiency means that fewer interactions with the environment are necessary before achieving good performance, minimizing risk and cost in real world deployment or saving simulation time. We present a novel reinforcement learning method, which we call Model-based Residual Policy Learning, that learns a residual to an existing expert policy using a model-based approach for maximum sample efficiency. We compared its sample efficiency to several methods, including a state-of-the-art model-free method. The comparisons were done on two tasks: coverage and capacity optimization via antenna tilt control for telecommunication networks, as well as a common robotics benchmark task. Performance was measured as the mean episodic reward collected during training. In the coverage and capacity optimization task, the reward signal was a sum of the log reference signal received power, throughput, and signal to interference plus noise ratio averaged across users in the cells. Our method was more sample efficient than the baselines across the board. The sample efficiency was especially good for the coverage and capacity optimization task. We also found that using an expert policy helped to maintain a good initial performance. In the ablation studies of the two components of our method, the complete method achieved the highest sample efficiency in the majority of the experiments. / Förstärkande inlärning är ett kraftfullt verktyg för att lära en agent att kontrollera komplexa system. Dock så är prestandan oftast dålig i början av träningen. Med att öka dataeffektiviteten menar vi att färre interaktioner med omgivningen är nödvändiga innan en bra prestanda uppnås, vilket minimerar risk och kostnad vid användning i verkligheten, eller minskar simuleringstiden. Vi presenterar en ny metod för förstärkande inlärning vilken vi kallar Modell-baserad residual-policyinlärning, som tränar en korrektionsterm till en expert-policy med hjälp av ett modell-baserat tillvägagångssätt för maximal dataeffektivitet. Vi jämförde dess dataeffektivitet med ett flertal metoder, bland annat en av de främsta modell-fria metoderna. Jämförelsen gjordes på två problem; optimering av täckning och kapacitet för telekommunikationsnätverk via styrning av antennernas nedåtlutning, samt ett vanligt förekommande testproblem inom robotik. Prestandan mättes med den genomsnittliga belöningen per episod insamlad av agenten under träningsprocessen. I täckning och kapacitet optimeringsproblemet så definierade vi belöningssignalen som summan av medelvärdet av logaritmen av den mottagna referenssignalens styrka (RSRP), dataöverföringshastigheten (throughput) och kvoten mellan signal och interferens plus brus (SINR) över antalet användare i cellerna. Vår metod var mer dataeffektiv än de som vi jämförde med i samtliga experiment. Dataeffektiviteten var särskilt hög för optimering av täckning och kapacitet. Vi fann även att användningen av en expert-policy hjälpte till att bibehålla en bra tidig prestanda. En ablationsstudie av vår metods två komponenter visade att den fullständiga metoden hade bäst dataeffektivitet i majoriteten av experimenten. Reinforcement Learning Sample Efficiency Model-based Expert Policy Remote Electrical Tilt Telecommunication Förstärkande inlärning dataeffektivitet modell-baserad expert-policy telekommunikation Computer and Information Sciences Data- och informationsvetenskap
18	Decoding the role of enhancer RNAs (eRNAs) in cancer pathology Seek, Abd Aljabbar January 2024 (has links) There is a lack of low toxicity, specific anticancer therapies and in many cancer types there are limited effective treatments. Enhancer RNAs are noncoding RNA transcripts transcribed from enhancer regions. Increasing evidence of the function of eRNA in gene regulation suggests the possibility of eRNA involvement in cancer development. This report examines literature on enhancer RNA as a potent component in transcription control specifically in cancer development. Therefore, I conducted a systematic literature review to further clarify the involvement of eRNAs in cancer. There is strong evidence of eRNA upregulating oncogenes. For instance, the eRNA (CCAT1) upregulates the oncogene MYC in colorectal cancer. Other eRNAs were also found to be required for p53-dependent cell-cycle arrest and tumour inhibition. A study showed the interplay of a long noncoding RNA with eRNAs in p53-regulated enhancers, while another showed p53-bound enhancer regions transcribing an eRNA which mediates G1 arrest, DNA repair, and tumorigenesis through its interaction with the (BRCA2) gene. Finally, a study across numerous cancer patient samples revealed a cancer/lineage specificity of eRNAs and explored the clinical feasibility of eRNA-targeted therapy. These studies demonstrate how eRNAs can be a link in cancer signalling pathways both as a regulator of oncogenes and tumour suppressor genes, as well as suggest a promising future of eRNA-targeted cancer therapy. eRNA cancer enhancer RNA Transcription coding translation oncogene tumour suppressor gene gene expression eRNA cancer förstärkande gensekvens RNA Transkription Kodning translation onkogen tumör suppressor gen gen expression Cell and Molecular Biology Cell- och molekylärbiologi

Search results