Spelling suggestions: "subject:"dataeffektivitet"" "subject:"dataeffektiviteten""
1 |
Memory and Reasoning in Deep Learning : Data efficiency of the SAM-based Two-memory (STM) Model / Minne och Resonemang i Djupinlärning : Dataeffektivitet av SAM-baserad Tvåminnesmodellen (STM)Perzanowski, Andrzej January 2022 (has links)
Developing Deep Learning models capable of learning to reason and store memories are some of the most important current challenges in AI research. Finding out which network architectures are best suited for tackling this problem can guide research toward the most promising approaches. The bAbI challenge is a popular benchmark dataset composed of different Question Answering tasks each designed to test specific memory and reasoning abilities fundamental for text comprehension. A model well adapted to learning reasoning should be able to efficiently extract relevant knowledge from small amount of training data and generalise from it to achieve good performance, referred to as the model being data efficient. Memory-augmented networks are one of the most successful kinds of neural network architecture at the bAbI challenge and the SAM-based Two-memory (STM) model uses this architectural approach. This thesis compares STM model performance on the version of the bAbI challenge with little training data (bAbI 1k) to the best performing memory-augmented model on this challenge, the MemN2N model. The aim is to find out which memory-augmented architecture approach is more data efficient at bAbI. STM model performance is compared to two variants of the MemN2N model: MemN2N basic and its enhanced version MemN2N LS-RN. STM and MemN2N basic are found to have similar overall performance while the MemN2N LS-RN model is found to outperform them both, meaning it is more data efficient at bAbI. Differences in performance between models on several individual bAbI tasks are found, with a few being significant. STM is found to perform significantly worse at tasks involving temporal relation and time dependency reasoning than both MemN2N models. MemN2N LS-RN is also found to vastly outperform both STM and MemN2N basic at basic induction. Lastly, all models are found to perform poorly at complex spatial reasoning tasks. / En av de viktigaste aktuella utmaningarna inom AI-forskning är att utveckla och studera Djupinlärning-modeller som kan lära sig att resonera och lagra minnen. Att ta reda på vilka nätverksarkitekturer är bäst lämpade för att hantera detta problem kan leda forskningen fram mot de mest lovande lösningarna. bAbI-utmaningen är en populär benchmark-datauppsättning sammansatt av olika fråga och svarsuppgifter, var och designad för att testa specifika minnes- och resonemangsförmågor grundläggande för textförståelse. En modell väl anpassad för att lära sig resonemang bör kunna effektivt utvinna relevant kunskap från små mängder träningsdata och generalisera från det för att uppnå bra prestanda. En sådan modell kallas dataeffektiv. Minnesförstärkta nätverk är en av de mest framgångsrika typerna av neurala nätverksarkitektur er vid bAbI-utmaningen och den SAM-baserade Tvåminnesmodellen (STM) använder denna arkitektoniska lösning. Denna avhandling jämför STM-modellens prestanda på versionen av bAbI-utmaningen med liten mängd träningsdata (bAbI 1k) med den bäst presterande minnesförstärkta modellen på denna utmaning, MemN2N-modellen. Syftet är att ta reda på vilken minnesförstärkt arkitektur är mer dataeffektiv för bAbI. STM-modellens prestanda jämförs med två varianter av MemN2N-modellen: MemN2N basic och dess förbättrade version MemN2N LS-RN. STM och MemN2N basic har visat sig ha liknande övergripande prestanda, medan MemN2N LS-RN modellen visar sig överträffa dem båda, vilket betyder att den är mer dataeffektiv vid bAbI. Skillnader i prestanda mellan modeller på flera individuella bAbI uppgifter finns, och några få av dem är betydande. STM visar sig prestera betydligt sämre vid uppgifter som involverar tidsrelativa och tidsberoende resonemang än båda MemN2N modeller. MemN2N LS-RN visar sig också överträffa både STM och MemN2N basic vid grundläggande induktion. Slutligen har alla modeller visat sig prestera dåligt vid komplexa spatiala resonemangsuppgifter.
|
2 |
Model-based Residual Policy Learning for Sample Efficient Mobile Network Optimization / Modell-baserad residual-policyinlärning för dataeffektiv optimering av mobila nätverkEriksson Möllerstedt, Viktor January 2022 (has links)
Reinforcement learning is a powerful tool which enables an agent to learn how to control complex systems. However, during the early phases of training, the performance is often poor. Increasing sample efficiency means that fewer interactions with the environment are necessary before achieving good performance, minimizing risk and cost in real world deployment or saving simulation time. We present a novel reinforcement learning method, which we call Model-based Residual Policy Learning, that learns a residual to an existing expert policy using a model-based approach for maximum sample efficiency. We compared its sample efficiency to several methods, including a state-of-the-art model-free method. The comparisons were done on two tasks: coverage and capacity optimization via antenna tilt control for telecommunication networks, as well as a common robotics benchmark task. Performance was measured as the mean episodic reward collected during training. In the coverage and capacity optimization task, the reward signal was a sum of the log reference signal received power, throughput, and signal to interference plus noise ratio averaged across users in the cells. Our method was more sample efficient than the baselines across the board. The sample efficiency was especially good for the coverage and capacity optimization task. We also found that using an expert policy helped to maintain a good initial performance. In the ablation studies of the two components of our method, the complete method achieved the highest sample efficiency in the majority of the experiments. / Förstärkande inlärning är ett kraftfullt verktyg för att lära en agent att kontrollera komplexa system. Dock så är prestandan oftast dålig i början av träningen. Med att öka dataeffektiviteten menar vi att färre interaktioner med omgivningen är nödvändiga innan en bra prestanda uppnås, vilket minimerar risk och kostnad vid användning i verkligheten, eller minskar simuleringstiden. Vi presenterar en ny metod för förstärkande inlärning vilken vi kallar Modell-baserad residual-policyinlärning, som tränar en korrektionsterm till en expert-policy med hjälp av ett modell-baserat tillvägagångssätt för maximal dataeffektivitet. Vi jämförde dess dataeffektivitet med ett flertal metoder, bland annat en av de främsta modell-fria metoderna. Jämförelsen gjordes på två problem; optimering av täckning och kapacitet för telekommunikationsnätverk via styrning av antennernas nedåtlutning, samt ett vanligt förekommande testproblem inom robotik. Prestandan mättes med den genomsnittliga belöningen per episod insamlad av agenten under träningsprocessen. I täckning och kapacitet optimeringsproblemet så definierade vi belöningssignalen som summan av medelvärdet av logaritmen av den mottagna referenssignalens styrka (RSRP), dataöverföringshastigheten (throughput) och kvoten mellan signal och interferens plus brus (SINR) över antalet användare i cellerna. Vår metod var mer dataeffektiv än de som vi jämförde med i samtliga experiment. Dataeffektiviteten var särskilt hög för optimering av täckning och kapacitet. Vi fann även att användningen av en expert-policy hjälpte till att bibehålla en bra tidig prestanda. En ablationsstudie av vår metods två komponenter visade att den fullständiga metoden hade bäst dataeffektivitet i majoriteten av experimenten.
|
Page generated in 0.0559 seconds