Spelling suggestions: "subject:"data efficiency"" "subject:"mata efficiency""
1 |
Memory and Reasoning in Deep Learning : Data efficiency of the SAM-based Two-memory (STM) Model / Minne och Resonemang i Djupinlärning : Dataeffektivitet av SAM-baserad Tvåminnesmodellen (STM)Perzanowski, Andrzej January 2022 (has links)
Developing Deep Learning models capable of learning to reason and store memories are some of the most important current challenges in AI research. Finding out which network architectures are best suited for tackling this problem can guide research toward the most promising approaches. The bAbI challenge is a popular benchmark dataset composed of different Question Answering tasks each designed to test specific memory and reasoning abilities fundamental for text comprehension. A model well adapted to learning reasoning should be able to efficiently extract relevant knowledge from small amount of training data and generalise from it to achieve good performance, referred to as the model being data efficient. Memory-augmented networks are one of the most successful kinds of neural network architecture at the bAbI challenge and the SAM-based Two-memory (STM) model uses this architectural approach. This thesis compares STM model performance on the version of the bAbI challenge with little training data (bAbI 1k) to the best performing memory-augmented model on this challenge, the MemN2N model. The aim is to find out which memory-augmented architecture approach is more data efficient at bAbI. STM model performance is compared to two variants of the MemN2N model: MemN2N basic and its enhanced version MemN2N LS-RN. STM and MemN2N basic are found to have similar overall performance while the MemN2N LS-RN model is found to outperform them both, meaning it is more data efficient at bAbI. Differences in performance between models on several individual bAbI tasks are found, with a few being significant. STM is found to perform significantly worse at tasks involving temporal relation and time dependency reasoning than both MemN2N models. MemN2N LS-RN is also found to vastly outperform both STM and MemN2N basic at basic induction. Lastly, all models are found to perform poorly at complex spatial reasoning tasks. / En av de viktigaste aktuella utmaningarna inom AI-forskning är att utveckla och studera Djupinlärning-modeller som kan lära sig att resonera och lagra minnen. Att ta reda på vilka nätverksarkitekturer är bäst lämpade för att hantera detta problem kan leda forskningen fram mot de mest lovande lösningarna. bAbI-utmaningen är en populär benchmark-datauppsättning sammansatt av olika fråga och svarsuppgifter, var och designad för att testa specifika minnes- och resonemangsförmågor grundläggande för textförståelse. En modell väl anpassad för att lära sig resonemang bör kunna effektivt utvinna relevant kunskap från små mängder träningsdata och generalisera från det för att uppnå bra prestanda. En sådan modell kallas dataeffektiv. Minnesförstärkta nätverk är en av de mest framgångsrika typerna av neurala nätverksarkitektur er vid bAbI-utmaningen och den SAM-baserade Tvåminnesmodellen (STM) använder denna arkitektoniska lösning. Denna avhandling jämför STM-modellens prestanda på versionen av bAbI-utmaningen med liten mängd träningsdata (bAbI 1k) med den bäst presterande minnesförstärkta modellen på denna utmaning, MemN2N-modellen. Syftet är att ta reda på vilken minnesförstärkt arkitektur är mer dataeffektiv för bAbI. STM-modellens prestanda jämförs med två varianter av MemN2N-modellen: MemN2N basic och dess förbättrade version MemN2N LS-RN. STM och MemN2N basic har visat sig ha liknande övergripande prestanda, medan MemN2N LS-RN modellen visar sig överträffa dem båda, vilket betyder att den är mer dataeffektiv vid bAbI. Skillnader i prestanda mellan modeller på flera individuella bAbI uppgifter finns, och några få av dem är betydande. STM visar sig prestera betydligt sämre vid uppgifter som involverar tidsrelativa och tidsberoende resonemang än båda MemN2N modeller. MemN2N LS-RN visar sig också överträffa både STM och MemN2N basic vid grundläggande induktion. Slutligen har alla modeller visat sig prestera dåligt vid komplexa spatiala resonemangsuppgifter.
|
2 |
Building sample-efficient reinforcement learningSchwarzer, Max Allen 11 1900 (has links)
L’efficacité des données est un défi clé pour l’apprentissage par renforcement profond (DRL), limitant souvent son utilisation aux environnements où des quantités illimitées de données simulées sont disponibles. J’envisage une gamme de solutions pour résoudre ce problème. Nous commençons par proposer une méthode permettant d’exploiter des données non étiquetées pour pré-entraîner des représentations qui sont ensuite affinées sur une petite quantité de données spécifiques à la tâche. Pour apprendre des représentations qui capturent divers aspects de la tâche sous-jacente, j’emploie une combinaison de modélisation des dynamiques latentes et de RL conditionné par objectif non supervisé. Cette approche surpasse nettement les travaux antérieurs combinant le pré-entraînement des représentations hors ligne avec l’affinement spécifique à la tâche, et se compare favorablement à d’autres méthodes de pré-entraînement nécessitant des ordres de grandeur plus de données. Nous identifions ensuite et discutons d’un défaut commun des algorithmes de DRL : une tendance à se fier aux interactions précoces et à ignorer les preuves utiles rencontrées plus tard. Les agents de DRL encourent un risque de surapprentissage par rapport aux expériences antérieures, affectant négativement le reste du processus d’apprentissage. Inspirés par les sciences cognitives, je fais référence à cet effet comme étant le biais de primauté. Nous proposons un mécanisme simple mais généralement applicable qui s’attaque au biais de primauté en réinitialisant périodiquement une partie de l’agent. Nous appliquons ce mécanisme aux algorithmes dans les domaines d’action discrets (Atari 100k) et continus (DeepMind Control Suite), améliorant constamment leurs performances. Nous démontrons ensuite que, poussée à l’extrême, cette approche basée sur la réinitialisation permet d’augmenter considérablement les ressources computationnelles même avec des données limitées, un phénomène que j’appelle franchir le mur du ratio de relecture. Les algorithmes basés sur cette stratégie sont capables d’exhiber un apprentissage beaucoup plus efficace que les travaux antérieurs, et permettent dans de nombreux cas un échange libre entre computation et données. Enfin, je conclue en démontrant qu’il est également possible de mettre à l’échelle les réseaux neuronaux utilisés dans le RL efficace en termes de données, simplement en modifiant certains hyperparamètres. En combinaison avec les autres avancées réalisées jusqu’à présent, cela nous permet d’atteindre une efficacité d’apprentissage surhumaine sur Atari 100k même en apprenant purement à partir de zéro et sans utiliser un modèle pour la planification. / Data efficiency is a key challenge for deep reinforcement learning (RL), often limiting its use to settings where unlimited quantities of simulated data are available. I consider a range of solutions to address this problem. I begin by proposing a method to leverage unlabeled data to pretrain representations that are then finetuned on a small amount of task-specific data. To learn representations that capture diverse aspects of the underlying task, I employ a combination of latent dynamics modeling and unsupervised goal-conditioned RL. This approach significantly surpasses prior work combining offline representation pretraining with task-specific finetuning and compares favorably with other pretraining methods that require orders of magnitude more data. I then identify and discuss a common flaw of deep RL algorithms: a tendency to rely on early interactions and ignore useful evidence encountered later. Deep RL agents incur a risk of overfitting to earlier experiences, negatively affecting the rest of the learning process. Inspired by cognitive science, I refer to this effect as the primacy bias. I propose a simple yet generally applicable mechanism that tackles the primacy bias by periodically resetting a part of the agent. I apply this mechanism to algorithms in both discrete (Atari 100k) and continuous action (DeepMind Control Suite) domains, consistently improving their performance. I then demonstrate that when taken to the extreme, this reset-based approach allows computational resources to be scaled up enormously even with limited data, a phenomenon which I call breaking the replay ratio barrier. Algorithms based on this strategy are able to exhibit far more efficient learning than prior work and allow computation and data to be freely exchanged in many cases. Finally, I conclude by demonstrating that it is also possible to scale up the neural networks used in sample-efficient RL, simply by changing certain hyperparameters. In combination with the other advances made so far, this allows us to achieve super-human learning efficiency on Atari 100k even when learning purely from scratch and not using a model for planning.
|
Page generated in 0.0655 seconds