• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • Tagged with
  • 6
  • 6
  • 6
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Goal-oriented Modeling for Data-driven Decision Making / データ駆動型意思決定のための目的指向モデリング

Tanimoto, Akira 24 September 2021 (has links)
京都大学 / 新制・課程博士 / 博士(情報学) / 甲第23542号 / 情博第772号 / 新制||情||132(附属図書館) / 京都大学大学院情報学研究科知能情報学専攻 / (主査)教授 鹿島 久嗣, 教授 山本 章博, 教授 下平 英寿 / 学位規則第4条第1項該当 / Doctor of Informatics / Kyoto University / DFAM
2

Towards the Understanding of Sample Efficient Reinforcement Learning Algorithms

Xu, Tengyu 02 September 2022 (has links)
No description available.
3

The Student Becomes The Teacher: Training High-Performance Language Models More Sample-Efficiently From Small Models Via Superstilling

Gundry, Chaz Allen 14 August 2023 (has links) (PDF)
Recent advances including the Transformer architecture have revolutionized the Natural Language Processing community by providing immense performance improvements across many tasks, including the development of Large Language Models (LLMs). LLMs show enormous promise as few-shot learners, common-sense knowledge repositories, conversational agents, writing assistants, and coding tools, and are gaining widespread traction in commercial industry. However, LLMs are expensive and time-consuming to train, requiring many passes over terabytes of data for the largest models. In this paper, we present Superstilling, a method for reducing the sample complexity of language model training by distilling the knowledge from a previously-trained model (the teacher) into a new, larger model (the student). This method does not require conformity between the architectures of the two models, and can be applied even when the weights and training data of the teacher model are not available, for example in federated learning scenarios. We apply Superstilling to train models of various sizes and show this method can decrease sample complexity by more than 10\% on models with over 160M parameters. We also show that in certain scenarios, Superstilling can be used to speed up training despite the need to run the teacher and student models simultaneously.
4

Model-based Residual Policy Learning for Sample Efficient Mobile Network Optimization / Modell-baserad residual-policyinlärning för dataeffektiv optimering av mobila nätverk

Eriksson Möllerstedt, Viktor January 2022 (has links)
Reinforcement learning is a powerful tool which enables an agent to learn how to control complex systems. However, during the early phases of training, the performance is often poor. Increasing sample efficiency means that fewer interactions with the environment are necessary before achieving good performance, minimizing risk and cost in real world deployment or saving simulation time. We present a novel reinforcement learning method, which we call Model-based Residual Policy Learning, that learns a residual to an existing expert policy using a model-based approach for maximum sample efficiency. We compared its sample efficiency to several methods, including a state-of-the-art model-free method. The comparisons were done on two tasks: coverage and capacity optimization via antenna tilt control for telecommunication networks, as well as a common robotics benchmark task. Performance was measured as the mean episodic reward collected during training. In the coverage and capacity optimization task, the reward signal was a sum of the log reference signal received power, throughput, and signal to interference plus noise ratio averaged across users in the cells. Our method was more sample efficient than the baselines across the board. The sample efficiency was especially good for the coverage and capacity optimization task. We also found that using an expert policy helped to maintain a good initial performance. In the ablation studies of the two components of our method, the complete method achieved the highest sample efficiency in the majority of the experiments. / Förstärkande inlärning är ett kraftfullt verktyg för att lära en agent att kontrollera komplexa system. Dock så är prestandan oftast dålig i början av träningen. Med att öka dataeffektiviteten menar vi att färre interaktioner med omgivningen är nödvändiga innan en bra prestanda uppnås, vilket minimerar risk och kostnad vid användning i verkligheten, eller minskar simuleringstiden. Vi presenterar en ny metod för förstärkande inlärning vilken vi kallar Modell-baserad residual-policyinlärning, som tränar en korrektionsterm till en expert-policy med hjälp av ett modell-baserat tillvägagångssätt för maximal dataeffektivitet. Vi jämförde dess dataeffektivitet med ett flertal metoder, bland annat en av de främsta modell-fria metoderna. Jämförelsen gjordes på två problem; optimering av täckning och kapacitet för telekommunikationsnätverk via styrning av antennernas nedåtlutning, samt ett vanligt förekommande testproblem inom robotik. Prestandan mättes med den genomsnittliga belöningen per episod insamlad av agenten under träningsprocessen. I täckning och kapacitet optimeringsproblemet så definierade vi belöningssignalen som summan av medelvärdet av logaritmen av den mottagna referenssignalens styrka (RSRP), dataöverföringshastigheten (throughput) och kvoten mellan signal och interferens plus brus (SINR) över antalet användare i cellerna. Vår metod var mer dataeffektiv än de som vi jämförde med i samtliga experiment. Dataeffektiviteten var särskilt hög för optimering av täckning och kapacitet. Vi fann även att användningen av en expert-policy hjälpte till att bibehålla en bra tidig prestanda. En ablationsstudie av vår metods två komponenter visade att den fullständiga metoden hade bäst dataeffektivitet i majoriteten av experimenten.
5

On sample efficiency and systematic generalization of grounded language understanding with deep learning

Bahdanau, Dzmitry 01 1900 (has links)
En utilisant la méthodologie de l'apprentissage profond qui préconise de s'appuyer davantage sur des données et des modèles neuronaux flexibles plutôt que sur les connaissances de l'expert dans le domaine, la communauté de recherche a récemment réalisé des progrès remarquables dans la compréhension et la génération du langue naturel. Néanmoins, il reste difficile de savoir si une simple extension des méthodes d'apprentissage profond existantes sera suffisante pour atteindre l'objectif d'utiliser le langage naturel pour l'interaction homme-machine. Nous nous concentrons sur deux aspects connexes dans lesquels les méthodes actuelles semblent nécessiter des améliorations majeures. Le premier de ces aspects est l'inefficacité statistique des systèmes d'apprentissage profond: ils sont connus pour nécessiter de grandes quantités de données pour bien fonctionner. Le deuxième aspect est leur capacité limitée à généraliser systématiquement, à savoir à comprendre le langage dans des situations où la distribution des données change mais les principes de syntaxe et de sémantique restent les mêmes. Dans cette thèse, nous présentons quatre études de cas dans lesquelles nous cherchons à apporter plus de clarté concernant l'efficacité statistique susmentionnée et les aspects de généralisation systématique des approches d'apprentissage profond de la compréhension des langues, ainsi qu'à faciliter la poursuite des travaux sur ces sujets. Afin de séparer le problème de la représentation des connaissances du monde réel du problème de l'apprentissage d'une langue, nous menons toutes ces études en utilisant des langages synthétiques ancrés dans des environnements visuels simples. Dans le premier article, nous étudions comment former les agents à suivre des instructions compositionnelles dans des environnements avec une forme de supervision restreinte. À savoir pour chaque instruction et configuration initiale de l'environnement, nous ne fournissons qu'un état cible au lieu d'une trajectoire complète avec des actions à toutes les étapes. Nous adaptons les méthodes d'apprentissage adversariel par imitation à ce paramètre et démontrons qu'une telle forme restreinte de données est suffisante pour apprendre les significations compositionelles des instructions. Notre deuxième article se concentre également sur des agents qui apprennent à exécuter des instructions. Nous développons la plateforme BabyAI pour faciliter des études plus approfondies et plus rigoureuses de ce cadre d'apprentissage. La plateforme fournit une langue BabyAI compositionnelle avec $10 ^ {19}$ instructions, dont la sémantique est précisément définie dans un environnement partiellement observable. Nous rapportons des résultats de référence sur la quantité de supervision nécessaire pour enseigner à l'agent certains sous-ensembles de la langue BabyAI avec différentes méthodes de formation, telles que l'apprentissage par renforcement et l'apprentissage par imitation. Dans le troisième article, nous étudions la généralisation systématique des modèles de réponse visuelle aux questions (VQA). Dans le scénario VQA, le système doit répondre aux questions compositionelles sur les images. Nous construisons un ensemble de données de questions spatiales sur les paires d'objets et évaluons la performance des différents modèles sur les questions concernant les paires d'objets qui ne se sont jamais produites dans la même question dans la distribution d'entraînement. Nous montrons que les modèles dans lesquels les significations des mots sont représentés par des modules séparés qui effectuent des calculs indépendants généralisent beaucoup mieux que les modèles dont la conception n'est pas explicitement modulaire. Cependant, les modèles modulaires ne généralisent bien que lorsque les modules sont connectés dans une disposition appropriée, et nos expériences mettent en évidence les défis de l'apprentissage de la disposition par un apprentissage de bout en bout sur la distribution d'entraînement. Dans notre quatrième et dernier article, nous étudions également la généralisation des modèles VQA à des questions en dehors de la distribution d'entraînement, mais cette fois en utilisant le jeu de données CLEVR, utilisé pour les questions complexes sur des scènes rendues en 3D. Nous générons de nouvelles questions de type CLEVR en utilisant des références basées sur la similitude (par exemple `` la balle qui a la même couleur que ... '') dans des contextes qui se produisent dans les questions CLEVR mais uniquement avec des références basées sur la localisation (par exemple `` le balle qui est à gauche de ... ''). Nous analysons la généralisation avec zéro ou quelques exemples de CLOSURE après un entraînement sur CLEVR pour un certain nombre de modèles existants ainsi qu'un nouveau modèle. / By using the methodology of deep learning that advocates relying more on data and flexible neural models rather than on the expert's knowledge of the domain, the research community has recently achieved remarkable progress in natural language understanding and generation. Nevertheless, it remains unclear whether simply scaling up existing deep learning methods will be sufficient to achieve the goal of using natural language for human-computer interaction. We focus on two related aspects in which current methods appear to require major improvements. The first such aspect is the data inefficiency of deep learning systems: they are known to require extreme amounts of data to perform well. The second aspect is their limited ability to generalize systematically, namely to understand language in situations when the data distribution changes yet the principles of syntax and semantics remain the same. In this thesis, we present four case studies in which we seek to provide more clarity regarding the aforementioned data efficiency and systematic generalization aspects of deep learning approaches to language understanding, as well as to facilitate further work on these topics. In order to separate the problem of representing open-ended real-world knowledge from the problem of core language learning, we conduct all these studies using synthetic languages that are grounded in simple visual environments. In the first article, we study how to train agents to follow compositional instructions in environments with a restricted form of supervision. Namely for every instruction and initial environment configuration we only provide a goal-state instead of a complete trajectory with actions at all steps. We adapt adversarial imitation learning methods to this setting and demonstrate that such a restricted form of data is sufficient to learn compositional meanings of the instructions. Our second article also focuses on instruction following. We develop the BabyAI platform to facilitate further, more extensive and rigorous studies of this setup. The platform features a compositional Baby language with $10^{19}$ instructions, whose semantics is precisely defined in a partially-observable gridworld environment. We report baseline results on how much supervision is required to teach the agent certain subsets of Baby language with different training methods, such as reinforcement learning and imitation learning. In the third article we study systematic generalization of visual question answering (VQA) models. In the VQA setting the system must answer compositional questions about images. We construct a dataset of spatial questions about object pairs and evaluate how well different models perform on questions about pairs of objects that never occured in the same question in the training distribution. We show that models in which word meanings are represented by separate modules that perform independent computation generalize much better than models whose design is not explicitly modular. The modular models, however, generalize well only when the modules are connected in an appropriate layout, and our experiments highlight the challenges of learning the layout by end-to-end learning on the training distribution. In our fourth and final article we also study generalization of VQA models to questions outside of the training distribution, but this time using the popular CLEVR dataset of complex questions about 3D-rendered scenes as the platform. We generate novel CLEVR-like questions by using similarity-based references (e.g. ``the ball that has the same color as ...'') in contexts that occur in CLEVR questions but only with location-based references (e.g. ``the ball that is to the left of ...''). We analyze zero- and few- shot generalization to CLOSURE after training on CLEVR for a number of existing models as well as a novel one.
6

Parameter, experience, and compute efficient deep reinforcement learning

Nikishin, Evgenii 08 1900 (has links)
Cette thèse présente trois contributions qui améliorent des axes distincts de l’efficacité des algorithmes d’apprentissage par renforcement profond (RL). Notre première contribution commence par la prémisse selon laquelle les algorithmes RL basés sur un modèle standard minimisent généralement l’erreur de prédiction de l’état suivant pour la formation d’un modèle mondial. Bien qu’il s’agisse d’une approche naturelle, cette erreur pénalise également les erreurs de prédiction des composants de l’espace d’état qui sont pertinents pour la prise de décision et ceux qui ne le sont pas. Pour surmonter cette limitation, nous proposons une manière alternative d’entraîner un modèle en différenciant directement les rendements attendus, l’objectif qu’un agent cherche finalement à optimiser. Notre algorithme surpasse l’approche standard lorsque la capacité du réseau alimentant le modèle est limitée, conduisant à un agent plus efficace en termes de paramètres. La deuxième contribution se concentre sur l’efficacité avec laquelle les algorithmes RL profonds utilisent l’expérience. Nous identifions le phénomène de biais de primauté dans le RL profond, une tendance à apprendre excessivement des premières interactions qu’un agent a avec un environnement. Les conséquences négatives de cette tendance se propagent au reste de la formation, altérant la capacité à apprendre efficacement des interactions ultérieures. Comme remède simple au biais de primauté, nous proposons de réinitialiser périodiquement les paramètres réseau de l’agent tout en préservant le tampon d’expériences. L’application de cette technique améliore systématiquement les rendements entre les algorithmes et les domaines. Enfin, nous apportons une contribution qui améliore l’efficacité informatique de la formation RL approfondie. De nombreux articles antérieurs ont observé que les réseaux neuronaux utilisés dans la RL profonde perdent progressivement leur plasticité et leur capacité à apprendre de nouvelles expériences. Une stratégie immédiate pour atténuer ce problème consiste à utiliser un réseau plus vaste et doté de plus de plasticité au départ ; cependant, cela augmente le coût informatique de la formation. Nous proposons une intervention appelée injection de plasticité qui agrandit progressivement le réseau. Les agents qui partent d’un réseau plus petit et utilisent l’injection de plasticité pendant la formation enregistrent les calculs pendant la formation sans compromettre les retours finaux. / This thesis presents three contributions that improve separate axes of the efficiency of deep reinforcement learning (RL) algorithms. Our first contribution begins with the premise that standard model-based RL algorithms typically minimize the next state prediction error for training a world model. Despite being a natural approach, this error equally penalizes for mispredictions of the components of the state space that are relevant for decision making and that are not. To overcome the limitation, we propose an alternative way to train a model by directly differentiating expected returns, the objective that an agent ultimately seeks to optimize. Our algorithm outperforms the standard approach when the capacity of the network powering the model is limited, leading to a more parameter efficient agent. The second contribution focuses on how efficiently deep RL algorithms utilize the experience. We identify the primacy bias phenomenon in deep RL, a tendency to learn excessively from the first interactions an agent has with an environment. The negative consequences of the tendency propagate to the rest of the training, impairing the ability to learn efficiently from subsequent interactions. As a simple remedy to the primacy bias, we propose to periodically re-initialize the agent’s network parameters while preserving the buffer with experiences. Applying this technique consistently improves the returns across algorithms and domains. Lastly, we make a contribution that improves the computational efficiency of deep RL training. Numerous prior papers observed that neural networks employed in deep RL gradually lose plasticity, the ability to learn from new experiences. An immediate strategy for mitigating this issue is to employ a larger network that has more plasticity to begin with; however, it increases the computational cost of training. We propose an intervention called plasticity injection that gradually grows the network. Agents that start from a smaller network and use plasticity injection during training save the computations during training without compromising the final returns.

Page generated in 0.0776 seconds