• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • Tagged with
  • 4
  • 4
  • 4
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Goal-oriented Modeling for Data-driven Decision Making / データ駆動型意思決定のための目的指向モデリング

Tanimoto, Akira 24 September 2021 (has links)
京都大学 / 新制・課程博士 / 博士(情報学) / 甲第23542号 / 情博第772号 / 新制||情||132(附属図書館) / 京都大学大学院情報学研究科知能情報学専攻 / (主査)教授 鹿島 久嗣, 教授 山本 章博, 教授 下平 英寿 / 学位規則第4条第1項該当 / Doctor of Informatics / Kyoto University / DFAM
2

Towards the Understanding of Sample Efficient Reinforcement Learning Algorithms

Xu, Tengyu 02 September 2022 (has links)
No description available.
3

Model-based Residual Policy Learning for Sample Efficient Mobile Network Optimization / Modell-baserad residual-policyinlärning för dataeffektiv optimering av mobila nätverk

Eriksson Möllerstedt, Viktor January 2022 (has links)
Reinforcement learning is a powerful tool which enables an agent to learn how to control complex systems. However, during the early phases of training, the performance is often poor. Increasing sample efficiency means that fewer interactions with the environment are necessary before achieving good performance, minimizing risk and cost in real world deployment or saving simulation time. We present a novel reinforcement learning method, which we call Model-based Residual Policy Learning, that learns a residual to an existing expert policy using a model-based approach for maximum sample efficiency. We compared its sample efficiency to several methods, including a state-of-the-art model-free method. The comparisons were done on two tasks: coverage and capacity optimization via antenna tilt control for telecommunication networks, as well as a common robotics benchmark task. Performance was measured as the mean episodic reward collected during training. In the coverage and capacity optimization task, the reward signal was a sum of the log reference signal received power, throughput, and signal to interference plus noise ratio averaged across users in the cells. Our method was more sample efficient than the baselines across the board. The sample efficiency was especially good for the coverage and capacity optimization task. We also found that using an expert policy helped to maintain a good initial performance. In the ablation studies of the two components of our method, the complete method achieved the highest sample efficiency in the majority of the experiments. / Förstärkande inlärning är ett kraftfullt verktyg för att lära en agent att kontrollera komplexa system. Dock så är prestandan oftast dålig i början av träningen. Med att öka dataeffektiviteten menar vi att färre interaktioner med omgivningen är nödvändiga innan en bra prestanda uppnås, vilket minimerar risk och kostnad vid användning i verkligheten, eller minskar simuleringstiden. Vi presenterar en ny metod för förstärkande inlärning vilken vi kallar Modell-baserad residual-policyinlärning, som tränar en korrektionsterm till en expert-policy med hjälp av ett modell-baserat tillvägagångssätt för maximal dataeffektivitet. Vi jämförde dess dataeffektivitet med ett flertal metoder, bland annat en av de främsta modell-fria metoderna. Jämförelsen gjordes på två problem; optimering av täckning och kapacitet för telekommunikationsnätverk via styrning av antennernas nedåtlutning, samt ett vanligt förekommande testproblem inom robotik. Prestandan mättes med den genomsnittliga belöningen per episod insamlad av agenten under träningsprocessen. I täckning och kapacitet optimeringsproblemet så definierade vi belöningssignalen som summan av medelvärdet av logaritmen av den mottagna referenssignalens styrka (RSRP), dataöverföringshastigheten (throughput) och kvoten mellan signal och interferens plus brus (SINR) över antalet användare i cellerna. Vår metod var mer dataeffektiv än de som vi jämförde med i samtliga experiment. Dataeffektiviteten var särskilt hög för optimering av täckning och kapacitet. Vi fann även att användningen av en expert-policy hjälpte till att bibehålla en bra tidig prestanda. En ablationsstudie av vår metods två komponenter visade att den fullständiga metoden hade bäst dataeffektivitet i majoriteten av experimenten.
4

On sample efficiency and systematic generalization of grounded language understanding with deep learning

Bahdanau, Dzmitry 01 1900 (has links)
En utilisant la méthodologie de l'apprentissage profond qui préconise de s'appuyer davantage sur des données et des modèles neuronaux flexibles plutôt que sur les connaissances de l'expert dans le domaine, la communauté de recherche a récemment réalisé des progrès remarquables dans la compréhension et la génération du langue naturel. Néanmoins, il reste difficile de savoir si une simple extension des méthodes d'apprentissage profond existantes sera suffisante pour atteindre l'objectif d'utiliser le langage naturel pour l'interaction homme-machine. Nous nous concentrons sur deux aspects connexes dans lesquels les méthodes actuelles semblent nécessiter des améliorations majeures. Le premier de ces aspects est l'inefficacité statistique des systèmes d'apprentissage profond: ils sont connus pour nécessiter de grandes quantités de données pour bien fonctionner. Le deuxième aspect est leur capacité limitée à généraliser systématiquement, à savoir à comprendre le langage dans des situations où la distribution des données change mais les principes de syntaxe et de sémantique restent les mêmes. Dans cette thèse, nous présentons quatre études de cas dans lesquelles nous cherchons à apporter plus de clarté concernant l'efficacité statistique susmentionnée et les aspects de généralisation systématique des approches d'apprentissage profond de la compréhension des langues, ainsi qu'à faciliter la poursuite des travaux sur ces sujets. Afin de séparer le problème de la représentation des connaissances du monde réel du problème de l'apprentissage d'une langue, nous menons toutes ces études en utilisant des langages synthétiques ancrés dans des environnements visuels simples. Dans le premier article, nous étudions comment former les agents à suivre des instructions compositionnelles dans des environnements avec une forme de supervision restreinte. À savoir pour chaque instruction et configuration initiale de l'environnement, nous ne fournissons qu'un état cible au lieu d'une trajectoire complète avec des actions à toutes les étapes. Nous adaptons les méthodes d'apprentissage adversariel par imitation à ce paramètre et démontrons qu'une telle forme restreinte de données est suffisante pour apprendre les significations compositionelles des instructions. Notre deuxième article se concentre également sur des agents qui apprennent à exécuter des instructions. Nous développons la plateforme BabyAI pour faciliter des études plus approfondies et plus rigoureuses de ce cadre d'apprentissage. La plateforme fournit une langue BabyAI compositionnelle avec $10 ^ {19}$ instructions, dont la sémantique est précisément définie dans un environnement partiellement observable. Nous rapportons des résultats de référence sur la quantité de supervision nécessaire pour enseigner à l'agent certains sous-ensembles de la langue BabyAI avec différentes méthodes de formation, telles que l'apprentissage par renforcement et l'apprentissage par imitation. Dans le troisième article, nous étudions la généralisation systématique des modèles de réponse visuelle aux questions (VQA). Dans le scénario VQA, le système doit répondre aux questions compositionelles sur les images. Nous construisons un ensemble de données de questions spatiales sur les paires d'objets et évaluons la performance des différents modèles sur les questions concernant les paires d'objets qui ne se sont jamais produites dans la même question dans la distribution d'entraînement. Nous montrons que les modèles dans lesquels les significations des mots sont représentés par des modules séparés qui effectuent des calculs indépendants généralisent beaucoup mieux que les modèles dont la conception n'est pas explicitement modulaire. Cependant, les modèles modulaires ne généralisent bien que lorsque les modules sont connectés dans une disposition appropriée, et nos expériences mettent en évidence les défis de l'apprentissage de la disposition par un apprentissage de bout en bout sur la distribution d'entraînement. Dans notre quatrième et dernier article, nous étudions également la généralisation des modèles VQA à des questions en dehors de la distribution d'entraînement, mais cette fois en utilisant le jeu de données CLEVR, utilisé pour les questions complexes sur des scènes rendues en 3D. Nous générons de nouvelles questions de type CLEVR en utilisant des références basées sur la similitude (par exemple `` la balle qui a la même couleur que ... '') dans des contextes qui se produisent dans les questions CLEVR mais uniquement avec des références basées sur la localisation (par exemple `` le balle qui est à gauche de ... ''). Nous analysons la généralisation avec zéro ou quelques exemples de CLOSURE après un entraînement sur CLEVR pour un certain nombre de modèles existants ainsi qu'un nouveau modèle. / By using the methodology of deep learning that advocates relying more on data and flexible neural models rather than on the expert's knowledge of the domain, the research community has recently achieved remarkable progress in natural language understanding and generation. Nevertheless, it remains unclear whether simply scaling up existing deep learning methods will be sufficient to achieve the goal of using natural language for human-computer interaction. We focus on two related aspects in which current methods appear to require major improvements. The first such aspect is the data inefficiency of deep learning systems: they are known to require extreme amounts of data to perform well. The second aspect is their limited ability to generalize systematically, namely to understand language in situations when the data distribution changes yet the principles of syntax and semantics remain the same. In this thesis, we present four case studies in which we seek to provide more clarity regarding the aforementioned data efficiency and systematic generalization aspects of deep learning approaches to language understanding, as well as to facilitate further work on these topics. In order to separate the problem of representing open-ended real-world knowledge from the problem of core language learning, we conduct all these studies using synthetic languages that are grounded in simple visual environments. In the first article, we study how to train agents to follow compositional instructions in environments with a restricted form of supervision. Namely for every instruction and initial environment configuration we only provide a goal-state instead of a complete trajectory with actions at all steps. We adapt adversarial imitation learning methods to this setting and demonstrate that such a restricted form of data is sufficient to learn compositional meanings of the instructions. Our second article also focuses on instruction following. We develop the BabyAI platform to facilitate further, more extensive and rigorous studies of this setup. The platform features a compositional Baby language with $10^{19}$ instructions, whose semantics is precisely defined in a partially-observable gridworld environment. We report baseline results on how much supervision is required to teach the agent certain subsets of Baby language with different training methods, such as reinforcement learning and imitation learning. In the third article we study systematic generalization of visual question answering (VQA) models. In the VQA setting the system must answer compositional questions about images. We construct a dataset of spatial questions about object pairs and evaluate how well different models perform on questions about pairs of objects that never occured in the same question in the training distribution. We show that models in which word meanings are represented by separate modules that perform independent computation generalize much better than models whose design is not explicitly modular. The modular models, however, generalize well only when the modules are connected in an appropriate layout, and our experiments highlight the challenges of learning the layout by end-to-end learning on the training distribution. In our fourth and final article we also study generalization of VQA models to questions outside of the training distribution, but this time using the popular CLEVR dataset of complex questions about 3D-rendered scenes as the platform. We generate novel CLEVR-like questions by using similarity-based references (e.g. ``the ball that has the same color as ...'') in contexts that occur in CLEVR questions but only with location-based references (e.g. ``the ball that is to the left of ...''). We analyze zero- and few- shot generalization to CLOSURE after training on CLEVR for a number of existing models as well as a novel one.

Page generated in 0.0607 seconds