Return to search

Dyna learning with deep belief networks

The objective of reinforcement learning is to find "good" actions in an environment where feedback is provided through a numerical reward, and the current state (i.e. sensory input) is assumed to be available at each time step. The notion of "good" is defined as maximizing the expected cumulative returns over time. Sometimes it is useful to construct models of the environment to aid in solving the problem. We investigate Dyna-style reinforcement learning, a powerful approach for problems where not much real data is available. The main idea is to supplement real trajectories with simulated ones sampled from a learned model of the environment. However, in large state spaces, the problem of learning a good generative model of the environment has been open so far. We propose to use deep belief networks to learn an environment model. Deep belief networks (Hinton, 2006) are generative models that have been effective in learning the time dependency relationships among complex data. It has been shown that such models can be learned in a reasonable amount of time when they are built using energy models. We present our algorithm for using deep belief networks as a generative model for simulating the environment within the Dyna architecture, along with very promising empirical results. / L'objectif de l'apprentissage par renforcement est de choisir de bonnes actions dansun environnement où les informations sont fournies par une récompense numérique, etl'état actuel (données sensorielles) est supposé être disponible à chaque pas de temps. Lanotion de "correct" est définie comme étant la maximisation des rendements attendus cumulatifsdans le temps. Il est parfois utile de construire des modèles de l'environnementpour aider à résoudre le problème. Nous étudions l'apprentissage par renforcement destyleDyna, une approche performante dans les situations où les données réelles disponiblesne sont pas nombreuses. L'idée principale est de compléter les trajectoires réelles aveccelles simulées échantillonnées partir d'un modèle appri de l'environnement. Toutefois,dans les domaines à plusieurs états, le problème de l'apprentissage d'un bon modèlegénératif de l'environnement est jusqu'à présent resté ouvert. Nous proposons d'utiliserles réseaux profonds de croyance pour apprendre un modèle de l'environnement. Lesréseaux de croyance profonds (Hinton, 2006) sont des modèles génératifs qui sont efficaces pourl'apprentissage des relations de dépendance temporelle parmi des données complexes. Ila été démontré que de tels modèles peuvent être appris dans un laps de temps raisonnablequand ils sont construits en utilisant des modèles de l'énergie. Nous présentons notre algorithmepour l'utilisation des réseaux de croyance profonds en tant que modèle génératifpour simuler l'environnement dans l'architecture Dyna, ainsi que des résultats empiriquesprometteurs.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.97177
Date January 2011
CreatorsFaulkner, Ryan
ContributorsDoina Precup (Internal/Supervisor)
PublisherMcGill University
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formatapplication/pdf
CoverageMaster of Science (School of Computer Science)
RightsAll items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.
RelationElectronically-submitted theses.

Page generated in 0.0015 seconds