Return to search

Planification optimiste pour systèmes déterministes / Optimistic planning for deterministic dystems

Dans le domaine de l'apprentissage par renforcement, la planification dans le cas de systèmes déterministes consiste à effectuer une recherche avant grâce à un modèle génératif du système considéré et ce pour trouver l'action à appliquer dans son état courant. Dans notre cas, cette recherche avant conduira à la construction d'un arbre des possibilités, sa racine correspondant à l'état courant du système. Dans le cas où les ressources computationnelles sont limitées et inconnues, il convient d'utiliser un algorithme cherchant à minimiser son regret. Autrement dit, un algorithme retournant une action à effectuer qui soit la plus proche possible de l'optimale en terme de qualité et en fonction des ressources computationnelles. Nous présentons l'algorithme de planification optimiste dans le cas où l'espace d'action est discret. Nous prouvons une borne inférieure et supérieure sur son regret dans le pire des cas ainsi que dans une classe particulière de problèmes. Nous présentons ensuite deux autres algorithmes inspirés de l'approche optimiste dans le cas où l'espace d'action est continu. / In the field of reinforcement learning, planning in the case of deterministic systems consists of doing a forward search using a generative model of the system so as to find the action to apply in its current state. In our case, the forward search leads us to build a look-ahead tree, its root being the current state of the system. If the computational resources are limited and unknown, we have to use an algorithm which tries to minimize its regret. In other words, an algorithm returning an action to apply which is as close as possible to the optimal one in term of quality and with respect to the computational resources used. We present the optimistic planing algorithm in the case of a discrete action space. We prove a lower and upper bound in the worst case and in a particular class of problems. Also we present two algorithms using the optimistic approach but in the case of a continuous action space.

Identiferoai:union.ndltd.org:theses.fr/2012LIL10188
Date21 June 2012
CreatorsHren, Jean-François
ContributorsLille 1, Munos, Rémi
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0015 seconds