Return to search

Fear prediction for training robust RL agents

Les algorithmes d’apprentissage par renforcement conditionné par les buts apprennent à
accomplir des tâches en interagissant avec leur environnement. Ce faisant, ils apprennent à
propos du monde qui les entourent de façon graduelle et adaptive. Parmi d’autres raisons,
c’est pourquoi cette branche de l’intelligence artificielle est une des avenues les plus promet-
teuses pour le contrôle des robots généralistes de demain. Cependant, la sûreté de ces algo-
rithmes de contrôle restent un champ de recherche actif. La majorité des algorithmes “d’ap-
prentissage par renforcement sûr” tâchent d’assurer la sécurité de la politique de contrôle
tant durant l’apprentissage que pendant le déploiement ou l’évaluation. Dans ce travail, nous
proposons une stratégie complémentaire.
Puisque la majorité des algorithmes de contrôle pour la robotique sont développés, entraî-
nés, et testés en simulation pour éviter d’endommager les vrais robots, nous pouvons nous
permettre d’agir de façon dangereuse dans l’environnement simulé. Nous démontrons qu’en
donnant des buts dangereux à effectuer à l’algorithme d’apprentissage durant l’apprentissage,
nous pouvons produire des populations de politiques de contrôle plus sûres au déploiement
ou à l’évaluation qu’en sélectionnant les buts avec des techniques de l’état de l’art. Pour
ce faire, nous introduisons un nouvel agent à l’entraînement de la politique de contrôle, le
“Directeur”. Le rôle du Directeur est de sélectionner des buts qui sont assez difficiles pour
aider la politique à apprendre à les résoudre sans être trop difficiles ou trop faciles. Pour
aider le Directeur dans sa tâche, nous entraînons un réseau de neurones en ligne pour prédire
sur quels buts la politique de contrôle échouera. Armé de ce “réseau de la peur” (nommé
d’après la peur de la politique de contrôle), le Directeur parviens à sélectionner les buts de
façon à ce que les politiques de contrôles finales sont plus sûres et plus performantes que
les politiques entraînées à l’aide de méthodes de l’état de l’art, ou obtiennent des métriques
semblables. De plus, les populations de politiques entraînées par le Directeur ont moins de
variance dans leur comportement, et sont plus résistantes contre des attaques d’adversaires
sur les buts qui leur sont issus. / By learning from experience, goal-conditioned reinforcement learning methods learn from
their environments gradually and adaptively. Among other reasons, this makes them a
promising direction for the generalist robots of the future. However, the safety of these goal-
conditioned RL policies is still an active area of research. The majority of “Safe Reinforce-
ment Learning” methods seek to enforce safety both during training and during deployment
and/or evaluation. In this work, we propose a complementary strategy.
Because the majority of control algorithms for robots are developed, trained, and tested in
simulation to avoid damaging the real hardware, we can afford to let the policy act in unsafe
ways in the simulated environment. We show that by tasking the learning algorithm with
unsafe goals during its training, we can produce populations of final policies that are safer at
evaluation or deployment than when trained with state-of-the-art goal-selection methods. To
do so, we introduce a new agent to the training of the policy that we call the “Director”. The
Director’s role is to select goals that are hard enough to aid the policy’s training, without
being too hard or too easy. To help the Director in its task, we train a neural network online
to predict which goals are unsafe for the current policy. Armed with this “fear network”
(named after the policy’s own fear of violating its safety conditions), the Director is able
to select training goals such that the final trained policies are safer and more performant
than policies trained on state-of-the-art goal-selection methods (or just as safe/performant).
Additionally, the populations of policies trained by the Director show decreased variance in
their behaviour, along with increased resistance to adversarial attacks on the goals issued to
them.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/28235
Date03 1900
CreatorsGauthier, Charlie
ContributorsPaull, Liam
Source SetsUniversité de Montréal
LanguageEnglish
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0019 seconds