Efficient imitation learning and inverse reinforcement learning with application to navigation in human environments

A key skill for mobile robots is the ability to navigate efficiently through their environment. In the case of social or assistive robots, this involves navigating through human crowds. Typical performance criteria, such as reaching the goal using the shortest path, are not appropriate in such environments, where it is more important for the robot to move in a socially adaptive manner such as respecting comfort zones of the pedestrians. This thesis investigates the Learning from Demonstration framework to address the socially adaptive path planning problem. Learning from Demonstration is a practical framework for learning complex policies using demonstration trajectories produced by an expert. We propose two approaches based on Learning from Demonstrations. First approach is based on Inverse Reinforcement Learning, in which we compactly represent the socially adaptive path planning behaviours as a cost function that we learn. The second approach is based on imitation learning, in which we use supervised learning to learn such behaviours, and then provide theoretical guarantees on its performance. We evaluate our approach by deploying it on a real robotic wheelchair platform in various scenarios, and comparing the robot trajectories to human trajectories. / Une compétence essentielle au bon fonctionnement des robots mobiles est la capacité à naviguer efficacement dans leur environnement. Ainsi, pour les robots sociaux ou d'assistance, il est essentiel de pouvoir naviguer parmi des foules humaines. Les critres de performance typiques, tels qu'atteindre un endroit ciblé par le chemin le plus court, ne sont pas appropriés dans de tels environnements, où il est plutôt important de se déplacer d'une manire socialement adaptée en respectant, par exemple, les zones de confort des piétons. Cette thèse examine un système d'apprentissage par démonstration ayant pour but de résoudre le problème de planification de trajectoire adaptée à un environment humain. L'apprentissage par démonstration est un cadre pratique permettant l'acquisition de controlleurs complexes en utilisant des trajectoires de démonstration provenant d'un expert. Nous proposons deux approches basées sur l'apprentissage par démonstration. La première approche est basée sur l'apprentissage par renforcement inverse, dans lequel nous représentons de façon compacte les comportements de planification de trajectoire socialement adaptative en fonction des cots appris. La deuxième approche est fondée sur l'apprentissage par imitation, où nous utilisons l'apprentissage supervisé pour aquérir ces comportements, et fournissons subséquemment des garanties théoriques sur sa performance. Nous évaluons notre approche en la déployant sur un véritable fauteuil roulant robotisé dans différents scénarios et la comparons à des trajectoires humaines.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.121555
Date January 2014
CreatorsKim, Beomjoon
ContributorsJoelle Pineau (Internal/Supervisor)
PublisherMcGill University
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formatapplication/pdf
CoverageMaster of Science (School of Computer Science)
RightsAll items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.
RelationElectronically-submitted theses

Page generated in 0.0022 seconds