Global ETD Search

Return to search

Shaping robot behaviour with unlabeled human instructions / Façonnage de comportement robotique basé sur des signaux instructifs non labellisées

La plupart des systèmes d'apprentissage interactifs actuels s'appuient sur des protocoles prédéfinis qui peuvent être contraignants pour l'utilisateur. Cette thèse aborde le problème de l'interprétation des instructions, afin de relâcher la contrainte de prédéterminer leurs significations. Nous proposons un système permettant à un humain de guider l'apprentissage d'un robot, à travers des instructions non labellisées. Notre approche consiste à ancrer la signification des signaux instructifs dans le processus d'apprentissage de la tâche et à les utiliser simultanément pour guider l'apprentissage. Cette approche offre plus de liberté à l'humain dans le choix des signaux qu'il peut utiliser, et permet de réduire les efforts d'ingénierie en supprimant la nécessité d'encoder la signification de chaque signal instructif.Nous implémentons notre système sous la forme d'une architecture modulaire, appelée TICS, qui permet de combiner différentes sources d'information: une fonction de récompense, du feedback évaluatif et des instructions non labellisées. Cela offre une plus grande souplesse dans l'apprentissage, en permettant à l'utilisateur de choisir entre différents modes d'apprentissage. Nous proposons plusieurs méthodes pour interpréter les instructions, et une nouvelle méthode pour combiner les feedbacks évaluatifs avec une fonction de récompense prédéfinie.Nous évaluons notre système à travers une série d'expériences, réalisées à la fois en simulation et avec de vrais robots. Les résultats expérimentaux démontrent l'efficacité de notre système pour accélérer le processus d'apprentissage et pour réduire le nombre d'interactions avec l'utilisateur. / Most of current interactive learning systems rely on predeﬁned protocols that constrain the interaction with the user. Relaxing the constraints of interaction protocols can therefore improve the usability of these systems.This thesis tackles the question of interpreting human instructions, in order to relax the constraints about predetermining their meanings. We propose a framework that enables a human teacher to shape a robot behaviour, by interactively providing it with unlabeled instructions. Our approach consists in grounding the meaning of instruction signals in the task learning process, and using them simultaneously for guiding the latter. This approach has a two-fold advantage. First, it provides more freedom to the teacher in choosing his preferred signals. Second, it reduces the required engineering efforts, by removing the necessity to encode the meaning of each instruction signal. We implement our framework as a modular architecture, named TICS, that offers the possibility to combine different information sources: a predeﬁned reward function, evaluative feedback and unlabeled instructions. This allows for more ﬂexibility in the teaching process, by enabling the teacher to switch between different learning modes. Particularly, we propose several methods for interpreting instructions, and a new method for combining evaluative feedback with a predeﬁned reward function. We evaluate our framework through a series of experiments, performed both in simulation and with real robots. The experimental results demonstrate the effectiveness of our framework in accelerating the task learning process, and in reducing the number of required interactions with the teacher.

http://www.theses.fr/2017PA066152

Apprentissage interactif

Interaction homme-robot

Façonnage

Feedbacks évaluatifs

Instructions non labellisées

Apprentissage par renforcement

Interactive learning systems

Evaluative feedback

Reinforcement learning

629.8

Identifer	oai:union.ndltd.org:theses.fr/2017PA066152
Date	30 March 2017
Creators	Najar, Anis
Contributors	Paris 6, Chetouani, Mohamed, Sigaud, Olivier
Source Sets	Dépôt national des thèses électroniques françaises
Language	English
Detected Language	French
Type	Electronic Thesis or Dissertation, Text

Page generated in 0.0024 seconds

Shaping robot behaviour with unlabeled human instructions / Façonnage de comportement robotique basé sur des signaux instructifs non labellisées

Description

Links & Downloads

Tags

Additional Fields