Spelling suggestions: "subject:"feedbacks évaluatif"" "subject:"feedbacks évaluations""
1 |
Shaping robot behaviour with unlabeled human instructions / Façonnage de comportement robotique basé sur des signaux instructifs non labelliséesNajar, Anis 30 March 2017 (has links)
La plupart des systèmes d'apprentissage interactifs actuels s'appuient sur des protocoles prédéfinis qui peuvent être contraignants pour l'utilisateur. Cette thèse aborde le problème de l'interprétation des instructions, afin de relâcher la contrainte de prédéterminer leurs significations. Nous proposons un système permettant à un humain de guider l'apprentissage d'un robot, à travers des instructions non labellisées. Notre approche consiste à ancrer la signification des signaux instructifs dans le processus d'apprentissage de la tâche et à les utiliser simultanément pour guider l'apprentissage. Cette approche offre plus de liberté à l'humain dans le choix des signaux qu'il peut utiliser, et permet de réduire les efforts d'ingénierie en supprimant la nécessité d'encoder la signification de chaque signal instructif.Nous implémentons notre système sous la forme d'une architecture modulaire, appelée TICS, qui permet de combiner différentes sources d'information: une fonction de récompense, du feedback évaluatif et des instructions non labellisées. Cela offre une plus grande souplesse dans l'apprentissage, en permettant à l'utilisateur de choisir entre différents modes d'apprentissage. Nous proposons plusieurs méthodes pour interpréter les instructions, et une nouvelle méthode pour combiner les feedbacks évaluatifs avec une fonction de récompense prédéfinie.Nous évaluons notre système à travers une série d'expériences, réalisées à la fois en simulation et avec de vrais robots. Les résultats expérimentaux démontrent l'efficacité de notre système pour accélérer le processus d'apprentissage et pour réduire le nombre d'interactions avec l'utilisateur. / Most of current interactive learning systems rely on predefined protocols that constrain the interaction with the user. Relaxing the constraints of interaction protocols can therefore improve the usability of these systems.This thesis tackles the question of interpreting human instructions, in order to relax the constraints about predetermining their meanings. We propose a framework that enables a human teacher to shape a robot behaviour, by interactively providing it with unlabeled instructions. Our approach consists in grounding the meaning of instruction signals in the task learning process, and using them simultaneously for guiding the latter. This approach has a two-fold advantage. First, it provides more freedom to the teacher in choosing his preferred signals. Second, it reduces the required engineering efforts, by removing the necessity to encode the meaning of each instruction signal. We implement our framework as a modular architecture, named TICS, that offers the possibility to combine different information sources: a predefined reward function, evaluative feedback and unlabeled instructions. This allows for more flexibility in the teaching process, by enabling the teacher to switch between different learning modes. Particularly, we propose several methods for interpreting instructions, and a new method for combining evaluative feedback with a predefined reward function. We evaluate our framework through a series of experiments, performed both in simulation and with real robots. The experimental results demonstrate the effectiveness of our framework in accelerating the task learning process, and in reducing the number of required interactions with the teacher.
|
Page generated in 0.0383 seconds