Les défis pour voir des robots opérant dans l'environnement de tous les jours des humains et sur unelongue durée soulignent l'importance de leur adaptation aux changements qui peuvent être imprévisiblesau moment de leur construction. Ils doivent être capable de savoir quelles parties échantillonner, et quelstypes de compétences il a intérêt à acquérir. Une manière de collecter des données est de décider par soi-même où explorer. Une autre manière est de se référer à un mentor. Nous appelons ces deux manièresde collecter des données des modes d'échantillonnage. Le premier mode d'échantillonnage correspondà des algorithmes développés dans la littérature pour automatiquement pousser l'agent vers des partiesintéressantes de l'environnement ou vers des types de compétences utiles. De tels algorithmes sont appelésdes algorithmes de curiosité artificielle ou motivation intrinsèque. Le deuxième mode correspond au guidagesocial ou l'imitation, où un partenaire humain indique où explorer et où ne pas explorer.Nous avons construit une architecture algorithmique intrinsèquement motivée pour apprendre commentproduire par ses actions des effets et conséquences variées. Il apprend de manière active et en ligne encollectant des données qu'il choisit en utilisant plusieurs modes d'échantillonnage. Au niveau du metaapprentissage, il apprend de manière active quelle stratégie d'échantillonnage est plus efficace pour améliorersa compétence et généraliser à partir de son expérience à un grand éventail d'effets. Par apprentissage parinteraction, il acquiert de multiples compétences de manière structurée, en découvrant par lui-même lesséquences développementale.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00977385 |
Date | 27 November 2013 |
Creators | Nguyen, Sao Mai |
Publisher | Université Sciences et Technologies - Bordeaux I |
Source Sets | CCSD theses-EN-ligne, France |
Language | English |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0019 seconds