Global ETD Search

1	Programmation et apprentissage bayésien de comportements pour personnages synthétiques -- application aux personnages de jeux vidéos Le Hy, Ronan 06 April 2007 (has links) (PDF) Nous nous intéressons à l'acquisition de comportements par des personnages autonomes (bots) évoluant dans des mondes virtuels, en prenant comme exemple les jeux vidéos. Deux objectifs essentiels sont poursuivis :<br>- réduire le temps et la difficulté de programmation pour le développeur, qui doit peupler un monde virtuel de nombreux personnages autonomes ;<br>- offrir au joueur une nouvelle possibilité : apprendre à des bots comment jouer. Alors que les environnements virtuels sont complexes, et que les comportements des bots doivent être riches, le défi est d'offrir des méthodes simples de programmation et d'apprentissage. Celles- ci doivent de plus se plier à des contraintes importantes sur la mémoire et le temps de calcul disponibles. Nous commençons par présenter les méthodes actuelles de programmation de tels personnages par une étude de cas avec Unreal Tournament, un jeu de combat à la première personne. Dans ce jeu, les comportements s'appuient sur un langage de programmation spécialisé pour la description de machines d'états finis. Cette méthodologie est caractérisée par une grande flexibilité, une faible formalisation et une grande complexité. Elle se prête difficilement à l'apprentissage. Nous proposons une méthode alternative de construction de comportements basée sur la programmation bayésienne, un formalisme de description de modèles probabilistes. D'une part, cette méthode permet de maîtriser la complexité de programmation de comportements composés. D'autre, part elle sépare clairement le travail de programmation de celui d'ajustement d'un comportement : ce dernier peut être fait par un non-informaticien. Techniquement cette méthode repose essentiellement sur deux innovations :<br>- Une technique générique de définition de tâches élémentaires, appelée fusion par cohé- rence améliorée. Elle permet de fusionner un nombre important de consignes exprimées comme des tableaux de valeurs définissant des distributions de probabilités. Chacune de ces consignes peut être soit prescriptive (que faire) soit proscriptive (que ne pas faire).<br>- Une technique de mise en séquence de ces tâches élémentaires, qui permet de construire le comportement complet du personnage à partir des tâches élémentaires précédentes, appelée programmation inverse. Elle repose sur un modèle de Markov caché spécialisé, qui peut lui aussi être vu comme une machine d'états finis mais dont la spécification est plus condensée qu'avec un langage de programmation classique. 4 Contrairement à l'approche classique, cette méthode de construction de comportement permet facilement l'apprentissage par démonstration. Un bot apprend son comportement en observant un humain qui joue. Les tâches élémentaires, comme les séquences, peuvent ainsi être apprises. Pour les tâches élémentaires, l'identification des paramètres se fait directement. Pour les séquences, il est nécessaire reconnaître les « intentions » du joueur (les tâches élémentaires) à partir des actions de son avatar. Cela est rendu possible en utilisant soit une méthode de reconnaissance à base d'heuristiques spécifiques, soit une méthode de reconnaissance bayésienne basée sur l'algorithme de Baum-Welch incrémental. programmation bayésienne jeux vidéos fusion par cohérence améliorée programmation inverse apprentissage par démonstration
2	Un robot curieux pour l'apprentissage actif par babillage d'objectifs : choisir de manière stratégique quoi, comment, quand et de qui apprendre Nguyen, Sao Mai 27 November 2013 (has links) (PDF) Les déﬁs pour voir des robots opérant dans l'environnement de tous les jours des humains et sur unelongue durée soulignent l'importance de leur adaptation aux changements qui peuvent être imprévisiblesau moment de leur construction. Ils doivent être capable de savoir quelles parties échantillonner, et quelstypes de compétences il a intérêt à acquérir. Une manière de collecter des données est de décider par soi-même où explorer. Une autre manière est de se référer à un mentor. Nous appelons ces deux manièresde collecter des données des modes d'échantillonnage. Le premier mode d'échantillonnage correspondà des algorithmes développés dans la littérature pour automatiquement pousser l'agent vers des partiesintéressantes de l'environnement ou vers des types de compétences utiles. De tels algorithmes sont appelésdes algorithmes de curiosité artiﬁcielle ou motivation intrinsèque. Le deuxième mode correspond au guidagesocial ou l'imitation, où un partenaire humain indique où explorer et où ne pas explorer.Nous avons construit une architecture algorithmique intrinsèquement motivée pour apprendre commentproduire par ses actions des eﬀets et conséquences variées. Il apprend de manière active et en ligne encollectant des données qu'il choisit en utilisant plusieurs modes d'échantillonnage. Au niveau du metaapprentissage, il apprend de manière active quelle stratégie d'échantillonnage est plus eﬃcace pour améliorersa compétence et généraliser à partir de son expérience à un grand éventail d'eﬀets. Par apprentissage parinteraction, il acquiert de multiples compétences de manière structurée, en découvrant par lui-même lesséquences développementale. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Apprentissage actif Apprentissage interactif Apprentissage par imitation Exploration orientée par objectifs Collecte de données Apprentissage par démonstration
3	Un robot curieux pour l’apprentissage actif par babillage d’objectifs : choisir de manière stratégique quoi, comment, quand et de qui apprendre / A Curious Robot Learner for Interactive Goal-Babbling : Strategically Choosing What, How, When and from Whom to Learn Nguyen, Sao Mai 27 November 2013 (has links) Les déﬁs pour voir des robots opérant dans l’environnement de tous les jours des humains et sur unelongue durée soulignent l’importance de leur adaptation aux changements qui peuvent être imprévisiblesau moment de leur construction. Ils doivent être capable de savoir quelles parties échantillonner, et quelstypes de compétences il a intérêt à acquérir. Une manière de collecter des données est de décider par soi-même où explorer. Une autre manière est de se référer à un mentor. Nous appelons ces deux manièresde collecter des données des modes d’échantillonnage. Le premier mode d’échantillonnage correspondà des algorithmes développés dans la littérature pour automatiquement pousser l’agent vers des partiesintéressantes de l’environnement ou vers des types de compétences utiles. De tels algorithmes sont appelésdes algorithmes de curiosité artiﬁcielle ou motivation intrinsèque. Le deuxième mode correspond au guidagesocial ou l’imitation, où un partenaire humain indique où explorer et où ne pas explorer.Nous avons construit une architecture algorithmique intrinsèquement motivée pour apprendre commentproduire par ses actions des eﬀets et conséquences variées. Il apprend de manière active et en ligne encollectant des données qu’il choisit en utilisant plusieurs modes d’échantillonnage. Au niveau du metaapprentissage, il apprend de manière active quelle stratégie d’échantillonnage est plus eﬃcace pour améliorersa compétence et généraliser à partir de son expérience à un grand éventail d’eﬀets. Par apprentissage parinteraction, il acquiert de multiples compétences de manière structurée, en découvrant par lui-même lesséquences développementale. / The challenges posed by robots operating in human environments on a daily basis and in the long-termpoint out the importance of adaptivity to changes which can be unforeseen at design time. The robot mustlearn continuously in an open-ended, non-stationary and high dimensional space. It must be able to knowwhich parts to sample and what kind of skills are interesting to learn. One way is to decide what to exploreby oneself. Another way is to refer to a mentor. We name these two ways of collecting data sampling modes.The ﬁrst sampling mode correspond to algorithms developed in the literature in order to autonomously drivethe robot in interesting parts of the environment or useful kinds of skills. Such algorithms are called artiﬁcialcuriosity or intrinsic motivation algorithms. The second sampling mode correspond to social guidance orimitation where the teacher indicates where to explore as well as where not to explore. Starting fromthe study of the relationships between these two concurrent methods, we ended up building an algorithmicarchitecture with a hierarchical learning structure, called Socially Guided Intrinsic Motivation (SGIM).We have built an intrinsically motivated active learner which learns how its actions can produce variedconsequences or outcomes. It actively learns online by sampling data which it chooses by using severalsampling modes. On the meta-level, it actively learns which data collection strategy is most eﬃcient forimproving its competence and generalising from its experience to a wide variety of outcomes. The interactivelearner thus learns multiple tasks in a structured manner, discovering by itself developmental sequences. Apprentissage actif Apprentissage interactif Apprentissage par imitation Exploration orientée par objectifs Collecte de données Apprentissage par démonstration Active learning Interactive learning Imitation learning Goal-oriented exploration Data-collection, exploration Programming by demonstration
4	A Curious Robot Learner for Interactive Goal-Babbling : Strategically Choosing What, How, When and from Whom to Learn. Nguyen, Sao Mai 27 November 2013 (has links) (PDF) Les défis pour voir des robots opérant dans l'environnement de tous les jours des humains et sur une longue durée soulignent l'importance de leur adaptation aux changements qui peuvent être imprévisibles au moment de leur construction. C'est pourquoi, les robots doivent être capables d'apprendre continuellement dans des espaces infinis, non-stationnaires et de grande dimension. Il leur est impossible d'explorer tout son environnement pour apprendre pendant la durée limitée de sa vie. Pour être utile et acquérir des compétences, le robot doit au contraire être capable de savoir quelles parties échantillonner, et quels types de compétences il a intérêt à acquérir. Une manière de collecter des données est de décider par soi-même où explorer. Une autre manière est de se référer à un mentor. Nous appelons ces deux manières de collecter des données des modes d'échantillonnage. Le premier mode d'échantillonnage correspond à des algorithmes développés dans la littérature pour automatiquement pousser l'agent vers des parties intéressantes de l'environnement ou vers des types de compétences utiles. De tels algorithmes sont appelés des algorithmes de curiosité artificielle ou motivation intrinsèque. Le deuxième mode d'échantillonnage correspond au guidage social ou l'imitation, où un partenaire humain indique où explorer et où ne pas explorer. D'une étude des liens entre ces deux méthodes concurrentes, nous avons finalement construit une architecture algorithmique où les deux modes s'entremêlent en un structure hiérarchique, appelée Socially Guided Intrinsic Motivation (SGIM). [INFO:INFO_RB] Computer Science/Robotics [INFO:INFO_RB] Informatique/Robotique apprentissage actif apprentissage intéractif apprentissage par imitation exploration orientée par objectifs collecte de données exploration apprentissage par démonstration

1

Page generated in 0.1616 seconds