Cette thèse s'intéresse aux mécanismes permettant de faciliter l'acquisition autonome de comportements chez les êtres vivants et propose d'utiliser ces mécanismes dans le cadre de tâches robotiques. Des réseaux de neurones artificiels sont utilisés pour modéliser certaines structures cérébrales, à la fois afin de mieux comprendre le fonctionnement de ces structures dans le cerveau des mammifères et pour obtenir des algorithmes robustes et adaptatifs de contrôle en robotique.Les travaux présentés se basent sur un modèle de l'hippocampe permettant d'apprendre des relations temporelles entre des événements perceptifs. Les neurones qui forment le substrat de cet apprentissage, appelés cellules de transition, permettent de faire des prédictions sur les événements futurs que le robot pourrait rencontrer. Ces transitions servent de support à la construction d'une carte cognitive, située dans le cortex préfrontal et/ou pariétal. Cette carte peut être apprise lors de l'exploration d'un environnement inconnu par un robot mobile et ensuite utilisée pour planifier des chemins lui permettant de rejoindre un ou plusieurs buts.Outre leur utilisation pour la construction d'une carte cognitive, les cellules de transition servent de base à la conception d'un modèle d'apprentissage par renforcement. Une implémentation neuronale de l'algorithme de Q-learning, utilisant les transitions, est réalisée de manière biologiquement plausible en s'inspirant des ganglions de la base. Cette architecture fournit une stratégie de navigation alternative à la planification par carte cognitive, avec un apprentissage plus lent, et correspondant à une stratégie automatique de bas-niveau. Des expériences où les deux stratégies sont utilisées en coopération sont réalisées et des lésions du cortex préfrontal et des ganglions de la base permettent de reproduire des résultats expérimentaux obtenus chez les rats.Les cellules de transition peuvent apprendre des relations temporelles précises permettant de prédire l'instant où devrait survenir un événement. Dans un modèle des interactions entre l'hippocampe et le cortex préfrontal, nous montrons comment ces prédictions peuvent expliquer certains enregistrements in-vivo dans ces structures cérébrales, notamment lorsqu'un rat réalise une tâche durant laquelle il doit rester immobile pendant 2 secondes sur un lieu but pour obtenir une récompense. L'apprentissage des informations temporelles provenant de l'environnement et du comportement permet de détecter des régularités. A l'opposé, l'absence d'un événement prédit peut signifier un échec du comportement du robot, qui peut être détecté et utilisé pour adapter son comportement en conséquence. Un système de détection de l'échec est alors développé, tirant parti des prédictions temporelles fournies par l'hippocampe et des interactions entre les aspects de modulation comportementale du cortex préfrontal et d'apprentissage par renforcement dans les ganglions de la base. Plusieurs expériences robotiques sont conduites dans lesquelles ce signal est utilisé pour moduler le comportement d'un robot, dans un premier temps de manière immédiate, afin de mettre fin aux actions du robot qui le mènent à un échec et envisager d'autres stratégies. Ce signal est ensuite utilisé de manière plus permanente pour moduler l'apprentissage des associations menant à la sélection d'une action, afin que les échecs répétés d'une action dans un contexte particulier fassent oublier cette association.Finalement, après avoir utilisé le modèle dans le cadre de la navigation, nous montrons ses capacités de généralisation en l'utilisant pour le contrôle d'un bras robotique. Ces travaux constituent une étape importante pour l'obtention d'un modèle unifié et générique permettant le contrôle de plates-formes robotiques variés et pouvant apprendre à résoudre des tâches de natures différentes. / This thesis takes interest in the mechanisms facilitating the autonomous acquisition of behaviors in animals and proposes to use these mechanisms in the frame of robotic tasks. Artificialneural networks are used to model cerebral structures, both to understand how these structureswork and to design robust and adaptive algorithms for robot control.The work presented here is based on a model of the hippocampus capable of learning thetemporal relationship between perceptive events. The neurons performing this learning, calledtransition cells, can predict which future events the robot could encounter. These transitionssupport the building of a cognitive map, located in the prefrontal and/or parietal cortex. The mapcan be learned by a mobile robot exploring an unknown environment and then be used to planpaths in order to reach one or several goals.Apart from their use in building a cognitive map, transition cells are also the basis for thedesign of a model of reinforcement learning. A biologically plausible neural implementation ofthe Q-learning algorithm, using transitions, is made by taking inspiration from the basal ganglia.This architecture provides an alternative strategy to the cognitive map planning strategy. Thereinforcement learning strategy requires a longer learning period but corresponds more to an automatic low-level behavior. Experiments are carried out with both strategies used in cooperationand lesions of the prefrontal cortex and basal ganglia allow to reproduce experimental resultsobtained with rats.Transition cells can learn temporally precise relations predicting the exact timing when anevent should be perceived. In a model of interactions between the hippocampus and prefrontalcortex, we show how these predictions can explain in-vivo recordings in these cerebral structures, in particular when rat is carrying out a task during which it must remain stationary for 2seconds on a goal location to obtain a reward. The learning of temporal information about theenvironment and the behavior of the robot allows the system to detect regularity. On the contrary, the absence of a predicted event can signal a failure in the behavior of the robot, whichcan be detected and acted upon in order to modulate the failing behavior. Consequently, a failure detection system is developed, taking advantage of the temporal predictions provided by thehippocampus and the interaction between behavior modulation functions in the prefrontal cortexand reinforcement learning in the basal ganglia. Several robotic experiments are conducted, inwhich the failure signal is used to modulate, immediately at first, the behavior of the robot inorder to stop selecting actions which lead to failures and explore other strategies. The signal isthen used in a more lasting way by modulating the learning of the associations leading to theselection of an action so that the repeted failures of an action in a particular context lead to thesuppression of this association.Finally, after having used the model in the frame of navigation, we demonstrate its generalization capabilities by using it to control a robotic arm in a trajectory planning task. This workconstitutes an important step towards obtaining a generic and unified model allowing the controlof various robotic setups and the learning of tasks of different natures.
Identifer | oai:union.ndltd.org:theses.fr/2011CERG0552 |
Date | 06 December 2011 |
Creators | Hirel, Julien |
Contributors | Cergy-Pontoise, Gaussier, Philippe |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0024 seconds