Global ETD Search

Return to search

Etude de l'émergence de facultés d'apprentissage fiables et prédictibles d'actions réflexes, à partir de modèles paramétriques soumis à des contraintes internes.

L'objectif à long terme de notre travail est la mise au points de techniques d'apprentissage fiables et prédictibles d'actions réflexes, dans le cadre de la robotique mobile. Ce document constitue un départ à ce projet. Dans un premier temps, nous donnons des arguments défendant l'idée que les méthodes d'apprentissage classiques ne peuvent pas, intrinsèquement, répondre à nos exigences de fiabilité et de prédictibilité. Nous pensons que la clé du problème se situe dans la manière dont la communication entre le système apprenant et son environnement est modélisée. Nous illustrons nos propos grâce à un exemple d'apprentissage par renforcement. Nous présentons une démarche formalisée dans laquelle la communication est une interaction, au sens physique du terme. Le système y est soumis à deux forces: la réaction du système est due à la fois à l'action de l'environnement et au maintient de contraintes internes. L'apprentissage devient une propriété émergente d'une suite de réactions du système, dans des cas d'interactions favorables. L'ensemble des évolutions possibles du système est déduit par le calcul, en se basant uniquement (sans autre paramètre) sur la connaissance de l'interaction. Nous appliquons notre démarche à deux sous-systèmes interconnectés, dont l'objectif global est l'apprentissage d'actions réflexes. Nous prouvons que le premier possède comme propriété émergente des facultés d'apprentissage par renforcement et d'apprentissage latent fiables et prédictibles. Le deuxième, qui est ébauché, transforme un signal en une information perceptive. Il fonctionne par sélection d'hypothèses d'évolution du signal au cours du temps à partir d'une mémoire. Des contraintes internes à la mémoire déterminent les ensembles valides d'informations perceptives. Nous montrons, dans un cas simple, que ces contraintes mènent à un équivalent du théorème de Shannon sur l'échantillonnage.

[INFO] Computer Science

apprentissage par renforcement

lois de conservation

prédictibité

fiabilité

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00375023
Date	19 April 2002
Creators	Davesne, Frédéric
Publisher	Université d'Evry-Val d'Essonne
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0052 seconds

Etude de l'émergence de facultés d'apprentissage fiables et prédictibles d'actions réflexes, à partir de modèles paramétriques soumis à des contraintes internes.

Description

Links & Downloads

Tags

Additional Fields