Global ETD Search

1	Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur plan Laurent, Guillaume 18 December 2002 (has links) (PDF) En microrobotique, la commande des systèmes est délicate car les phénomènes physiques liés à l'échelle microscopique sont complexes. Les méthodes dites d'apprentissage par renforcement constituent une approche intéressante car elles permettent d'établir une stratégie de commande sans connaissance \emph(a priori) sur le système. Au vu des grandes dimensions des espaces d'états des systèmes étudiés, nous avons développé une approche parallèle qui s'inspire à la fois des architectures comportementales et de l'apprentissage par renforcement. Cette architecture, basée sur la parallélisation de l'algorithme du Q-Learning, permet de réduire la complexité du système et d'accélérer l'apprentissage. Sur une application simple de labyrinthe, les résultats obtenus sont bons mais le temps d'apprentissage est trop long pour envisager la commande d'un système réel. Le Q-Learning a alors été remplacé par l'algorithme du Dyna-Q que nous avons adapté à la commande de systèmes non déterministes en ajoutant un historique des dernières transitions. Cette architecture, baptisée Dyna-Q parallèle, permet non seulement d'améliorer la vitesse de convergence, mais aussi de trouver de meilleures stratégies de contrôle. Les expérimentations sur le système de manipulation montrent que l'apprentissage est alors possible en temps réel et sans utiliser de simulation. La fonction de coordination des comportements est efficace si les obstacles sont relativement éloignés les uns des autres. Si ce n'est pas le cas, cette fonction peut créer des maxima locaux qui entraînent temporairement le système dans un cycle. Nous avons donc élaboré une autre fonction de coordination qui synthétise un modèle plus global du système à partir du modèle de transition construit par le Dyna-Q. Cette nouvelle fonction de coordination permet de sortir très efficacement des maxima locaux à condition que la fonction de mise en correspondance utilisée par l'architecture soit robuste. commande par apprentissage processus décisionnels de Markov programmation dynamique apprentissage par renforcement Q-Learning Dyna-Q architecture comportementale microrobotique micromanipulation
2	Développement d'une commande à modèle partiel appris : analyse théorique et étude pratique / Development of a control law based on learned sparse model : theorical analysis and practical study Nguyen, Huu Phuc 16 December 2016 (has links) En théorie de la commande, un modèle du système est généralement utilisé pour construire la loi de commande et assurer ses performances. Les équations mathématiques qui représentent le système à contrôler sont utilisées pour assurer que le contrôleur associé va stabiliser la boucle fermée. Mais, en pratique, le système réel s’écarte du comportement théorique modélisé. Des non-linéarités ou des dynamiques rapides peuvent être négligées, les paramètres sont parfois difficiles à estimer, des perturbations non maitrisables restent non modélisées. L’approche proposée dans ce travail repose en partie sur la connaissance du système à piloter par l’utilisation d’un modèle analytique mais aussi sur l’utilisation de données expérimentales hors ligne ou en ligne. A chaque pas de temps la valeur de la commande qui amène au mieux le système vers un objectif choisi a priori, est le résultat d’un algorithme qui minimise une fonction de coût ou maximise une récompense. Au centre de la technique développée, il y a l’utilisation d’un modèle numérique de comportement du système qui se présente sous la forme d’une fonction de prédiction tabulée ayant en entrée un n-uplet de l’espace joint entrées/état ou entrées/sorties du système. Cette base de connaissance permet l’extraction d’une sous-partie de l’ensemble des possibilités des valeurs prédites à partir d’une sous-partie du vecteur d’entrée de la table. Par exemple, pour une valeur de l’état, on pourra obtenir toutes les possibilités d’états futurs à un pas de temps, fonction des valeurs applicables de commande. Basé sur des travaux antérieurs ayant montré la viabilité du concept en entrées/état, de nouveaux développements ont été proposés. Le modèle de prédiction est initialisé en utilisant au mieux la connaissance a priori du système. Il est ensuite amélioré par un algorithme d’apprentissage simple basé sur l’erreur entre données mesurées et données prédites. Deux approches sont utilisées : la première est basée sur le modèle d’état (comme dans les travaux antérieurs mais appliquée à des systèmes plus complexes), la deuxième est basée sur un modèle entrée-sortie. La valeur de commande qui permet de rapprocher au mieux la sortie prédite dans l’ensemble des possibilités atteignables de la sortie ou de l’état désiré, est trouvée par un algorithme d’optimisation. Afin de valider les différents éléments proposés, cette commande a été mise en œuvre sur différentes applications. Une expérimentation réelle sur un quadricoptère et des essais réels de suivi de trajectoire sur un véhicule électrique du laboratoire montrent sacapacité et son efficacité sur des systèmes complexes et rapides. D’autres résultats en simulation permettent d’élargir l’étude de ses performances. Dans le cadre d’un projet partenarial, l’algorithme a également montré sa capacité à servir d’estimateur d’état dans la reconstruction de la vitesse mécanique d’une machine asynchrone à partir des signaux électriques. Pour cela, la vitesse mécanique a été considérée comme l’entrée du système. / In classical control theory, the control law is generally built, based on the theoretical model of the system. That means that the mathematical equations representing the system dynamics are used to stabilize the closed loop. But in practice, the actual system differs from the theory, for example, the nonlinearity, the varied parameters and the unknown disturbances of the system. The proposed approach in this work is based on the knowledge of the plant system by using not only the analytical model but also the experimental data. The input values stabilizing the system on open loop, that minimize a cost function, for example, the distance between the desired output and the predicted output, or maximize a reward function are calculated by an optimal algorithm. The key idea of this approach is to use a numerical behavior model of the system as a prediction function on the joint state and input spaces or input-output spaces to find the controller’s output. To do this, a new non-linear control concept is proposed, based on an existing controller that uses a prediction map built on the state-space. The prediction model is initialized by using the best knowledge a priori of the system. It is then improved by using a learning algorithm based on the sensors’ data. Two types of prediction map are employed: the first one is based on the state-space model; the second one is represented by an input-output model. The output of the controller, that minimizes the error between the predicted output from the prediction model and the desired output, will be found using optimal algorithm. The application of the proposed controller has been made on various systems. Some real experiments for quadricopter, some actual tests for the electrical vehicle Zoé show its ability and efficiency to complex and fast systems. Other the results in simulation are tested in order to investigate and study the performance of the proposed controller. This approach is also used to estimate the rotor speed of the induction machine by considering the rotor speed as the input of the system. Commande par apprentissage Inversion numérique de modèle Commande en temps discret Approximation de fonction Quadricoptère Nonlinear control Learning control Numerical inversion model Function approximation Discret control

Search results

Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur plan

Développement d'une commande à modèle partiel appris : analyse théorique et étude pratique / Development of a control law based on learned sparse model : theorical analysis and practical study