• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Développement d'une commande à modèle partiel appris : analyse théorique et étude pratique / Development of a control law based on learned sparse model : theorical analysis and practical study

Nguyen, Huu Phuc 16 December 2016 (has links)
En théorie de la commande, un modèle du système est généralement utilisé pour construire la loi de commande et assurer ses performances. Les équations mathématiques qui représentent le système à contrôler sont utilisées pour assurer que le contrôleur associé va stabiliser la boucle fermée. Mais, en pratique, le système réel s’écarte du comportement théorique modélisé. Des non-linéarités ou des dynamiques rapides peuvent être négligées, les paramètres sont parfois difficiles à estimer, des perturbations non maitrisables restent non modélisées. L’approche proposée dans ce travail repose en partie sur la connaissance du système à piloter par l’utilisation d’un modèle analytique mais aussi sur l’utilisation de données expérimentales hors ligne ou en ligne. A chaque pas de temps la valeur de la commande qui amène au mieux le système vers un objectif choisi a priori, est le résultat d’un algorithme qui minimise une fonction de coût ou maximise une récompense. Au centre de la technique développée, il y a l’utilisation d’un modèle numérique de comportement du système qui se présente sous la forme d’une fonction de prédiction tabulée ayant en entrée un n-uplet de l’espace joint entrées/état ou entrées/sorties du système. Cette base de connaissance permet l’extraction d’une sous-partie de l’ensemble des possibilités des valeurs prédites à partir d’une sous-partie du vecteur d’entrée de la table. Par exemple, pour une valeur de l’état, on pourra obtenir toutes les possibilités d’états futurs à un pas de temps, fonction des valeurs applicables de commande. Basé sur des travaux antérieurs ayant montré la viabilité du concept en entrées/état, de nouveaux développements ont été proposés. Le modèle de prédiction est initialisé en utilisant au mieux la connaissance a priori du système. Il est ensuite amélioré par un algorithme d’apprentissage simple basé sur l’erreur entre données mesurées et données prédites. Deux approches sont utilisées : la première est basée sur le modèle d’état (comme dans les travaux antérieurs mais appliquée à des systèmes plus complexes), la deuxième est basée sur un modèle entrée-sortie. La valeur de commande qui permet de rapprocher au mieux la sortie prédite dans l’ensemble des possibilités atteignables de la sortie ou de l’état désiré, est trouvée par un algorithme d’optimisation. Afin de valider les différents éléments proposés, cette commande a été mise en œuvre sur différentes applications. Une expérimentation réelle sur un quadricoptère et des essais réels de suivi de trajectoire sur un véhicule électrique du laboratoire montrent sacapacité et son efficacité sur des systèmes complexes et rapides. D’autres résultats en simulation permettent d’élargir l’étude de ses performances. Dans le cadre d’un projet partenarial, l’algorithme a également montré sa capacité à servir d’estimateur d’état dans la reconstruction de la vitesse mécanique d’une machine asynchrone à partir des signaux électriques. Pour cela, la vitesse mécanique a été considérée comme l’entrée du système. / In classical control theory, the control law is generally built, based on the theoretical model of the system. That means that the mathematical equations representing the system dynamics are used to stabilize the closed loop. But in practice, the actual system differs from the theory, for example, the nonlinearity, the varied parameters and the unknown disturbances of the system. The proposed approach in this work is based on the knowledge of the plant system by using not only the analytical model but also the experimental data. The input values stabilizing the system on open loop, that minimize a cost function, for example, the distance between the desired output and the predicted output, or maximize a reward function are calculated by an optimal algorithm. The key idea of this approach is to use a numerical behavior model of the system as a prediction function on the joint state and input spaces or input-output spaces to find the controller’s output. To do this, a new non-linear control concept is proposed, based on an existing controller that uses a prediction map built on the state-space. The prediction model is initialized by using the best knowledge a priori of the system. It is then improved by using a learning algorithm based on the sensors’ data. Two types of prediction map are employed: the first one is based on the state-space model; the second one is represented by an input-output model. The output of the controller, that minimizes the error between the predicted output from the prediction model and the desired output, will be found using optimal algorithm. The application of the proposed controller has been made on various systems. Some real experiments for quadricopter, some actual tests for the electrical vehicle Zoé show its ability and efficiency to complex and fast systems. Other the results in simulation are tested in order to investigate and study the performance of the proposed controller. This approach is also used to estimate the rotor speed of the induction machine by considering the rotor speed as the input of the system.
2

Large state spaces and self-supervision in reinforcement learning

Touati, Ahmed 08 1900 (has links)
L'apprentissage par renforcement (RL) est un paradigme d'apprentissage orienté agent qui s'intéresse à l'apprentissage en interagissant avec un environnement incertain. Combiné à des réseaux de neurones profonds comme approximateur de fonction, l'apprentissage par renforcement profond (Deep RL) nous a permis récemment de nous attaquer à des tâches très complexes et de permettre à des agents artificiels de maîtriser des jeux classiques comme le Go, de jouer à des jeux vidéo à partir de pixels et de résoudre des tâches de contrôle robotique. Toutefois, un examen plus approfondi de ces remarquables succès empiriques révèle certaines limites fondamentales. Tout d'abord, il a été difficile de combiner les caractéristiques souhaitables des algorithmes RL, telles que l'apprentissage hors politique et en plusieurs étapes, et l'approximation de fonctions, de manière à obtenir des algorithmes stables et efficaces dans de grands espaces d'états. De plus, les algorithmes RL profonds ont tendance à être très inefficaces en raison des stratégies d'exploration-exploitation rudimentaires que ces approches emploient. Enfin, ils nécessitent une énorme quantité de données supervisées et finissent par produire un agent étroit capable de résoudre uniquement la tâche sur laquelle il est entrainé. Dans cette thèse, nous proposons de nouvelles solutions aux problèmes de l'apprentissage hors politique et du dilemme exploration-exploitation dans les grands espaces d'états, ainsi que de l'auto-supervision dans la RL. En ce qui concerne l'apprentissage hors politique, nous apportons deux contributions. Tout d'abord, pour le problème de l'évaluation des politiques, nous montrons que la combinaison des méthodes populaires d'apprentissage hors politique et à plusieurs étapes avec une paramétrisation linéaire de la fonction de valeur pourrait conduire à une instabilité indésirable, et nous dérivons une variante de ces méthodes dont la convergence est prouvée. Deuxièmement, pour l'optimisation des politiques, nous proposons de stabiliser l'étape d'amélioration des politiques par une régularisation de divergence hors politique qui contraint les distributions stationnaires d'états induites par des politiques consécutives à être proches les unes des autres. Ensuite, nous étudions l'apprentissage en ligne dans de grands espaces d'états et nous nous concentrons sur deux hypothèses structurelles pour rendre le problème traitable : les environnements lisses et linéaires. Pour les environnements lisses, nous proposons un algorithme en ligne efficace qui apprend activement un partitionnement adaptatif de l'espace commun en zoomant sur les régions les plus prometteuses et fréquemment visitées. Pour les environnements linéaires, nous étudions un cadre plus réaliste, où l'environnement peut maintenant évoluer dynamiquement et même de façon antagoniste au fil du temps, mais le changement total est toujours limité. Pour traiter ce cadre, nous proposons un algorithme en ligne efficace basé sur l'itération de valeur des moindres carrés pondérés. Il utilise des poids exponentiels pour oublier doucement les données qui sont loin dans le passé, ce qui pousse l'agent à continuer à explorer pour découvrir les changements. Enfin, au-delà du cadre classique du RL, nous considérons un agent qui interagit avec son environnement sans signal de récompense. Nous proposons d'apprendre une paire de représentations qui mettent en correspondance les paires état-action avec un certain espace latent. Pendant la phase non supervisée, ces représentations sont entraînées en utilisant des interactions sans récompense pour encoder les relations à longue portée entre les états et les actions, via une carte d'occupation prédictive. Au moment du test, lorsqu'une fonction de récompense est révélée, nous montrons que la politique optimale pour cette récompense est directement obtenue à partir de ces représentations, sans aucune planification. Il s'agit d'une étape vers la construction d'agents entièrement contrôlables. Un thème commun de la thèse est la conception d'algorithmes RL prouvables et généralisables. Dans la première et la deuxième partie, nous traitons de la généralisation dans les grands espaces d'états, soit par approximation de fonctions linéaires, soit par agrégation d'états. Dans la dernière partie, nous nous concentrons sur la généralisation sur les fonctions de récompense et nous proposons un cadre d'apprentissage non-supervisé de représentation qui est capable d'optimiser toutes les fonctions de récompense. / Reinforcement Learning (RL) is an agent-oriented learning paradigm concerned with learning by interacting with an uncertain environment. Combined with deep neural networks as function approximators, deep reinforcement learning (Deep RL) allowed recently to tackle highly complex tasks and enable artificial agents to master classic games like Go, play video games from pixels, and solve robotic control tasks. However, a closer look at these remarkable empirical successes reveals some fundamental limitations. First, it has been challenging to combine desirable features of RL algorithms, such as off-policy and multi-step learning with function approximation in a way that leads to both stable and efficient algorithms in large state spaces. Moreover, Deep RL algorithms tend to be very sample inefficient due to the rudimentary exploration-exploitation strategies these approaches employ. Finally, they require an enormous amount of supervised data and end up producing a narrow agent able to solve only the task that it was trained on. In this thesis, we propose novel solutions to the problems of off-policy learning and exploration-exploitation dilemma in large state spaces, as well as self-supervision in RL. On the topic of off-policy learning, we provide two contributions. First, for the problem of policy evaluation, we show that combining popular off-policy and multi-step learning methods with linear value function parameterization could lead to undesirable instability, and we derive a provably convergent variant of these methods. Second, for policy optimization, we propose to stabilize the policy improvement step through an off-policy divergence regularization that constrains the discounted state-action visitation induced by consecutive policies to be close to one another. Next, we study online learning in large state spaces and we focus on two structural assumptions to make the problem tractable: smooth and linear environments. For smooth environments, we propose an efficient online algorithm that actively learns an adaptive partitioning of the joint space by zooming in on more promising and frequently visited regions. For linear environments, we study a more realistic setting, where the environment is now allowed to evolve dynamically and even adversarially over time, but the total change is still bounded. To address this setting, we propose an efficient online algorithm based on weighted least squares value iteration. It uses exponential weights to smoothly forget data that are far in the past, which drives the agent to keep exploring to discover changes. Finally, beyond the classical RL setting, we consider an agent interacting with its environments without a reward signal. We propose to learn a pair of representations that map state-action pairs to some latent space. During the unsupervised phase, these representations are trained using reward-free interactions to encode long-range relationships between states and actions, via a predictive occupancy map. At test time, once a reward function is revealed, we show that the optimal policy for that reward is directly obtained from these representations, with no planning. This is a step towards building fully controllable agents. A common theme in the thesis is the design of provable RL algorithms that generalize. In the first and the second part, we deal with generalization in large state spaces either by linear function approximation or state aggregation. In the last part, we focus on generalization over reward functions and we propose a task-agnostic representation learning framework that is provably able to solve all reward functions.

Page generated in 0.1677 seconds