Spelling suggestions: "subject:"state constraints"" "subject:"itate constraints""
1 |
Utilizing negative policy information to accelerate reinforcement learningIrani, Arya John 08 June 2015 (has links)
A pilot study by Subramanian et al. on Markov decision problem task decomposition by humans revealed that participants break down tasks into both short-term subgoals with a defined end-condition (such as "go to food") and long-term considerations and invariants with no end-condition (such as "avoid predators"). In the context of Markov decision problems, behaviors having clear start and end conditions are well-modeled by an abstraction known as options, but no abstraction exists in the literature for continuous constraints imposed on the agent's behavior.
We propose two representations to fill this gap: the state constraint (a set or predicate identifying states that the agent should avoid) and the state-action constraint (identifying state-action pairs that should not be taken). State-action constraints can be directly utilized by an agent, which must choose an action in each state, while state constraints require an approximation of the MDP’s state transition function to be used; however, it is important to support both representations, as certain constraints may be more easily expressed in terms of one as compared to the other, and users may conceive of rules in either form.
Using domains inspired by classic video games, this dissertation demonstrates the thesis that explicitly modeling this negative policy information improves reinforcement learning performance by decreasing the amount of training needed to achieve a given level of performance. In particular, we will show that even the use of negative policy information captured from individuals with no background in artificial intelligence yields improved performance.
We also demonstrate that the use of options and constraints together form a powerful combination: an option and constraint can be taken together to construct a constrained option, which terminates in any situation where the original option would violate a constraint. In this way, a naive option defined to perform well in a best-case scenario may still accelerate learning in domains where the best-case scenario is not guaranteed.
|
2 |
Second Order Sufficient Optimality Conditions for Nonlinear Parabolic Control Problems with State ConstraintsRaymond, Jean-Pierre, Tröltzsch, Fredi 30 October 1998 (has links) (PDF)
In this paper, optimal control problems for semilinear parabolic equations with
distributed and boundary controls are considered. Pointwise constraints on the control and on
the state are given. Main emphasis is laid on the discussion of second order sufficient optimality
conditions. Sufficiency for local optimality is verified under different assumptions imposed
on the dimension of the domain and on the smoothness of the given data.
|
3 |
Contrôle géométrique et méthodes numériques : application au problème de montée d'un avion. / Geometric control and numerical methods and the climbing problem of an aircraftGoubinat, Damien 14 June 2017 (has links)
Ce travail s’intéresse à la phase de montée d’un aéronef civil. Les trajectoires minimisant le temps de montée ainsi que que celles minimisant la consommation de carburant sont étudiées au travers du contrôle optimal géométrique. La dynamique associée à la phase de montée possède un phénomène dit de perturbation singulière. Ce phénomène, présent dans les systèmes multi-échelle, rend difficile la résolution numérique du problème de contrôle associé. La réduction desystème hamiltonien, permettant de s’affranchir de la difficulté numérique introduite par la perturbation singulière, est étudiée d’un point de vue théorique puis numérique. Dans un second temps, le système réduit est étudié géométriquement. L’utilisation des outils du contrôle géométrique combinée à celui des synthèses à temps court permet de déterminer des familles de trajectoires localement temps-optimales pour des temps courts. Cette étude est complétée par une étude des trajectoires temps-optimales en présence de contraintes d’état. D’un point de vue plus numérique, les méthodes directes et indirectes sont utilisées pour résoudre les différents problèmes. Une synthèse locale est alors réalisée en partant des familles de trajectoires déterminées pour des temps courts. Une étude des trajectoires minimisant la consommation de carburant est également réalisée. / This work concerns the climbing phase of a civil aircraft. The trajectories which minimize the climbing time and the one which minimize the fuel consumption are studied throughout geometric optimal control. The climbing phase dynamics presents a characteristics called singular perturbation. This phenomena exists in multi-scale dynamics which makes the numerical study of the associated control problem difficult. Theoretically and numerically we study the reduction of hamiltonian system. This concept allows to remove the numerical complexity induced by the singular perturbation. Secondly, the reduced system is studied geometrically. Families of timeoptimal trajectories in small time are determined thanks to geometric control tools and small time synthesis. A study of time-optimal trajectories with active state constraints completes this work. From a more numerical point of view, direct and indirect methods are used to solve the climbing problems. A local synthesis for time-optimal trajectory is established starting from the families of trajectory determined in small time. A study of minimum fuel consumption trajectories is also realized.
|
4 |
Second Order Sufficient Optimality Conditions for Nonlinear Parabolic Control Problems with State ConstraintsRaymond, Jean-Pierre, Tröltzsch, Fredi 30 October 1998 (has links)
In this paper, optimal control problems for semilinear parabolic equations with
distributed and boundary controls are considered. Pointwise constraints on the control and on
the state are given. Main emphasis is laid on the discussion of second order sufficient optimality
conditions. Sufficiency for local optimality is verified under different assumptions imposed
on the dimension of the domain and on the smoothness of the given data.
|
5 |
Porovnání metod pro odhad omezených veličin s aplikací na ekonomická data / Porovnání metod pro odhad omezených veličin s aplikací na ekonomická dataMusil, Karel January 2013 (has links)
The thesis introduces an overview of techniques for filtering of unobserved variables using a state-space representation of a model and state inequality constraints. It is mainly aimed at a derivation of the linear Kalman filter, its extension into a form of a non-linear filter and imposing state constraints. The state uniform model with noise bounds and the sequential importance sampling, as a method of particle filters using Monte Carlo simulations, are described as alternative methods. These three methods are applied on a simple semi-structural model for a monetary policy analysis. The filtration is based on Czech macroeconomic data and reflects an imposed non-negative state constraint on the interest rate. Results of the algorithms are compared and discussed.
|
6 |
Application of the theory of the viscosity solutions to the Shape From Shading problemPrados, Emmanuel 22 October 2004 (has links) (PDF)
Le problème du « Shape From Shading » est aujourd'hui considéré comme un problème mal posé et difficile à résoudre. Afin de bien comprendre les difficultés de ce problème et d'apporter des solutions fiables et pertinentes, nous proposons une approche rigoureuse basée sur la notion de solution de viscosité.<br />Après avoir considéré et exploité au maximum les équations (aux dérivées partielles) obtenues à partir de la modélisation classique du problème du « Shape From Shading », nous proposons et étudions de nouvelles équations provenant de modélisations plus réalistes que celles qui avaient été traitées classiquement dans la littérature. Cette démarche nous permet alors de démontrer qu'avec de telles nouvelles modélisations, le problème du « Shape From Shading » est généralement un problème complètement bien posé. En d'autres termes, nous prouvons que la version classique du problème du « Shape from Shading » est devenu mal posée à cause d'une trop grande simplification de la modélisation.<br />Dans ce travail, nous proposons aussi une extension de la notion de solutions de viscosité singulières développée récemment par Camilli et Siconolfi. Cette extension nous permet de proposer une nouvelle caractérisation des solutions de viscosité discontinues. Ce nouveau cadre théorique nous permet aussi d'unifier les différents résultats théoriques proposés dans le domaine du « Shape From Shading ».
|
7 |
Motion Planning for the Two-Phase Stefan Problem in Level Set FormulationBernauer, Martin 21 December 2010 (has links) (PDF)
This thesis is concerned with motion planning for the classical two-phase Stefan problem in level set formulation. The interface separating the fluid phases from the solid phases is represented as the zero level set of a continuous function whose evolution is described by the level set equation. Heat conduction in the two phases is modeled by the heat equation. A quadratic tracking-type cost functional that incorporates temperature tracking terms and a control cost term that expresses the desire to have the interface follow a prescribed trajectory by adjusting the heat flux through part of the boundary of the computational domain. The formal Lagrange approach is used to establish a first-order optimality system by applying shape calculus tools. For the numerical solution, the level set equation and its adjoint are discretized in space by discontinuous Galerkin methods that are combined with suitable explicit Runge-Kutta time stepping schemes, while the temperature and its adjoint are approximated in space by the extended finite element method (which accounts for the weak discontinuity of the temperature by a dynamic local modification of the underlying finite element spaces) combined with the implicit Euler method for the temporal discretization. The curvature of the interface which arises in the adjoint system is discretized by a finite element method as well. The projected gradient method, and, in the absence of control constraints, the limited memory BFGS method are used to solve the arising optimization problems. Several numerical examples highlight the potential of the proposed optimal control approach. In particular, they show that it inherits the geometric flexibility of the level set method. Thus, in addition to unidirectional solidification, closed interfaces and changes of topology can be tracked. Finally, the Moreau-Yosida regularization is applied to transform a state constraint on the position of the interface into a penalty term that is added to the cost functional. The optimality conditions for this penalized optimal control problem and its numerical solution are discussed. An example confirms the efficacy of the state constraint. / Die vorliegende Arbeit beschäftigt sich mit einem Optimalsteuerungsproblem für das klassische Stefan-Problem in zwei Phasen. Die Phasengrenze wird als Niveaulinie einer stetigen Funktion modelliert, was die Lösung der so genannten Level-Set-Gleichung erfordert. Durch Anpassen des Wärmeflusses am Rand des betrachteten Gebiets soll ein gewünschter Verlauf der Phasengrenze angesteuert werden. Zusammen mit dem Wunsch, ein vorgegebenes Temperaturprofil zu approximieren, wird dieses Ziel in einem quadratischen Zielfunktional formuliert. Die notwendigen Optimalitätsbedingungen erster Ordnung werden formal mit Hilfe der entsprechenden Lagrange-Funktion und unter Benutzung von Techniken aus der Formoptimierung hergeleitet. Für die numerische Lösung müssen die auftretenden partiellen Differentialgleichungen diskretisiert werden. Dies geschieht im Falle der Level-Set-Gleichung und ihrer Adjungierten auf Basis von unstetigen Galerkin-Verfahren und expliziten Runge-Kutta-Methoden. Die Wärmeleitungsgleichung und die entsprechende Gleichung im adjungierten System werden mit einer erweiterten Finite-Elemente-Methode im Ort sowie dem impliziten Euler-Verfahren in der Zeit diskretisiert. Dieser Zugang umgeht die aufwändige Adaption des Gitters, die normalerweise bei der FE-Diskretisierung von Phasenübergangsproblemen unvermeidbar ist. Auch die Krümmung der Phasengrenze wird numerisch mit Hilfe der Methode der finiten Elemente angenähert. Zur Lösung der auftretenden Optimierungsprobleme werden ein Gradienten-Projektionsverfahren und, im Fall dass keine Kontrollschranken vorliegen, die BFGS-Methode mit beschränktem Speicherbedarf eingesetzt. Numerische Beispiele beleuchten die Stärken des vorgeschlagenen Zugangs. Es stellt sich insbesondere heraus, dass sich die geometrische Flexibilität der Level-Set-Methode auf den vorgeschlagenen Zugang zur optimalen Steuerung vererbt. Zusätzlich zur gerichteten Bewegung einer flachen Phasengrenze können somit auch geschlossene Phasengrenzen sowie topologische Veränderungen angesteuert werden. Exemplarisch, und zwar an Hand einer Beschränkung an die Lage der Phasengrenze, wird auch noch die Behandlung von Zustandsbeschränkungen mittels der Moreau-Yosida-Regularisierung diskutiert. Ein numerisches Beispiel demonstriert die Wirkung der Zustandsbeschränkung.
|
8 |
Motion Planning for the Two-Phase Stefan Problem in Level Set FormulationBernauer, Martin 17 December 2010 (has links)
This thesis is concerned with motion planning for the classical two-phase Stefan problem in level set formulation. The interface separating the fluid phases from the solid phases is represented as the zero level set of a continuous function whose evolution is described by the level set equation. Heat conduction in the two phases is modeled by the heat equation. A quadratic tracking-type cost functional that incorporates temperature tracking terms and a control cost term that expresses the desire to have the interface follow a prescribed trajectory by adjusting the heat flux through part of the boundary of the computational domain. The formal Lagrange approach is used to establish a first-order optimality system by applying shape calculus tools. For the numerical solution, the level set equation and its adjoint are discretized in space by discontinuous Galerkin methods that are combined with suitable explicit Runge-Kutta time stepping schemes, while the temperature and its adjoint are approximated in space by the extended finite element method (which accounts for the weak discontinuity of the temperature by a dynamic local modification of the underlying finite element spaces) combined with the implicit Euler method for the temporal discretization. The curvature of the interface which arises in the adjoint system is discretized by a finite element method as well. The projected gradient method, and, in the absence of control constraints, the limited memory BFGS method are used to solve the arising optimization problems. Several numerical examples highlight the potential of the proposed optimal control approach. In particular, they show that it inherits the geometric flexibility of the level set method. Thus, in addition to unidirectional solidification, closed interfaces and changes of topology can be tracked. Finally, the Moreau-Yosida regularization is applied to transform a state constraint on the position of the interface into a penalty term that is added to the cost functional. The optimality conditions for this penalized optimal control problem and its numerical solution are discussed. An example confirms the efficacy of the state constraint. / Die vorliegende Arbeit beschäftigt sich mit einem Optimalsteuerungsproblem für das klassische Stefan-Problem in zwei Phasen. Die Phasengrenze wird als Niveaulinie einer stetigen Funktion modelliert, was die Lösung der so genannten Level-Set-Gleichung erfordert. Durch Anpassen des Wärmeflusses am Rand des betrachteten Gebiets soll ein gewünschter Verlauf der Phasengrenze angesteuert werden. Zusammen mit dem Wunsch, ein vorgegebenes Temperaturprofil zu approximieren, wird dieses Ziel in einem quadratischen Zielfunktional formuliert. Die notwendigen Optimalitätsbedingungen erster Ordnung werden formal mit Hilfe der entsprechenden Lagrange-Funktion und unter Benutzung von Techniken aus der Formoptimierung hergeleitet. Für die numerische Lösung müssen die auftretenden partiellen Differentialgleichungen diskretisiert werden. Dies geschieht im Falle der Level-Set-Gleichung und ihrer Adjungierten auf Basis von unstetigen Galerkin-Verfahren und expliziten Runge-Kutta-Methoden. Die Wärmeleitungsgleichung und die entsprechende Gleichung im adjungierten System werden mit einer erweiterten Finite-Elemente-Methode im Ort sowie dem impliziten Euler-Verfahren in der Zeit diskretisiert. Dieser Zugang umgeht die aufwändige Adaption des Gitters, die normalerweise bei der FE-Diskretisierung von Phasenübergangsproblemen unvermeidbar ist. Auch die Krümmung der Phasengrenze wird numerisch mit Hilfe der Methode der finiten Elemente angenähert. Zur Lösung der auftretenden Optimierungsprobleme werden ein Gradienten-Projektionsverfahren und, im Fall dass keine Kontrollschranken vorliegen, die BFGS-Methode mit beschränktem Speicherbedarf eingesetzt. Numerische Beispiele beleuchten die Stärken des vorgeschlagenen Zugangs. Es stellt sich insbesondere heraus, dass sich die geometrische Flexibilität der Level-Set-Methode auf den vorgeschlagenen Zugang zur optimalen Steuerung vererbt. Zusätzlich zur gerichteten Bewegung einer flachen Phasengrenze können somit auch geschlossene Phasengrenzen sowie topologische Veränderungen angesteuert werden. Exemplarisch, und zwar an Hand einer Beschränkung an die Lage der Phasengrenze, wird auch noch die Behandlung von Zustandsbeschränkungen mittels der Moreau-Yosida-Regularisierung diskutiert. Ein numerisches Beispiel demonstriert die Wirkung der Zustandsbeschränkung.
|
Page generated in 0.0785 seconds