191 |
Développement de nouvelles techniques de contrôle optimal en dynamique quantique : de la Résonance Magnétique Nucléaire à la physique moléculaire / Developement of new techniques of Optimal Control in Quantum Dynamics : from nuclear magnetic resonance to molecular physicsLapert, Marc 12 October 2011 (has links)
L’objectif de cette thèse est d’appliquer la théorie du contrôle optimal à la dynamique de systèmes quantiques. Le premier point consiste à introduire dans le domaine du contrôle quantique des outils de contrôle optimal initialement développés en mathématique. Cette approche a ensuite été appliquée sur différent types de systèmes quantiques décrit par une grande ou une petite dimension. La première partie du manuscrit introduit les différents outils de contrôles utilisés avec une approche adaptée à un public de physiciens. Dans la seconde partie, ces techniques sont utilisées pour contrôler la dynamique des spins en RMN et IRM. La troisième partie s’intéresse au développement de nouveaux algorithmes itératifs de contrôle optimal appliqués au contrôle par champ laser de la dynamique rotationnelle des molécules linéaires en phases gazeuse ainsi qu’au développement d’une stratégie de contrôle simple permettant de délocaliser une molécule dans un plan. La quatrième partie traite le contrôle en temps minimum d’un condensat de Bose-Einstein à deux composantes. La dernière partie permet de comparer qualitativement et quantitativement les différentes méthodes de contrôle optimal utilisées. Les seconde et troisième parties ont également bénéficier de l’implémentation expérimentale des solutions de contrôle optimal obtenues. / The goal of this thesis is to apply the optimal control theory to the dynamics of quantum systems.The first part aim at introducing the tools of optimal control in quantum control which were initially developedin mathematics. This approch has been applied on different kinds of quantum system with small and largedimensions. The first part of this manuscript introduces the optimal control tools which are used with a pointof view suited to a public of physicists. In the second part these techniques are used to control the dynamics ofspins in NMR and MRI. The third part deals with the development of new iterative algorithms applied to thecontrol by laser fields of the rotational dynamics of linear molecules in a gaz phases and the development of asimple control strategy allowing to delocalize a molecule in a plan. The fourth part treats the time-minimumcontrol of a two-component Bose Einstein condensate. The last part compares the different optimal controlmethods used qualitatively and quantitatively. The solution found in the second and third parts have been alsoapplied experimentally.
|
192 |
Contrôle optimal et calcul des variations en présence de retard sur l'état / Optimal control and calculus of variations with delay in state spaceKoné, Mamadou Ibrahima 15 March 2016 (has links)
L'objectif de cette thèse est de contribuer à l'optimisation de problèmes dynamiques en présence de retard. Le point de vue qui nous intéressera est celui de Pontryagin qui dans son ouvrage publié en 1962 a donné les conditions nécessaires d'existence de solutions pour ce type de problème. Warga dans son ouvrage publié en 1972 a fait un catalogue des solutions possible, Li et al. ont étudié le cas de contrôle périodique. Notre méthode de démonstration est directement inspirée de la démonstration de P. Michel du cas des systèmes gouvernés par des équations différentielles ordinaires. La principale difficulté pour cette approche est l'utilisation de la résolvante de l'équation différentielle fonctionnelle linéarisée de l'équation différentielle fonctionnelle d'évolution qui gouverne le système. Nous traitons aussi de condition d'Euler-Lagrange dans le cadre d'un problème de calcul variationnel avec retard. / In this thesis, we have attempted to contribute to the optimization of dynamical problems with delay in state space. We are specifically interested in the viewpoint of Pontryagin who outlined in his book published in 1962 the necessary conditions required for solving such problems. In his work published in 1972, Warga catalogued the possible solutions. Li and al. analyzed the case of periodic control. We will treat an optimal control problem governed by a Delay Functional Differential Equation. Our method is close to the one of P. Michel on dynamical system governed by Ordinary Differential Equations. The main problem ariving out in this approach is the use of the resolvent of the Delay Functional Differential Equation. We also consider with Euler-Lagrange condition in the framework of variational problems with delay.
|
193 |
Modélisation et optimisation de la réponse à des vaccins et à des interventions immunothérapeutiques : application au virus Ebola et au VIH / Modeling and optimizing the response to vaccines and immunotherapeutic interventions : application to Ebola virus and HIVPasin, Chloé 30 October 2018 (has links)
Les vaccins ont été une grande réussite en matière de santé publique au cours des dernières années. Cependant, le développement de vaccins efficaces contre les maladies infectieuses telles que le VIH ou le virus Ebola reste un défi majeur. Cela peut être attribué à notre manque de connaissances approfondies en immunologie et sur le mode d'action de la mémoire immunitaire. Les modèles mathématiques peuvent aider à comprendre les mécanismes de la réponse immunitaire, à quantifier les processus biologiques sous-jacents et à développer des vaccins fondés sur un rationnel scientifique. Nous présentons un modèle mécaniste de la dynamique de la réponse immunitaire humorale après injection d'un vaccin Ebola basé sur des équations différentielles ordinaires. Les paramètres du modèle sont estimés par maximum de vraisemblance dans une approche populationnelle qui permet de quantifier le processus de la réponse immunitaire et ses facteurs de variabilité. En particulier, le schéma vaccinal n'a d'impact que sur la réponse à court terme, alors que des différences significatives entre des sujets de différentes régions géographiques sont observées à plus long terme. Cela pourrait avoir des implications dans la conception des futurs essais cliniques. Ensuite, nous développons un outil numérique basé sur la programmation dynamique pour optimiser des schémas d'injections répétées. En particulier, nous nous intéressons à des patients infectés par le VIH sous traitement mais incapables de reconstruire leur système immunitaire. Des injections répétées d'un produit immunothérapeutique (IL-7) sont envisagées pour améliorer la santé de ces patients. Le processus est modélisé par un modèle de Markov déterministe par morceaux et des résultats récents de la théorie du contrôle impulsionnel permettent de résoudre le problème numériquement à l'aide d'une suite itérative. Nous montrons dans une preuve de concept que cette méthode peut être appliquée à un certain nombre de pseudo-patients. Dans l'ensemble, ces résultats s'intègrent dans un effort de développer des méthodes sophistiquées pour analyser les données d'essais cliniques afin de répondre à des questions cliniques concrètes. / Vaccines have been one of the most successful developments in public health in the last years. However, a major challenge still resides in developing effective vaccines against infectious diseases such as HIV or Ebola virus. This can be attributed to our lack of deep knowledge in immunology and the mode of action of immune memory. Mathematical models can help understanding the mechanisms of the immune response, quantifying the underlying biological processes and eventually developing vaccines based on a solid rationale. First, we present a mechanistic model for the dynamics of the humoral immune response following Ebola vaccine immunizations based on ordinary differential equations. The parameters of the model are estimated by likelihood maximization in a population approach, which allows to quantify the process of the immune response and its factors of variability. In particular, the vaccine regimen is found to impact only the response on a short term, while significant differences between subjects of different geographic locations are found at a longer term. This could have implications in the design of future clinical trials. Then, we develop a numerical tool based on dynamic programming for optimizing schedule of repeated injections. In particular, we focus on HIV-infected patients under treatment but unable to recover their immune system. Repeated injections of an immunotherapeutic product (IL-7) are considered for improving the health of these patients. The process is first by a piecewise deterministic Markov model and recent results of the impulse control theory allow to solve the problem numerically with an iterative sequence. We show in a proof-of-concept that this method can be applied to a number of pseudo-patients. All together, these results are part of an effort to develop sophisticated methods for analyzing data from clinical trials to answer concrete clinical questions.
|
194 |
Problèmes de premier passage et de commande optimale pour des chaînes de Markov à temps discretKounta, Moussa 03 1900 (has links)
No description available.
|
195 |
Steepest descent as Linear Quadratic RegulationDufort-Labbé, Simon 08 1900 (has links)
Concorder un modèle à certaines observations, voilà qui résume assez bien ce que l’apprentissage machine cherche à accomplir. Ce concept est maintenant omniprésent dans nos vies, entre autre grâce aux percées récentes en apprentissage profond. La stratégie d’optimisation prédominante pour ces deux domaines est la minimisation d’un objectif donné. Et pour cela, la méthode du gradient, méthode de premier-ordre qui modifie les paramètres du modèle à chaque itération, est l’approche dominante. À l’opposé, les méthodes dites de second ordre n’ont jamais réussi à s’imposer en apprentissage profond. Pourtant, elles offrent des avantages reconnus qui soulèvent encore un grand intérêt. D’où l’importance de la méthode du col, qui unifie les méthodes de premier et second ordre sous un même paradigme.
Dans ce mémoire, nous établissons un parralèle direct entre la méthode du col et le domaine du contrôle optimal ; domaine qui cherche à optimiser mathématiquement une séquence de décisions. Et certains des problèmes les mieux compris et étudiés en contrôle optimal sont les commandes linéaires quadratiques. Problèmes pour lesquels on connaît très bien la solution optimale. Plus spécifiquement, nous démontrerons l’équivalence entre une itération de la méthode du col et la résolution d’une Commande Linéaire Quadratique (CLQ).
Cet éclairage nouveau implique une approche unifiée quand vient le temps de déployer nombre d’algorithmes issus de la méthode du col, tel que la méthode du gradient et celle des gradients naturels, sans être limitée à ceux-ci. Approche que nous étendons ensuite aux problèmes à horizon infini, tel que les modèles à équilibre profond. Ce faisant, nous démontrons pour ces problèmes que calculer les gradients via la différentiation implicite revient à employer l’équation de Riccati pour solutionner la CLQ associée à la méthode du gradient. Finalement, notons que l’incorporation d’information sur la courbure du problème revient généralement à rencontrer une inversion matricielle dans la méthode du col. Nous montrons que l’équivalence avec les CLQ permet de contourner cette inversion en utilisant une approximation issue des séries de Neumann. Surprenamment, certaines observations empiriques suggèrent que cette approximation aide aussi à stabiliser le processus d’optimisation quand des méthodes de second-ordre sont impliquées ; en agissant comme un régularisateur adaptif implicite. / Machine learning entails training a model to fit some given observations, and recent advances in the field, particularly in deep learning, have made it omnipresent in our lives. Fitting a model usually requires the minimization of a given objective. When it comes to deep learning, first-order methods like gradient descent have become a default tool for optimization in deep learning. On the other hand, second-order methods did not see widespread use in deep learning. Yet, they hold many promises and are still a very active field of research. An important perspective into both methods is steepest descent, which allows you to encompass first and second-order approaches into the same framework.
In this thesis, we establish an explicit connection between steepest descent and optimal control, a field that tries to optimize sequential decision-making processes. Core to it is the family of problems known as Linear Quadratic Regulation; problems that have been well studied and for which we know optimal solutions. More specifically, we show that performing one iteration of steepest descent is equivalent to solving a Linear Quadratic Regulator (LQR). This perspective gives us a convenient and unified framework for deploying a wide range of steepest descent algorithms, such as gradient descent and natural gradient descent, but certainly not limited to. This framework can also be extended to problems with an infinite horizon, such as deep equilibrium models. Doing so reveals that retrieving the gradient via implicit differentiation is equivalent to recovering it via Riccati’s solution to the LQR associated with gradient descent. Finally, incorporating curvature information into steepest descent usually takes the form of a matrix inversion. However, casting a steepest descent
step as a LQR also hints toward a trick that allows to sidestep this inversion, by leveraging Neumann’s series approximation. Empirical observations provide evidence that this approximation actually helps to stabilize the training process, by acting as an adaptive damping parameter.
|
196 |
Learning neural ordinary differential equations for optimal controlHowe, Nikolaus Harry Reginald 08 1900 (has links)
Ce mémoire rassemble des éléments d'optimisation,
d'apprentissage profond et de contrôle optimal afin de répondre
aux problématiques
d'apprentissage et de planification
dans le contexte des systèmes dynamiques en temps continu.
Deux approches générales sont explorées.
D'abord, une approche basée sur la méthode du
maximum de vraisemblance
est présentée.
Ici, les trajectoires ``d'entrainement'' sont
échantillonnées depuis
la dynamique réelle, et à partir de celles-ci un modèle
de prédiction des états observés
est appris.
Une fois que l'apprentissage est terminé,
le modèle est utilisé pour la planification,
en utilisant la dynamique de l'environnement
et une fonction de coût pour construire un
programme non linéaire, qui est
par la suite résolu pour trouver une séquence
de contrôle optimal.
Ensuite, une approche de bout en bout
est proposée, dans laquelle la tâche d'apprentissage de modèle
dynamique et celle de planification se déroulent simultanément.
Ceci est illustré
dans le cadre d'un problème d'apprentissage par imitation,
où le modèle est mis à jour
en rétropropageant le signal de perte à travers
l'algorithme de planification. Grâce au fait que l'entrainement
est effectué de bout en bout, cette technique pourrait
constituer un sous-module de réseau de neurones
de plus grande taille, et pourrait être utilisée pour
fournir un biais inductif en faveur des comportements optimaux
dans le contexte de systèmes dynamiques en temps continu.
Ces méthodes sont toutes les deux conçues
pour fonctionner
avec des modèles d'équations différentielles ordinaires
paramétriques et neuronaux.
Également, inspiré par des applications réelles pertinentes,
un large recueil de systèmes dynamiques
et d'optimiseurs de trajectoire, nommé Myriad,
est implémenté; les algorithmes sont
testés et comparés sur une variété
de domaines de
la suite Myriad. / This thesis brings together elements of optimization,
deep learning and optimal control to study the challenge of
learning and planning in continuous-time
dynamical systems. Two general
approaches are explored. First, a maximum likelihood
approach is
presented, in which training trajectories are sampled
from the true dynamics, and a model
is learned to accurately predict the state observations.
After training is completed, the learned model
is then used for planning,
by using the dynamics and cost function to construct a
nonlinear program, which can be solved to find a sequence
of optimal controls.
Second, a fully end-to-end approach
is proposed, in which the tasks of model learning and
planning are performed simultaneously. This is demonstrated
in an imitation learning setting, in which the model is updated
by backpropagating the loss signal through the planning
algorithm itself. Importantly, because it can be trained
in an end-to-end fashion, this technique can be included
as a sub-module of a larger neural network, and used to
provide an inductive bias towards behaving optimally
in a continuous-time dynamical system.
Both the maximum likelihood and end-to-end methods
are designed to work
with parametric and neural ordinary
differential equation models.
Inspired by relevant real-world applications,
a large repository of dynamical systems
and trajectory optimizers, named Myriad,
is also implemented.
The algorithms are
tested and compared on a variety
of domains within
the Myriad suite.
|
197 |
Représentation probabiliste d'équations HJB pour le contrôle optimal de processus à sauts, EDSR (équations différentielles stochastiques rétrogrades) et calcul stochastique. / Probabilistic representation of HJB equations foroptimal control of jumps processes, BSDEs and related stochastic calculusBandini, Elena 07 April 2016 (has links)
Dans le présent document on aborde trois divers thèmes liés au contrôle et au calcul stochastiques, qui s'appuient sur la notion d'équation différentielle stochastique rétrograde (EDSR) dirigée par une mesure aléatoire. Les trois premiers chapitres de la thèse traitent des problèmes de contrôle optimal pour différentes catégories de processus markoviens non-diffusifs, à horizon fini ou infini. Dans chaque cas, la fonction valeur, qui est l'unique solution d'une équation intégro-différentielle de Hamilton-Jacobi-Bellman (HJB), est représentée comme l'unique solution d'une EDSR appropriée. Dans le premier chapitre, nous contrôlons une classe de processus semi-markoviens à horizon fini; le deuxième chapitre est consacré au contrôle optimal de processus markoviens de saut pur, tandis qu'au troisième chapitre, nous examinons le cas de processus markoviens déterministes par morceaux (PDMPs) à horizon infini. Dans les deuxième et troisième chapitres les équations d'HJB associées au contrôle optimal sont complètement non-linéaires. Cette situation survient lorsque les lois des processus contrôlés ne sont pas absolument continues par rapport à la loi d'un processus donné. Etant donné ce caractère complètement non-linéaire, ces équations ne peuvent pas être représentées par des EDSRs classiques. Dans ce cadre, nous avons obtenu des formules de Feynman-Kac non-linéaires en généralisant la méthode de la randomisation du contrôle introduite par Kharroubi et Pham (2015) pour les diffusions. Ces techniques nous permettent de relier la fonction valeur du problème de contrôle à une EDSR dirigée par une mesure aléatoire, dont une composante de la solution subit une contrainte de signe. En plus, on démontre que la fonction valeur du problème de contrôle originel non dominé coïncide avec la fonction valeur d'un problème de contrôle dominé auxiliaire, exprimé en termes de changements de mesures équivalentes de probabilité. Dans le quatrième chapitre, nous étudions une équation différentielle stochastique rétrograde à horizon fini, dirigée par une mesure aléatoire à valeurs entières sur $R_+ times E$, o`u $E$ est un espace lusinien, avec compensateur de la forme $nu(dt, dx) = dA_t phi_t(dx)$. Le générateur de cette équation satisfait une condition de Lipschitz uniforme par rapport aux inconnues. Dans la littérature, l'existence et unicité pour des EDSRs dans ce cadre ont été établies seulement lorsque $A$ est continu ou déterministe. Nous fournissons un théorème d'existence et d'unicité même lorsque $A$ est un processus prévisible, non décroissant, continu à droite. Ce résultat s’applique par exemple, au cas du contrôle lié aux PDMPs. En effet, quand $mu$ est la mesure de saut d'un PDMP sur un domaine borné, $A$ est prévisible et discontinu. Enfin, dans les deux derniers chapitres de la thèse nous traitons le calcul stochastique pour des processus discontinus généraux. Dans le cinquième chapitre, nous développons le calcul stochastique via régularisations des processus à sauts qui ne sont pas nécessairement des semimartingales. En particulier nous poursuivons l'étude des processus dénommés de Dirichlet faibles, dans le cadre discontinu. Un tel processus $X$ est la somme d'une martingale locale et d'un processus adapté $A$ tel que $[N, A] = 0$, pour toute martingale locale continue $N$. Pour une fonction $u: [0, T] times R rightarrow R$ de classe $C^{0,1}$ (ou parfois moins), on exprime un développement de $u(t, X_t)$, dans l'esprit d'une généralisation du lemme d'Itô, lequel vaut lorsque $u$ est de classe $C^{1,2}$. Le calcul est appliqué dans le sixième chapitre à la théorie des EDSRs dirigées par des mesures aléatoires. Dans de nombreuses situations, lorsque le processus sous-jacent $X$ est une semimartingale spéciale, ou plus généralement, un processus de Dirichlet spécial faible, nous identifions les solutions des EDSRs considérées via le processus $X$ et la solution $u$ d’une EDP intégro-différentielle associée. / In the present document we treat three different topics related to stochastic optimal control and stochastic calculus, pivoting on thenotion of backward stochastic differential equation (BSDE) driven by a random measure.After a general introduction, the three first chapters of the thesis deal with optimal control for different classes of non-diffusiveMarkov processes, in finite or infinite horizon. In each case, the value function, which is the unique solution to anintegro-differential Hamilton-Jacobi-Bellman (HJB) equation, is probabilistically represented as the unique solution of asuitable BSDE. In the first chapter we control a class of semi-Markov processes on finite horizon; the second chapter isdevoted to the optimal control of pure jump Markov processes, while in the third chapter we consider the case of controlled piecewisedeterministic Markov processes (PDMPs) on infinite horizon. In the second and third chapters the HJB equations associatedto the optimal control problems are fully nonlinear. Those situations arise when the laws of the controlled processes arenot absolutely continuous with respect to the law of a given, uncontrolled, process. Since the corresponding HJB equationsare fully nonlinear, they cannot be represented by classical BSDEs. In these cases we have obtained nonlinear Feynman-Kacrepresentation formulae by generalizing the control randomization method introduced in Kharroubi and Pham (2015)for classical diffusions. This approach allows us to relate the value function with a BSDE driven by a random measure,whose solution hasa sign constraint on one of its components.Moreover, the value function of the original non-dominated control problem turns out to coincide withthe value function of an auxiliary dominated control problem, expressed in terms of equivalent changes of probability measures.In the fourth chapter we study a backward stochastic differential equation on finite horizon driven by an integer-valued randommeasure $mu$ on $R_+times E$, where $E$ is a Lusin space, with compensator $nu(dt,dx)=dA_t,phi_t(dx)$. The generator of thisequation satisfies a uniform Lipschitz condition with respect to the unknown processes.In the literature, well-posedness results for BSDEs in this general setting have only been established when$A$ is continuous or deterministic. We provide an existence and uniqueness theorem for the general case, i.e.when $A$ is a right-continuous nondecreasing predictable process. Those results are relevant, for example,in the frameworkof control problems related to PDMPs. Indeed, when $mu$ is the jump measure of a PDMP on a bounded domain, then $A$ is predictable and discontinuous.Finally, in the two last chapters of the thesis we deal with stochastic calculus for general discontinuous processes.In the fifth chapter we systematically develop stochastic calculus via regularization in the case of jump processes,and we carry on the investigations of the so-called weak Dirichlet processes in the discontinuous case.Such a process $X$ is the sum of a local martingale and an adapted process $A$ such that $[N,A] = 0$, for any continuouslocal martingale $N$.Given a function $u:[0,T] times R rightarrow R$, which is of class $C^{0,1}$ (or sometimes less), we provide a chain rule typeexpansion for $u(t,X_t)$, which constitutes a generalization of It^o's lemma being valid when $u$ is of class $C^{1,2}$.This calculus is applied in the sixth chapter to the theory of BSDEs driven by random measures.In several situations, when the underlying forward process $X$ is a special semimartingale, or, even more generally,a special weak Dirichlet process,we identify the solutions $(Y,Z,U)$ of the considered BSDEs via the process $X$ and the solution $u$ to an associatedintegro PDE.
|
198 |
Model-based hyperparameter optimizationCrouther, Paul 04 1900 (has links)
The primary goal of this work is to propose a methodology for discovering hyperparameters.
Hyperparameters aid systems in convergence when well-tuned and handcrafted. However,
to this end, poorly chosen hyperparameters leave practitioners in limbo, between concerns
with implementation or improper choice in hyperparameter and system configuration. We
specifically analyze the choice of learning rate in stochastic gradient descent (SGD), a popular
algorithm. As a secondary goal, we attempt the discovery of fixed points using smoothing of
the loss landscape by exploiting assumptions about its distribution to improve the update
rule in SGD. Smoothing of the loss landscape has been shown to make convergence possible in
large-scale systems and difficult black-box optimization problems. However, we use stochastic
value gradients (SVG) to smooth the loss landscape by learning a surrogate model and then
backpropagate through this model to discover fixed points on the real task SGD is trying to
solve. Additionally, we construct a gym environment for testing model-free algorithms, such
as Proximal Policy Optimization (PPO) as a hyperparameter optimizer for SGD. For tasks,
we focus on a toy problem and analyze the convergence of SGD on MNIST using model-free
and model-based reinforcement learning methods for control. The model is learned from
the parameters of the true optimizer and used specifically for learning rates rather than for
prediction. In experiments, we perform in an online and offline setting. In the online setting,
we learn a surrogate model alongside the true optimizer, where hyperparameters are tuned
in real-time for the true optimizer. In the offline setting, we show that there is more potential
in the model-based learning methodology than in the model-free configuration due to this
surrogate model that smooths out the loss landscape and makes for more helpful gradients
during backpropagation. / L’objectif principal de ce travail est de proposer une méthodologie de découverte des hyperparamètres.
Les hyperparamètres aident les systèmes à converger lorsqu’ils sont bien réglés et
fabriqués à la main. Cependant, à cette fin, des hyperparamètres mal choisis laissent les praticiens
dans l’incertitude, entre soucis de mise en oeuvre ou mauvais choix d’hyperparamètre et
de configuration du système. Nous analysons spécifiquement le choix du taux d’apprentissage
dans la descente de gradient stochastique (SGD), un algorithme populaire. Comme objectif
secondaire, nous tentons de découvrir des points fixes en utilisant le lissage du paysage des
pertes en exploitant des hypothèses sur sa distribution pour améliorer la règle de mise à jour
dans SGD. Il a été démontré que le lissage du paysage des pertes rend la convergence possible
dans les systèmes à grande échelle et les problèmes difficiles d’optimisation de la boîte noire.
Cependant, nous utilisons des gradients de valeur stochastiques (SVG) pour lisser le paysage
des pertes en apprenant un modèle de substitution, puis rétropropager à travers ce modèle
pour découvrir des points fixes sur la tâche réelle que SGD essaie de résoudre. De plus, nous
construisons un environnement de gym pour tester des algorithmes sans modèle, tels que
Proximal Policy Optimization (PPO) en tant qu’optimiseur d’hyperparamètres pour SGD.
Pour les tâches, nous nous concentrons sur un problème de jouet et analysons la convergence
de SGD sur MNIST en utilisant des méthodes d’apprentissage par renforcement sans modèle
et basées sur un modèle pour le contrôle. Le modèle est appris à partir des paramètres du
véritable optimiseur et utilisé spécifiquement pour les taux d’apprentissage plutôt que pour
la prédiction. Dans les expériences, nous effectuons dans un cadre en ligne et hors ligne.
Dans le cadre en ligne, nous apprenons un modèle de substitution aux côtés du véritable
optimiseur, où les hyperparamètres sont réglés en temps réel pour le véritable optimiseur.
Dans le cadre hors ligne, nous montrons qu’il y a plus de potentiel dans la méthodologie
d’apprentissage basée sur un modèle que dans la configuration sans modèle en raison de ce
modèle de substitution qui lisse le paysage des pertes et crée des gradients plus utiles lors de
la rétropropagation.
|
199 |
Contributions au calcul des variations et au principe du maximum de Pontryagin en calculs time scale et fractionnaire / Contributions to calculus of variations and to Pontryagin maximum principle in time scale calculus and fractional calculusBourdin, Loïc 18 June 2013 (has links)
Cette thèse est une contribution au calcul des variations et à la théorie du contrôle optimal dans les cadres discret, plus généralement time scale, et fractionnaire. Ces deux domaines ont récemment connu un développement considérable dû pour l’un à son application en informatique et pour l’autre à son essor dans des problèmes physiques de diffusion anormale. Que ce soit dans le cadre time scale ou dans le cadre fractionnaire, nos objectifs sont de : a) développer un calcul des variations et étendre quelques résultats classiques (voir plus bas); b) établir un principe du maximum de Pontryagin (PMP en abrégé) pour des problèmes de contrôle optimal. Dans ce but, nous généralisons plusieurs méthodes variationnelles usuelles, allant du simple calcul des variations au principe variationnel d’Ekeland (couplé avec la technique des variations-aiguilles), en passant par l’étude d’invariances variationnelles par des groupes de transformations. Les démonstrations des PMPs nous amènent également à employer des théorèmes de point fixe et à prendre en considération la technique des multiplicateurs de Lagrange ou encore une méthode basée sur un théorème d’inversion locale conique. Ce manuscrit est donc composé de deux parties : la Partie 1 traite de problèmes variationnels posés sur time scale et la Partie 2 est consacrée à leurs pendants fractionnaires. Dans chacune de ces deux parties, nous suivons l’organisation suivante : 1. détermination de l’équation d’Euler-Lagrange caractérisant les points critiques d’une fonctionnelle Lagrangienne ; 2. énoncé d’un théorème de type Noether assurant l’existence d’une constante de mouvement pour les équations d’Euler-Lagrange admettant une symétrie ; 3. énoncé d’un théorème de type Tonelli assurant l’existence d’un minimiseur pour une fonctionnelle Lagrangienne et donc, par la même occasion, d’une solution pour l’équation d’Euler-Lagrange associée (uniquement en Partie 2) ; 4. énoncé d’un PMP (version forte en Partie 1, version faible en Partie 2) donnant une condition nécessaire pour les trajectoires qui sont solutions de problèmes de contrôle optimal généraux non-linéaires ; 5. détermination d’une condition de type Helmholtz caractérisant les équations provenant d’un calcul des variations (uniquement en Partie 1 et uniquement dans les cas purement continu et purement discret). Des théorèmes de type Cauchy-Lipschitz nécessaires à l’étude de problèmes de contrôle optimal sont démontrés en Annexe. / This dissertation deals with the mathematical fields called calculus of variations and optimal control theory. More precisely, we develop some aspects of these two domains in discrete, more generally time scale, and fractional frameworks. Indeed, these two settings have recently experience a significant development due to its applications in computing for the first one and to its emergence in physical contexts of anomalous diffusion for the second one. In both frameworks, our goals are: a) to develop a calculus of variations and extend some classical results (see below); b) to state a Pontryagin maximum principle (denoted in short PMP) for optimal control problems. Towards these purposes, we generalize several classical variational methods, including the Ekeland’s variational principle (combined with needle-like variations) as well as variational invariances via the action of groups of transformations. Furthermore, the investigations for PMPs lead us to use fixed point theorems and to consider the Lagrange multiplier technique and a method based on a conic implicit function theorem. This manuscript is made up of two parts : Part A deals with variational problems on time scale and Part B is devoted to their fractional analogues. In each of these parts, we follow (with minor differences) the following organization: 1. obtaining of an Euler-Lagrange equation characterizing the critical points of a Lagrangian functional; 2. statement of a Noether-type theorem ensuring the existence of a constant of motion for Euler-Lagrange equations admitting a symmetry;3. statement of a Tonelli-type theorem ensuring the existence of a minimizer for a Lagrangian functional and, consequently, of a solution for the corresponding Euler-Lagrange equation (only in Part B); 4. statement of a PMP (strong version in Part A and weak version in Part B) giving a necessary condition for the solutions of general nonlinear optimal control problems; 5. obtaining of a Helmholtz condition characterizing the equations deriving from a calculus of variations (only in Part A and only in the purely continuous and purely discrete cases). Some Picard-Lindelöf type theorems necessary for the analysis of optimal control problems are obtained in Appendices.
|
200 |
Evolution de fronts avec vitesse non-locale et équations de Hamilton-JacobiLey, Olivier 08 December 2008 (has links) (PDF)
Ce mémoire présente mes travaux de recherche effectués après ma thèse, entre 2002 et 2008. Les thèmes principaux sont les équations aux dérivées partielles non-linéaires et des problèmes d'évolutions de fronts ou d'interfaces. Il est organisé en trois chapitres.<br /><br />Le premier chapitre concerne l'évolution de fronts avec une vitesse normale prescrite. Pour étudier ce genre de problème, une première approche, dite par lignes de niveaux, consiste àreprésenter le front comme une ligne de niveau d'une fonction auxiliaire u. Cette approche ramène l'étude du problème d'évolution géométrique à un problème d'EDP puisque u vérifie une équation de Hamilton-Jacobi. Quelques résultats dans le cas de vitesses locales comme la courbure moyenne sont présentés mais la majorité des résultats concerne le cas de vitesses non-locales décrivant la dynamique des dislocations dans un cristal ou modélisant l'asymptotique d'un système de FitzHugh-Nagumo apparaissant en biologie. Une approche différente, basée sur des solutions de viscosité géométriques, est utilisée pour étudier des problèmes de propagation de fronts apparaissant en optimisation de formes. Le but est de trouver un ensemble optimal minimisant une énergie du type capacité à volume ou périmètre constant. L'idée est de déformer le bord d'un ensemble donné avec une vitesse normale adéquate de manière à diminuer au plus son énergie. La mise en oeuvre de cette idée nécessite la construction rigoureuse d'une telle évolution pour tout temps et la preuve de la convergence vers une solution du problème initial. De plus, la décroissance de l'énergie est obtenue le long du flot.<br /><br />Le deuxième chapitre décrit des résultats d'unicité, d'existence et d'homogénéisation pour des équations de Hamilton-Jacobi-Bellman. La majeure partie du travail effectué concerne des équations provenant de problèmes de contrôle stochastique avec des contrôles non-bornés. Les équations comportent alors des termes quadratiques par rapport au gradient et les solutions étudiées sont elles-mêmes à croissance quadratique. Des liens entre ces solutions et les fonctions valeurs des problèmes de contrôle correspondants sont établis. La seconde partie est consacrée à un théorème d'homogénéisation pour un système d'équations de Hamilton-Jacobi du premier ordre.<br /><br />Le troisième et dernier chapitre traite d'un sujet un peu à part, à savoir le lien entre les flots de gradient et l'inégalité de Lojasiewicz. La principale originalité de ce travail est de placer l'étude dans un cadre hilbertien pour des fonctions semiconvexes, ce qui sort du cadre de l'inégalité de Lojasiewicz classique. Le principal théorème produit des caractérisations de cette inégalité. Les résultats peuvent être précisés dans le cas des fonctions convexes ; en particulier, un contre-exemple de fonction convexe ne vérifiant pas l'inégalité de Lojasiewicz est construit. Cette dernière inégalité est reliée à la longueur des trajectoires de gradient. Une borne de cette longueur est obtenue pour les fonctions convexes coercives en dimension deux même lorsque cette inégalité n'est pas vérifiée.
|
Page generated in 0.0484 seconds