Spelling suggestions: "subject:"modelfree"" "subject:"defree""
41 |
Die Chemilumineszenz - Ihre Anwendung in der Konservierungsforschung bei der Untersuchung der Stabilität eines Triterpen-NaturharzesBuder, Andreas 15 March 2024 (has links)
In der Konservierungsforschung werden unterschiedlichste Materialien analysiert und auf ihre Stabilität hin geprüft, um gezielte Konservierungs- oder Restaurierungsmassnahmen durchzuführen und deren Nachhaltigkeit besser einschätzen zu können.
Die Chemilumineszenz - im Folgenden kurz CL - ist ein Phänomen, bei dem ein Elektron aus einem energetisch höher gelegenen Orbital in einen tiefer liegenden Zustand relaxiert und dabei seine Energie in Form von Photonen abgibt. Der angeregte Zustand wird durch eine chemische Reaktion verursacht.
Dieser Vorgang ist sehr spezifisch und tritt u.a. bei Oxidationsreaktionen auf. Durch Rekombination zweier Peroxide wird z.B. eine angeregte Carbonylverbindung erzeugt, die ihre Energie als Licht emittiert.
Dieser Zusammenhang zwischen der Oxidation organischer Substanzen und die Emission von Photonen bedingt die hier zentral gestellte Frage, ob die Chemilumineszenz als Methode zur Charakterisierung von Materialien, die in der Konservierungsforschung relevant sind, eingesetzt werden kann.
Innerhalb einer Forschungskooperation zwischen Departementen der Berner Fachhochschule BFH konnte ein Chemilumineszenz-Messgerät konstruiert, modifiziert und für diese Arbeit eingesetzt werden.
In der Arbeit wurde ein standardisiertes Messverfahren an verschiedenen Substanzen, wie z.B. Adamantylidenadamantan-1.2-dioxetan geprüft und die verschiedenen Einflüsse auf das Chemilumineszenz-Signal untersucht. Dabei konnten für das Messprinzip wichtige Daten, wie z.B. Präzision, Nachweis- und Bestimmungsgrenze erhoben werden.
Anhand der Stabilität von Dammar, einem Triterpen-Naturharz, konnte das Verfahren innerhalb der Arbeit, an einem komplexen Beispiel aus der Konservierungsforschung experimentell erprobt werden. Dabei wurden publizierte Resultate zum Oxidationsverhalten von Dammarharz teilweise verifiziert. Durch das spezifische Signal konnten die thermisch initiierten Reaktionen bei inerten und oxidativen Gas-Atmosphären dokumentiert werden. Die Ergebnisse wurden mit etablierten Methoden, wie z.B. DSC, TGA und ESR- Spektroskopie verglichen und Konsistenzen zu den Signalen erfasst.
Der in der Literatur diskutierte Einfluss von Stabilisatoren auf Dammarharz-Filme wurde an ungealterten und künstlich gealterten Proben mit der Chemilumineszenz untersucht. Dabei konnten ebenfalls in der Literatur empfohlene Formulierungen und Wirkungen bestimmter synergetischer Mischungen nachgewiesen und bestätigt werden.
Aus den ermittelten Daten der CL-Messungen liessen sich in einem Ausblick kinetische Berechnungen zu Aktivierungsparametern erstellen. Die ermittelten Parameter wurden zur Prognose von Reaktionsverläufen bei unterschiedlich simulierten Temperaturprofilen genutzt und machten eine Vorhersage zur Lebensdauer der Materialien möglich.
Neben der hohen Leistungsfähigkeit der Methode zeigte sich v.a. das hohe Potential der ermittelten Messdaten, v.a. in Bezug auf die Anwendung in der Modellfreien Kinetik.
Neben diesen Möglichkeiten wurden aber auch die Grenzen der Methode aufgezeigt. Diese sind einerseits durch die Besonderheit des Signals gegeben, welches mechanistisch bis heute noch nicht vollständig aufgeklärt ist, andererseits liegen sie bei der Weiterverarbeitung der Messdaten durch thermokinetische Software. Hier wird deutlich, dass die Qualität der Berechnungen zu Reaktionsverläufen nur so gut ist, wie die zuvor erhobenen Daten und, dass erstellte Prognosen zur Stabilität eines Materials lediglich eine Vorstellung vermitteln können. / During conservation studies different materials are analysed and tested for their solidity in order to be able to carry out precise conservation and restoration measures and to be able to assess their sustainability.
Chemiluminescence is a phenomenon in which an electron is relaxed from an energetically higher orbital into a lower situated condition while simultaneously releasing energy in the shape of photons. As a consequence the stimulated state is caused by a chemical reaction. This process is very specific and occurs during an oxidation reaction among other things. Through the recombination of two peroxides for example a stimulated carbonyl compound is generated which emits its energy as light.
This connection between the oxidation of organic substances and the emission of photons determines the main question, whether chemiluminescence can be used as a method for characterisation of materials which are relevant to the research of conservation.
As a result of a research project between departments of the Bern University of Applied Sciences BFH it was possible to construct a chemiluminescence measuring device and modify it in a way that it could be used for this work.
Within this experiment a standardised method of measurement was tested on different substances, for example adamantylidenadamantan-1.2-dioxetan, and the different impacts on the chemiluminescence-signal investigated. Through this process important facts were determined for the concept of measurement, for example precision, proof- and definition perimeters.
Based on the solidity of dammar, a triterpene resin, the method could be experimentally verified within the test using a complex example from conservation research. Within that process published results about the oxidation properties of dammar resin were verified. Due to the specific signal, the thermally initiated responses in inert as well as oxidative gas atmospheres could be documented. The results were compared with established methods like DSC, TGA and ESR spectroscopy and the consistencies to the signals logged.
The already much discussed influence of stabilisers on dammar resin was tested on nonaged and artificially aged specimens using chemiluminescence. Through these previously suggested formulations, effects of certain synergistic composites were detected and confirmed.
Using the data from the chemiluminescence measurements kinetic calculations about activation parameters were compiled. The identified parameters were used for the prognosis of the course of reactions during differently simulated temperature profiles, making a prediction of the materials’ life span possible.
Through these results not only the high performance ability of the method became apparent but also the potential of the determined measurement data, mainly in connection with the application within the model-free kinetic.
However, alongside these possibilities limitations of the method were revealed. These are partly caused by the characteristics of the signal which has yet to be mechanistically fully clarified. Simultaneously, further processing of the measurement data via thermokinetic software makes clear that the quality of the calculations of the reaction process is only as good as the quality of the initial data. This suggests the prognoses about the stability of the material only conveys a concept of their qualities.
|
42 |
Attention: A Complex System / From the Intricate Modulation of Tuned Responses Towards a Layered Cortical Circuit ModelHelmer, Markus 11 September 2015 (has links)
No description available.
|
43 |
Modelling and control of a high performance electro-hydraulic test bench / Modélisation et commande d'un banc d'essai électro-hydraulique haute performanceXu, Yaozhong 11 June 2013 (has links)
Les systèmes électro-hydrauliques sont largement utilisés dans l’industrie pour des contrôles de position ou d’effort. Cependant, à cause des non-linéarités du système électro-hydraulique, il est difficile d’établir un modèle précis valable sur une large bande de fréquences et de grands mouvements. Le travail de cette thèse concerne un banc d’essai électro-hydraulique qui comporte trois composants hydrauliques principaux, à savoir deux servovalves haute performance, un vérin à double tige, et une embase spécifique qui relie les servovalves et le vérin. Ce banc d’essai a été conçu pour tester des composants aéronautique et automobile dans des conditions réelles (par exemple, tests d'usure ou de vieillissement). Le premier objectif principal de cette thèse concerne la mise en œuvre d’un prototype virtuel basé sur un modèle précis issu de considérations physiques et d'un travail expérimental afin d'identifier les paramètres et de valider le réalisme du prototype virtuel. Le deuxième objectif est d'élaborer des lois de commande non-linéaires sophistiquées avec une large plage de fonctionnement et une bonne robustesse aux perturbations. Le modèle proposé basé sur le Bond Graph montre une très bonne adéquation entre les résultats de simulation et les résultats expérimentaux non seulement en basses fréquences, mais également en fréquences élevées. En particulier, les performances en hautes fréquences sont nettement améliorées par l'introduction des effets dynamiques liés à l’embase. En outre, des lois de commande, respectivement basées sur le backstepping et sur la commande sans modèle, ont été élaborées et mises en œuvre sur le banc d’essai. Toutes les lois de commande proposées ont été validées à la fois en simulation et expérimentalement. Les résultats montrent qu’ils conduisent à de meilleures performances en suivi de position et en robustesse par rapport aux lois de commande classiques. / Hydraulic systems are widely applied in industry for position or force control. However, due to hydraulic system nonlinearities, it is difficult to achieve a precise model valid over a large range of frequencies and movements. The work in this dissertation focuses on a high performance hydraulic test bench which involves three main hydraulic components, i.e. two high performance servovalves, a double rod actuator, and a specific intermediate block connecting the servovalves and actuator. This rig has been designed for testing aerospace or automotive components in real conditions (e.g. wear and ageing effects). The main objectives of this dissertation are first the development of a virtual prototype based on a precise model which is derived from the physical principles and experimental works, and then second the synthesis of several nonlinear control laws of this actuation system in a large operating range with a good robustness to the perturbations. The proposed model based on Bond Graph shows a very good agreement with experimental results not only at low frequencies, but also at high frequencies. Moreover, its performances are improved at high frequencies by introducing the dynamic effects due to the intermediate block. Besides, multivariable and monovariable control strategies, based on respectively the backstepping and the model-free method, are developed and implemented on the test bench. All the control strategies proposed have been validated by simulations and experiments. Results show they lead to better tracking precision and robustness performance compared to the conventional control techniques.
|
44 |
Prognose des Langzeitverhaltens von Textilbeton-Tragwerken mit rekurrenten neuronalen NetzenFreitag, Steffen, Graf, Wolfgang, Kaliske, Michael 03 June 2009 (has links) (PDF)
Zur Prognose des Langzeitverhaltens textilbetonverstärkter Tragwerke wird ein modellfreies Vorgehen auf Basis rekurrenter neuronaler Netze vorgestellt. Das Vorgehen ermöglicht die Prognose zeitveränderlicher Strukturantworten unter Berücksichtigung der gesamten Belastungsgeschichte. Mit unscharfen Größen aus Messungen an Versuchstragwerken werden rekurrente neuronale Netze trainiert. Anschließend ist die unscharfe Prognose des Tragverhaltens möglich.
|
45 |
Estimation and dynamic longitudinal control of an electric vehicle with in-wheel electric motorsGeamanu, Marcel-Stefan 30 September 2013 (has links) (PDF)
The main objective of the present thesis focuses on the integration of the in-wheel electric motors into the conception and control of road vehicles. The present thesis is the subject of the grant 186-654 (2010-2013) between the Laboratory of Signals and Systems (L2S-CNRS) and the French Institute of Petrol and New Energies (IFPEN). The thesis work has originally started from a vehicular electrification project, equipped with in-wheel electric motors at the rear axle, to obtain a full electric urban use and a standard extra-urban use with energy recovery at the rear axle in braking phases. The standard internal combustion engines have the disadvantage that complex estimation techniques are necessary to compute the instantaneous engine torque. At the same time, the actuators that control the braking system have some delays due to the hydraulic and mechanical circuits. These aspects represent the primary motivation for the introduction and study of the integration of the electric motor as unique propelling source for the vehicle. The advantages brought by the use of the electric motor are revealed and new techniques of control are set up to maximize its novelty. Control laws are constructed starting from the key feature of the electric motor, which is the fact that the torque transmitted at the wheel can be measured, depending on the current that passes through the motor. Another important feature of the electric motor is its response time, the independent control, as well as the fact that it can produce negative torques, in generator mode, to help decelerate the vehicle and store energy at the same time. Therefore, the novelty of the present work is that the in-wheel electric motor is considered to be the only control actuator signal in acceleration and deceleration phases, simplifying the architecture of the design of the vehicle and of the control laws. The control laws are focused on simplicity and rapidity in order to generate the torques which are transmitted at the wheels. To compute the adequate torques, estimation strategies are set up to produce reliable maximum friction estimation. Function of this maximum adherence available at the contact between the road and the tires, an adequate torque will be computed in order to achieve a stable wheel behavior in acceleration as well as in deceleration phases. The critical issue that was studied in this work was the non-linearity of the tire-road interaction characteristics and its complexity to estimate when it varies. The estimation strategy will have to detect all changes in the road-surface adherence and the computed control law should maintain the stability of the wheel even when the maximum friction changes. Perturbations and noise are also treated in order to test the robustness of the proposed estimation and control approaches.
|
46 |
Efficient Feature Extraction for Shape Analysis, Object Detection and TrackingSolis Montero, Andres January 2016 (has links)
During the course of this thesis, two scenarios are considered. In the first one, we contribute to feature extraction algorithms. In the second one, we use features to improve object detection solutions and localization. The two scenarios give rise to into four thesis sub-goals. First, we present a new shape skeleton pruning algorithm based on contour approximation and the integer medial axis. The algorithm effectively removes unwanted branches, conserves the connectivity of the skeleton and respects the topological properties of the shape. The algorithm is robust to significant boundary noise and to rigid shape transformations. It is fast and easy to implement. While shape-based solutions via boundary and skeleton analysis are viable solutions to object detection, keypoint features are important for textured object detection. Therefore, we present a keypoint featurebased planar object detection framework for vision-based localization. We demonstrate that our framework is robust against illumination changes, perspective distortion, motion
blur, and occlusions. We increase robustness of the localization scheme in cluttered environments and decrease false detection of targets. We present an off-line target evaluation strategy and a scheme to improve pose. Third, we extend planar object detection to a real-time approach for 3D object detection using a mobile and uncalibrated camera. We develop our algorithm based on two novel naive Bayes classifiers for viewpoint and feature matching that improve performance and decrease memory usage. Our algorithm exploits the specific structure of various binary descriptors in order to boost feature matching by conserving descriptor properties. Our novel naive classifiers require a database with a small memory footprint because we only store efficiently encoded features. We improve the feature-indexing scheme to speed up the matching process creating a highly efficient database for objects. Finally, we present a model-free long-term tracking algorithm based on the Kernelized Correlation Filter. The proposed solution improves the correlation tracker based on precision, success, accuracy and robustness while increasing frame rates. We integrate adjustable Gaussian window and sparse features for robust scale estimation creating a better separation of the target and the background. Furthermore, we include fast descriptors and Fourier spectrum packed format to boost performance while decreasing the memory footprint. We compare our algorithm with state-of-the-art techniques to validate the results.
|
47 |
Prognose des Langzeitverhaltens von Textilbeton-Tragwerken mit rekurrenten neuronalen NetzenFreitag, Steffen, Graf, Wolfgang, Kaliske, Michael 03 June 2009 (has links)
Zur Prognose des Langzeitverhaltens textilbetonverstärkter Tragwerke wird ein modellfreies Vorgehen auf Basis rekurrenter neuronaler Netze vorgestellt. Das Vorgehen ermöglicht die Prognose zeitveränderlicher Strukturantworten unter Berücksichtigung der gesamten Belastungsgeschichte. Mit unscharfen Größen aus Messungen an Versuchstragwerken werden rekurrente neuronale Netze trainiert. Anschließend ist die unscharfe Prognose des Tragverhaltens möglich.
|
48 |
Modelle zur Beschreibung des Geschwindigkeitsverhaltens auf Stadtstraßen und dessen Auswirkungen auf die Verkehrssicherheit auf Grundlage der StraßengestaltungSchüller, Hagen 16 June 2010 (has links)
Die vorliegende Dissertationsschrift widmet sich der Beschreibung des Geschwindigkeits-verhaltens von Kraftfahrern auf innerörtlichen Straßen sowie dessen Auswirkungen auf die Verkehrssicherheit. Grundlage bilden manuelle und automatische Querschnittsmessungen von Einzelgeschwindigkeiten in Hauptverkehrs- und Erschließungs¬straßen mit zulässigen Höchstgeschwindigkeiten von 50 bzw. 30 km/h. Die Beschreibung von Wunschgeschwindigkeiten über unterschiedliche Abgrenzungen freifahrender Fahrzeuge, deren Geschwindigkeiten die Grundlage für die folgenden Modelle bilden, sowie die Überprüfung der Übertragbarkeit von Querschnittsmessungen auf die Strecke und die Analyse von Geschwindigkeitsganglinien dienen der Einordnung der in dieser Untersuchung vorgelegten Ergebnisse. Ziel des ersten Teils der Arbeit ist die Beschreibung möglicher Einflussfaktoren aus der Gestaltung, dem Betrieb sowie der Lage im Netz und dem Umfeld einer Straße auf die Wahl der Geschwindigkeit von Pkw-Fahrern. Erste Ansätze werden aus dem Vergleich von fahrtrichtungsbezogenen Geschwindigkeiten an einem Querschnitt mit asymmetrischer Gestaltung abgeleitet. Auf Basis querschnittsbezogener mittlerer und v85-Geschwindigkeiten werden verschiedene multiple Regressionsmodelle aufgestellt und miteinander verglichen. Die Modelle basieren auf Messungen im Straßennetz Dresdens und werden anhand von Messungen aus anderen deutschen Städten validiert. Signifikante Einflussgrößen ergeben sich aus den Bereichen Verkehrsbedeutung, Querschnittsgestaltung, Umfeldnutzung und Fahrbahnoberfläche eines Straßenquerschnitts. Die Einflussgrößen sowie deren Abhängigkeiten untereinander werden diskutiert und Potenziale für Maßnahmen zur Geschwindigkeitsreduzierung aufgezeigt. Im zweiten Teil der Arbeit werden für Tempo-50-Straßen verallgemeinerte lineare Modelle zur Beschreibung des Einflusses der Geschwindigkeit auf die Verkehrssicherheit abgeleitet. Für unterschiedliche Unfallkollektive bezüglich räumlicher Abgrenzung, Unfallschwere und Verkehrsbeteiligung wird der Geschwindigkeitseinfluss auf die Unfallzahl anhand einer Potenzfunktion (Power-Modell) unter Kontrolle der Randbedingungen Verkehrsaufkommen des motorisierten Individual-verkehrs und Umfeldnutzung beschrieben. Die Zahl der Unfälle mit Personenschaden steigt progressiv mit der mittleren Geschwindigkeit und degressiv mit dem DTV an. / Driving speeds of personal vehicles on urban roads are analyzed and their influence on traffic safety is modeled. The speed data is measured at cross sections on major and minor roads with speed limits of 50 and 30 km/h. Different kinds of classification of free-flow-vehicles were analyzed for the description of the desired speed of a driver. Also local speeds along road sections as well as time variation curves of driving speeds are documented in order to interpret and classify the provided findings. The first part of this work deals with the prediction of local driving speeds based on parameters of the roadway environment determining road design as well as the land-use next to the road. One first simple approach is to compare both driving directions at non-symmetric cross sections. Then several multiple regression models for mean speeds and 85-percentiles of the speed distribution are estimated and compared with each other. The models are based on the road network of the city of Dresden and are validated with speed measurements in other German cities. Road classification, cross section characteristics, land-use and the road surface condition are found to be significant parameters that correlate with driving speed. The possible influences on the choice of speed and their interdependencies as well as their practical relevance are discussed. In the second part of this work the influence of speeds on the occurrence of traffic accidents is estimated using Generalized Linear Models. This is done for different accident groups under consideration of the annual daily traffic and a parameter that describes the length and type of land-use of the adjacent buildings next to the road section. The relationship between speed and accident counts can be described using a power function. Accident numbers rise progressively with increasing speeds and rise in a declining manner with increasing amount of traffic.
|
49 |
Estimation and dynamic longitudinal control of an electric vehicle with in-wheel electric motors / Estimation et contrôle dynamique longitudinale d’un véhicule électrique avec moteurs-roueGeamanu, Marcel-Stefan 30 September 2013 (has links)
L'objectif principal de cette thèse est l'étude de l'exploitation de systèmes moteurs-roues (machines électriques intégrées à la roue) pour le contrôle de la dynamique véhicule. Cette thèse est issue d'un co-financement (numéro 186-654, 2010-2013) entre le Laboratoire des Signaux et Systèmes (CNRS) et l'Institut Français du Pétrole et Énergies Nouvelles (IFPEN). Les avantages apportés par l'utilisation du moteur électrique sont avérés et de nouvelles techniques de contrôle sont développées pour optimiser son utilisation. Les lois de contrôle basent généralement sur la grandeur principale du moteur électrique: le couple transmis, qui peut être mesuré via le courant consommé. Une autre caractéristique importante du moteur électrique est son temps de réponse, avec le fait qu'il peut produire des couples négatifs, pour ralentir le véhicule, tout en stockant l'énergie. La nouveauté du présent travail est de considérer le moteur-roue électrique comme seul signal de contrôle dans des phases d'accélération et des phases de ralentissement, simplifiant l'architecture de la conception du véhicule et des lois de contrôle. Pour répondre à la demande conducteur tout en préservant un comportement sain du véhicule, des stratégies d'estimation de la limite d'adhérence seront présentées. En fonction de cette adhérence maximale disponible entre la route et les pneus, un couple adéquat sera calculé pour assurer un comportement stable dans des phases d'accélération aussi bien que de freinage. L'aspect critique étudié dans ce travail est la non-linéarité des caractéristiques d'interaction entre la route et le pneu et la complexité de son estimation dans des conditions variables. La stratégie d'estimation devra détecter tous les changements d'adhérence de route et la loi de contrôle calculée devra maintenir la stabilité véhicule même lorsque la friction maximale change. Certaines formes de perturbation et de bruit seront également prises en compte afin de tester la robustesse des approches d'estimation et de contrôle proposés. Parmi les systèmes de sécurité active les plus importants en phase d'accélération, le système de contrôle de traction (TCS) rétablit la traction si les roues commencent à patiner et le programme de stabilité électronique (ESP) intervient pour prévenir une perte menaçante du contrôle latéral du véhicule. Dans le cas du freinage, le système décisif est le système d'antiblocage (ou ABS), qui empêche le blocage des roues. On peut trouver d'autres systèmes embarqués, comme le système de distribution de force de freinage électronique (EBD), qui assure une distribution optimale de la force de freinage transmise aux roues, pour éviter de déraper et assure un ralentissement stable du véhicule. Les systèmes embarqués qui fournissent les estimations doivent être robustes aux bruits de mesure et aux perturbations. A fortiori, ces calculs doivent être faits en temps réel, donc une complexité réduite et une réponse rapide de la loi de contrôle sont nécessaires. Enfin, l'environnement dans lequel le véhicule fonctionne est dynamique, les caractéristiques d'adhérence peuvent varier en fonction de l'état de la route et de la météo. Ainsi, on ne peut prévoir les réactions du conducteur pouvant influencer la réponse globale du véhicule dans des situations d'urgence. Le contrôleur devrait prendre en compte tous ces aspects pour préserver un comportement stable du véhicule. Bien que le contrôle latéral du véhicule présente une importance majeure dans la stabilité globale du véhicule, le présent travail est concentré sur le contrôle longitudinal du véhicule, puisqu'il représente le point de départ de la dynamique véhicule. / The main objective of the present thesis focuses on the integration of the in-wheel electric motors into the conception and control of road vehicles. The present thesis is the subject of the grant 186-654 (2010-2013) between the Laboratory of Signals and Systems (L2S-CNRS) and the French Institute of Petrol and New Energies (IFPEN). The thesis work has originally started from a vehicular electrification project, equipped with in-wheel electric motors at the rear axle, to obtain a full electric urban use and a standard extra-urban use with energy recovery at the rear axle in braking phases. The standard internal combustion engines have the disadvantage that complex estimation techniques are necessary to compute the instantaneous engine torque. At the same time, the actuators that control the braking system have some delays due to the hydraulic and mechanical circuits. These aspects represent the primary motivation for the introduction and study of the integration of the electric motor as unique propelling source for the vehicle. The advantages brought by the use of the electric motor are revealed and new techniques of control are set up to maximize its novelty. Control laws are constructed starting from the key feature of the electric motor, which is the fact that the torque transmitted at the wheel can be measured, depending on the current that passes through the motor. Another important feature of the electric motor is its response time, the independent control, as well as the fact that it can produce negative torques, in generator mode, to help decelerate the vehicle and store energy at the same time. Therefore, the novelty of the present work is that the in-wheel electric motor is considered to be the only control actuator signal in acceleration and deceleration phases, simplifying the architecture of the design of the vehicle and of the control laws. The control laws are focused on simplicity and rapidity in order to generate the torques which are transmitted at the wheels. To compute the adequate torques, estimation strategies are set up to produce reliable maximum friction estimation. Function of this maximum adherence available at the contact between the road and the tires, an adequate torque will be computed in order to achieve a stable wheel behavior in acceleration as well as in deceleration phases. The critical issue that was studied in this work was the non-linearity of the tire-road interaction characteristics and its complexity to estimate when it varies. The estimation strategy will have to detect all changes in the road-surface adherence and the computed control law should maintain the stability of the wheel even when the maximum friction changes. Perturbations and noise are also treated in order to test the robustness of the proposed estimation and control approaches.
|
50 |
Parsimonious reasoning in reinforcement learning for better credit assignmentMa, Michel 08 1900 (has links)
Le contenu de cette thèse explore la question de l’attribution de crédits à long terme dans l’apprentissage par renforcement du point de vue d’un biais inductif de parcimonie. Dans ce contexte, un agent parcimonieux cherche à comprendre son environnement en utilisant le moins de variables possible. Autrement dit, si l’agent est crédité ou blâmé pour un certain comportement, la parcimonie l’oblige à attribuer ce crédit (ou blâme) à seulement quelques variables latentes sélectionnées. Avant de proposer de nouvelles méthodes d’attribution parci- monieuse de crédits, nous présentons les travaux antérieurs relatifs à l’attribution de crédits à long terme en relation avec l’idée de sparsité. Ensuite, nous développons deux nouvelles idées pour l’attribution de crédits dans l’apprentissage par renforcement qui sont motivées par un raisonnement parcimonieux : une dans le cadre sans modèle et une pour l’apprentissage basé sur un modèle. Pour ce faire, nous nous appuyons sur divers concepts liés à la parcimonie issus de la causalité, de l’apprentissage supervisé et de la simulation, et nous les appliquons dans un cadre pour la prise de décision séquentielle.
La première, appelée évaluation contrefactuelle de la politique, prend en compte les dévi- ations mineures de ce qui aurait pu être compte tenu de ce qui a été. En restreignant l’espace dans lequel l’agent peut raisonner sur les alternatives, l’évaluation contrefactuelle de la politique présente des propriétés de variance favorables à l’évaluation des politiques. L’évaluation contrefactuelle de la politique offre également une nouvelle perspective sur la rétrospection, généralisant les travaux antérieurs sur l’attribution de crédits a posteriori. La deuxième contribution de cette thèse est un algorithme augmenté d’attention latente pour l’apprentissage par renforcement basé sur un modèle : Latent Sparse Attentive Value Gra- dients (LSAVG). En intégrant pleinement l’attention dans la structure d’optimisation de la politique, nous montrons que LSAVG est capable de résoudre des tâches de mémoire active que son homologue sans modèle a été conçu pour traiter, sans recourir à des heuristiques ou à un biais de l’estimateur original. / The content of this thesis explores the question of long-term credit assignment in reinforce- ment learning from the perspective of a parsimony inductive bias. In this context, a parsi- monious agent looks to understand its environment through the least amount of variables possible. Alternatively, given some credit or blame for some behavior, parsimony forces the agent to assign this credit (or blame) to only a select few latent variables. Before propos- ing novel methods for parsimonious credit assignment, previous work relating to long-term credit assignment is introduced in relation to the idea of sparsity. Then, we develop two new ideas for credit assignment in reinforcement learning that are motivated by parsimo- nious reasoning: one in the model-free setting, and one for model-based learning. To do so, we build upon various parsimony-related concepts from causality, supervised learning, and simulation, and apply them to the Markov Decision Process framework.
The first of which, called counterfactual policy evaluation, considers minor deviations of what could have been given what has been. By restricting the space in which the agent can reason about alternatives, counterfactual policy evaluation is shown to have favorable variance properties for policy evaluation. Counterfactual policy evaluation also offers a new perspective to hindsight, generalizing previous work in hindsight credit assignment. The second contribution of this thesis is a latent attention augmented algorithm for model-based reinforcement learning: Latent Sparse Attentive Value Gradients (LSAVG). By fully inte- grating attention into the structure for policy optimization, we show that LSAVG is able to solve active memory tasks that its model-free counterpart was designed to tackle, without resorting to heuristics or biasing the original estimator.
|
Page generated in 0.0347 seconds