Global ETD Search

Return to search

Algebraische Analyse von approximativem Reinforcement Lernen

Die Arbeit beschäftigt sich mit Konvergenz- und Stabilitätseigenschaften von Verfahren des Reinforcement Lernens mit Funktionsapproximation. Besonderer Schwerpunkt wird dabei auf die Analyse des TD[0] Lernens gelegt, welches als unendliches Produkt von Matrizen aufgefasst wird. Damit kann man eine Klasse von Approximatoren festlegen, welche für das TD[0] Lernen geeignet ist. Im Allgemeinen ist eine solche Analyse aber schwer durchzuführen (Unentscheidbarkeit der Beschränktheit von unendlichen Matrixprodukten). Um eine breitere Klasse von Approximatoren untersuchen zu können, wird das so genannte synchrone TD[0] Lernen vollständig analysiert (inklusive Aussagen über Konvergenzgeschwindigkeit). Es wird aufgezeigt, dass die Divergenz des synchronen TD[0] Lernens die Divergenz des normalen (asynchronen) TD[0] Lernens impliziert. Es werden verschiedene Klassen von Approximatoren sowie andere Bedingungen für die Stabilität des synchronen TD[0] Lernens untersucht. Eine Anwendung der erzielten Resultate auf gitterbasierte Approximatoren schliesst die Arbeit ab.

https://repositorium.ub.uni-osnabrueck.de/handle/urn:nbn:de:gbv:700-2005080114

Reinforcement Lernen

Maschinelles Lernen

Funktionsapproximation

54.72 - Künstliche Intelligenz

28 - Informatik, Datenverarbeitung

ddc:004

Identifer	oai:union.ndltd.org:uni-osnabrueck.de/oai:repositorium.ub.uni-osnabrueck.de:urn:nbn:de:gbv:700-2005080114
Date	01 August 2005
Creators	Merke, Artur
Contributors	Prof. Dr. Martin Riedmiller, Prof. Dr. Barbara Hammer
Source Sets	Universität Osnabrück
Language	German
Detected Language	German
Type	doc-type:doctoralThesis
Format	application/zip, application/pdf
Rights	http://rightsstatements.org/vocab/InC/1.0/

Page generated in 0.0016 seconds

Algebraische Analyse von approximativem Reinforcement Lernen

Description

Links & Downloads

Tags

Additional Fields