• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • Tagged with
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Algebraische Analyse von approximativem Reinforcement Lernen

Merke, Artur 01 August 2005 (has links)
Die Arbeit beschäftigt sich mit Konvergenz- und Stabilitätseigenschaften von Verfahren des Reinforcement Lernens mit Funktionsapproximation. Besonderer Schwerpunkt wird dabei auf die Analyse des TD[0] Lernens gelegt, welches als unendliches Produkt von Matrizen aufgefasst wird. Damit kann man eine Klasse von Approximatoren festlegen, welche für das TD[0] Lernen geeignet ist. Im Allgemeinen ist eine solche Analyse aber schwer durchzuführen (Unentscheidbarkeit der Beschränktheit von unendlichen Matrixprodukten). Um eine breitere Klasse von Approximatoren untersuchen zu können, wird das so genannte synchrone TD[0] Lernen vollständig analysiert (inklusive Aussagen über Konvergenzgeschwindigkeit). Es wird aufgezeigt, dass die Divergenz des synchronen TD[0] Lernens die Divergenz des normalen (asynchronen) TD[0] Lernens impliziert. Es werden verschiedene Klassen von Approximatoren sowie andere Bedingungen für die Stabilität des synchronen TD[0] Lernens untersucht. Eine Anwendung der erzielten Resultate auf gitterbasierte Approximatoren schliesst die Arbeit ab.
2

Dateneffiziente selbstlernende neuronale Regler

Hafner, Roland 04 December 2009 (has links)
Die vorliegende Arbeit untersucht den Entwurf und die Anwendung selbstlernender Regler als intelligente Reglerkomponente im Wirkungsablauf eines Regelkreises für regelungstechnische Anwendungen. Der aufwändige Prozess der Analyse des dynamischen Systems und der Reglersynthese, welche die klassischen Entwurfsmuster der Regelungstechnik benötigen, wird dabei ersetzt durch eine lernende Reglerkomponente. Diese kann mit sehr wenig Wissen über den zu regelnden Prozess eingesetzt werden und lernt direkt durch Interaktion eine präzise Regelung auf extern vorgegebene Führungsgrößen. Der Lernvorgang basiert dabei auf einem Optimierungsprozess mit einem leistungsfähigen Batch-Reinforcement-Lernverfahren, dem ´Neural Fitted Q-Iteration´. Dieses Verfahren wird auf seine Verwendung als selbstlernender Regler untersucht. Für die in den Untersuchungen festgestellten Unzulänglichkeiten des Verfahrens bezüglich der geforderten präzisen, zeitoptimalen Regelung werden verbesserte Vorgehensweisen entwickelt, die ebenfalls auf ihre Leistungsfähigkeit untersucht werden.Für typische regelungstechnische Problemstellungen sind die diskreten Aktionen des NFQ-Verfahrens nicht ausreichend, um eine präzise Regelung auf beliebige Führungsgrößen zu erzeugen.Durch die Entwicklung einer Erweiterung des NFQ für kontinuierliche Aktionen wird die Genauigkeit und Leistungsfähigkeit der selbstlernenden Regler drastisch erhöht, ohne die benötigte Interaktionszeit am Prozess zu erhöhen.An ausgewählten Problemen der Regelung linearer und nichtlinearer Prozesse wird die Leistungsfähigkeit der entwickelten Verfahren empirisch evaluiert. Es zeigt sich dabei, dass die hier entwickelten selbstlernenden Regler mit wenigen Minuten Interaktionszeit an einem Prozess eine präzise Regelungsstrategie für beliebige externe Führungsgrößen lernen, ohne dass Expertenwissen über den Prozess vorliegt.
3

Tiefes Reinforcement Lernen auf Basis visueller Wahrnehmungen

Lange, Sascha 19 May 2010 (has links)
Die vorliegende Arbeit widmet sich der Untersuchung und Weiterentwicklung selbständig lernender maschineller Lernverfahren (Reinforcement Lernen) in der Anwendung auf visuelle Wahrnehmungen. Zuletzt wurden mit der Einführung speicherbasierter Methoden in das Reinforcement Lernen große Fortschritte beim Lernen an realen Systemen erzielt, aber der Umgang mit hochkomplexen visuellen Eingabedaten, wie sie z.B. von einer digitalen Kamera aufgezeichnet werden, stellt weiterhin ein ungelöstes Problem dar. Bestehende Methoden sind auf den Umgang mit niedrigdimensionalen Zustandsbeschreibungen beschränkt, was eine Anwendung dieser Verfahren direkt auf den Strom von Bilddaten bisher ausschließt und den vorgeschalteten Einsatz klassischer Methoden des Bildverstehens zur Extraktion und geeigneten Kodierung der relevanten Informationen erfordert. Einen Ausweg bietet der Einsatz von so genannten `tiefen Autoencodern'. Diese mehrschichtigen neuronalen Netze ermöglichen es, selbstorganisiert niedrigdimensionale Merkmalsräume zur Repräsentation hochdimensionaler Eingabedaten zu erlernen und so eine klassische, aufgabenspezifische Bildanalyse zu ersetzen. In typischen Objekterkennungsaufgaben konnten auf Basis dieser erlernten Repräsentationen bereits beeindruckende Ergebnisse erzielt werden. Im Rahmen der vorliegenden Arbeit werden nun die tiefen Autoencodernetze auf ihre grundsätzliche Tauglichkeit zum Einsatz im Reinforcement Lernen untersucht. Mit dem ``Deep Fitted Q''-Algorithmus wird ein neuer Algorithmus entwickelt, der das Training der tiefen Autoencodernetze auf effiziente Weise in den Reinforcement Lernablauf integriert und so den Umgang mit visuellen Wahrnehmungen beim Strategielernen ermöglicht. Besonderes Augenmerk wird neben der Dateneffizienz auf die Stabilität des Verfahrens gelegt. Im Anschluss an eine Diskussion der theoretischen Aspekte des Verfahrens wird eine ausführliche empirische Evaluation der erzeugten Merkmalsräume und der erlernten Strategien an simulierten und realen Systemen durchgeführt. Dabei gelingt es im Rahmen der vorliegenden Arbeit mit Hilfe der entwickelten Methoden erstmalig, Strategien zur Steuerung realer Systeme direkt auf Basis der unvorverarbeiteten Bildinformationen zu erlernen, wobei von außen nur das zu erreichende Ziel vorgegeben werden muss.

Page generated in 0.0798 seconds