Back to Search
Start Over
Parameter Exploring Policy Gradients and their Implications
- Publication Year :
- 2013
-
Abstract
- Reinforcement Learning is the most commonly used class of learning algorithms which lets robots or other systems autonomously learn their behaviour. Learning is enabled solely through interaction with the environment. Today’s learning systems are often confronted with high dimensional and continuous problems. To solve those, so-called Policy Gradient methods are used more and more often. The PGPE algorithm developed in this thesis, a new type of Policy Gradient algorithm, allows model-free learning in complex, continuous, partially observable and high dimensional environments. We show that tasks like grasping of glasses and plates with an human-like arm can be learned with this method without prior knowledge, solely with pure model-free reinforcement learning in a simulation environment. Also, the balancing of a humanoid robot perturbed by external forces, as well as dynamic walking behaviour of a mass-spring system could be learned. In all experiments, PGPE learned the given tasks more efficiently than well-established methods. In addition, the use of PGPE is not restricted to robotics. Among several investigated methods, it was the most successful in cracking non-differentiable physical cryptography systems. PGPE is suitable for training multidimensional recurrent neural networks to play Go, or for fine-tuning deep neural nets for computer vision. In the scope of this thesis, the principles used, the advantages and disadvantages as well as the differences with regard to well-established methods are derived and analysed in detail.<br />Reinforcement Learning (Bestärkendes Lernen) ist die am häufigsten verwendete Klasse von Lernalgorithmen, um Robotern oder anderen Systemen das selbständige Erlernen ihres Verhalten zu ermöglichen. Lernen geschieht hierbei allein durch Interaktion des Systems mit seiner Umwelt. Heutige lernende Systeme haben es oft mit hochdimensionalen und kontinuierlichen Problemen zu tun. Hierfür kommen vermehrt die so genannten Policy Gradient Methoden zum Einsatz. Der in dieser Arbeit entwickelte PGPE-Algorithms, ein neuer Typ von Policy Gradients, ermöglicht modellfreies Lernen in komplexen, kontinuierlichen, nur teilweise beobachtbaren und hochdimensionalen Umgebungen. Wir zeigen, dass hiermit ohne Vorwissen, durch reines modellfreies bestärkendes Lernen in einer Simulationsumgebung, Aufgaben wie das Greifen von Gläsern und Tellern mit einem dem menschlichen Arm nachempfundenen Roboter erlernt werden. Auch das Balancieren eines humanoiden Roboters der von externen Kräften gestört wird, sowie das dynamische Laufen eines Masse-Feder Systems wurden erlernt. In allen Experimenten lernte PGPE die Aufgaben effizienter als etablierte Methoden. Der Einsatz von PGPE beschränkt sich dabei nicht auf die Robotik. Sie ist die erfolgreichste Methode unter den untersuchten um nicht differenzierbare physikalische Kryptographie Systeme zu brechen. Sie ist geeignet um multidimensionale rekurrente neuronale Netze zu trainieren, Go zu spielen oder um tiefe neuronale Netze für die Bildverarbeitung nachzutrainieren. Die Prinzipien, welche hierbei zur Anwendung kamen, die Vor- und Nachteile sowie die Unterschiede gegenüber den etablierten Methoden werden im Rahmen der Arbeit im Detail hergeleitet und analysiert.
Details
- Database :
- OAIster
- Notes :
- application/pdf, application/pdf, English
- Publication Type :
- Electronic Resource
- Accession number :
- edsoai.on1360217005
- Document Type :
- Electronic Resource