Back to Search Start Over

Use of relaxed stochastic controls in reinforcement learning

Authors :
Rems, Jan
Agram, Nacira
Publication Year :
2021

Abstract

In this work, we investigate how relaxed stochastic controls are used for exploration in continuous time and space reinforcement learning. The environment $X^u$ is modeled by a stochastic differential equation controlled by control $u$, while the value function $V^u$ is an infinite horizon performance functional. For relaxed control distribution $pi$ we introduce relaxed versions of environment $X^{pi}$ and value function $V^{pi}.$ In a special linear-quadratic case the optimal control distribution turns out to be Gaussian with mean depending on the current state, and variance depending on exploration weight parameter. A reinforcement learning algorithm for optimal investment strategy in a simple model of the financial market with the infinite horizon is developed and tested. V tem delu si ogledamo, kako uporabiti relaksirane stohastične akcije pri definiranju raziskovanja v spodbujevalnem učenju v zveznem prostoru in času. Prostor $X^u$ je modeliran s stohastično diferencialno enačbo kontrolirano z akcijo $u.$ Funkcijo vrednosti $V^u$ je funkcional uspešnosti na neskončnem časovnem obdobju. Za relaksirano akcijo $pi$ vpeljemo raziskovalno verzijo okolja $X^{pi}$ in funkcijo vrednosti $V^{pi}.$ V posebnem linearno-kvadratičnem primeru se izkaže, da je optimalna relaksirana akcija Gaussova, kjer je pričakovana vrednost odvisna od trenutnega stanja, varianca pa od parametra, ki kontrolira raven raziskovanja v modelu. Predstavljen je algoritem spodbujevalnega učenja za napoved optimalne strategije v preprostem modelu finančnega trga z neskončim časovnim oknom.

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.od......3505..3f6dd23d6010e6fa22ba756b3cc47914