Back to Search
Start Over
Use of relaxed stochastic controls in reinforcement learning
- Publication Year :
- 2021
-
Abstract
- In this work, we investigate how relaxed stochastic controls are used for exploration in continuous time and space reinforcement learning. The environment $X^u$ is modeled by a stochastic differential equation controlled by control $u$, while the value function $V^u$ is an infinite horizon performance functional. For relaxed control distribution $pi$ we introduce relaxed versions of environment $X^{pi}$ and value function $V^{pi}.$ In a special linear-quadratic case the optimal control distribution turns out to be Gaussian with mean depending on the current state, and variance depending on exploration weight parameter. A reinforcement learning algorithm for optimal investment strategy in a simple model of the financial market with the infinite horizon is developed and tested. V tem delu si ogledamo, kako uporabiti relaksirane stohastične akcije pri definiranju raziskovanja v spodbujevalnem učenju v zveznem prostoru in času. Prostor $X^u$ je modeliran s stohastično diferencialno enačbo kontrolirano z akcijo $u.$ Funkcijo vrednosti $V^u$ je funkcional uspešnosti na neskončnem časovnem obdobju. Za relaksirano akcijo $pi$ vpeljemo raziskovalno verzijo okolja $X^{pi}$ in funkcijo vrednosti $V^{pi}.$ V posebnem linearno-kvadratičnem primeru se izkaže, da je optimalna relaksirana akcija Gaussova, kjer je pričakovana vrednost odvisna od trenutnega stanja, varianca pa od parametra, ki kontrolira raven raziskovanja v modelu. Predstavljen je algoritem spodbujevalnega učenja za napoved optimalne strategije v preprostem modelu finančnega trga z neskončim časovnim oknom.
- Subjects :
- udc:519.8
reinforcement learning
raziskovanje okolja
dynamical programming
spodbujevalno učenje
optimalna investicijska strategija
relaxed controls
teorija upravljanja stohastičnih sistemov
optimal investment strategy
exploration
stochastic control theory
relaksirane stohastične akcije
dinamično programiranje
Subjects
Details
- Language :
- English
- Database :
- OpenAIRE
- Accession number :
- edsair.od......3505..3f6dd23d6010e6fa22ba756b3cc47914