Start Over

Une approche modifiée de Lambda-Policy Iteration

Authors :: Thiery, Christophe
Scherrer, Bruno
Autonomous intelligent machine (MAIA)
INRIA Lorraine
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA)
Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)
UPMC-Paris 6
Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)
Source :: Journées Francophones Planification Décision Apprentissage, Journées Francophones Planification Décision Apprentissage, UPMC-Paris 6, Jun 2009, Paris, France
Publication Year :: 2009
Publisher :: HAL CCSD, 2009.
Abstract: National audience; Dans le cadre du contrôle optimal stochastique, nous proposons une manière modifiée de mettre en oeuvre l'algorithme λ-Policy Iteration (Bertsekas & Tsitsiklis, 1996), une méthode qui généralise Value Iteration et Policy Iteration en introduisant un paramètre λ. Nous montrons que cette version modifiée, qui est analogue à Modified Policy Iteration, généralise tous ces algorithmes et converge vers la fonction de valeur optimale. En nous appuyant sur des arguments analytiques et expérimentaux, nous mettons en évidence le fait que lorsque l'algorithme est appliqué de manière exacte, le paramètre λ ne permet pas d'améliorer la vitesse de convergence de manière significative.

Subjects :: Contrôle optimal stochastique
Apprentissage par renforcement
Processus Décisionnels de Markov
Modified λ-Policy Iteration
Programmation dynamique
[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]

Details

Language :: French
Database :: OpenAIRE
Journal :: Journées Francophones Planification Décision Apprentissage, Journées Francophones Planification Décision Apprentissage, UPMC-Paris 6, Jun 2009, Paris, France
Accession number :: edsair.dedup.wf.001..692681316d7b4e5539e4fe74902d0130

Tools

Email
Cite

Printer

Authors Abstract Subjects Details

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Une approche modifiée de Lambda-Policy Iteration

Abstract

Subjects

Details

Tools

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Une approche modifiée de Lambda-Policy Iteration

Abstract

Subjects

Details

Tools

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources