Back to Search Start Over

Preference-based reinforcement learning: evolutionary direct policy search using a preference-based racing algorithm

Authors :
Weiwei Cheng
Eyke Hüllermeier
Paul Weng
Róbert Busa-Fekete
Balázs Szörényi
MTA-SZTE Research Group on Artificial Intelligence
University of Szeged [Szeged]-Hungarian Academy of Sciences (MTA)
Fachbereich Mathematik und Informatik [Marburg] [Dept. of Math and Computer Science]
Philipps Universität Marburg = Philipps University of Marburg
Sequential Learning (SEQUEL)
Laboratoire d'Informatique Fondamentale de Lille (LIFL)
Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Inria Lille - Nord Europe
Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire d'Automatique, Génie Informatique et Signal (LAGIS)
Université de Lille, Sciences et Technologies-Centrale Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Centre National de la Recherche Scientifique (CNRS)
DECISION
Laboratoire d'Informatique de Paris 6 (LIP6)
Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)
Hungarian Academy of Sciences (MTA)-University of Szeged [Szeged]
Philipps Universität Marburg
Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lille, Sciences Humaines et Sociales-Centre National de la Recherche Scientifique (CNRS)-Laboratoire d'Automatique, Génie Informatique et Signal (LAGIS)
Université de Lille, Sciences et Technologies-Centrale Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Centre National de la Recherche Scientifique (CNRS)-Inria Lille - Nord Europe
Institut National de Recherche en Informatique et en Automatique (Inria)
Source :
Machine Learning, Machine Learning, 2014, 97 (3), pp.327-351. ⟨10.1007/s10994-014-5458-8⟩, Machine Learning, Springer Verlag, 2014, 97 (3), pp.327-351. ⟨10.1007/s10994-014-5458-8⟩
Publication Year :
2014
Publisher :
HAL CCSD, 2014.

Abstract

International audience; We introduce a novel approach to preference-based reinforcement learn-ing, namely a preference-based variant of a direct policy search method based on evolutionary optimization. The core of our approach is a preference-based racing algorithm that selects the best among a given set of candidate policies with high probability. To this end, the algorithm operates on a suitable ordinal preference structure and only uses pairwise comparisons between sample rollouts of the policies. Embedding the racing algorithm in a rank-based evolutionary search procedure, we show that approxima-tions of the so-called Smith set of optimal policies can be produced with certain theoretical guarantees. Apart from a formal performance and complexity analysis, we present first experimental studies showing that our approach performs well in practice.

Details

Language :
English
ISSN :
08856125 and 15730565
Database :
OpenAIRE
Journal :
Machine Learning, Machine Learning, 2014, 97 (3), pp.327-351. ⟨10.1007/s10994-014-5458-8⟩, Machine Learning, Springer Verlag, 2014, 97 (3), pp.327-351. ⟨10.1007/s10994-014-5458-8⟩
Accession number :
edsair.doi.dedup.....2b22e617b3040b502a5c2ea3da3e4bb2