Descriptor: "Apprentissage par Renforcement" / Journal: revue d'intelligence artificielle - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Apprentissage par Renforcement"' showing total 2 results

Start Over Descriptor "Apprentissage par Renforcement" Journal revue d'intelligence artificielle

2 results on '"Apprentissage par Renforcement"'

1. Recherche locale de politique dans un espace convexe

Author: Bruno Scherrer, Matthieu Geist, Biology, genetics and statistics (BIGS), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut Élie Cartan de Lorraine (IECL), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Institut Élie Cartan de Lorraine (IECL), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), MAchine Learning and Interactive Systems (MALIS), SUPELEC-Campus Metz, and Ecole Supérieure d'Electricité - SUPELEC (FRANCE)-Ecole Supérieure d'Electricité - SUPELEC (FRANCE)-CentraleSupélec
Subjects: [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], boosting, Artificial Intelligence, itération conservative de la politique, recherche locale de politique, apprentissage par renforcement, Software
Abstract: National audience; En apprentissage par renforcement, la recherche locale de politique est une approche classique permettant de prendre en compte de grands espaces d'état. Formellement, elle consiste à chercher localement dans un espace de politiques paramétrées la solution qui va maximiser la fonction de valeur associée, moyennée selon une loi prédéfinie sur les états. La première contribution de cet article montre que si l'espace de politiques est convexe, \emph{tout optimum local} (approché) présente une \emph{garantie globale de performance}. Malheureusement, supposer la convexité de l'espace de recherche est une hypothèse forte : elle n'est pas satisfaite par les représentations usuelles des politiques et définir une paramétrisation non triviale qui satisfasse cette propriété est difficile. Une solution naturelle pour palier ce problème est d'optimiser la fonction objectif associée grâce à une montée de gradient fonctionnel, la recherche étant contrainte à l'enveloppe convexe de l'espace de politiques. Il s'avère que l'algorithme résultant est une légère généralisation du schéma d'itération conservative de la politique. Ainsi, notre seconde contribution consiste à souligner cette connexion originale entre recherche locale de politique et programmation dynamique approchée.
Published: 2015
Full Text: View/download PDF

2. Construction d'un joueur artificiel pour Tetris

Author: Christophe Thiery, Bruno Scherrer, Autonomous intelligent machine (MAIA), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP), and Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)
Subjects: fonctions de base, 021103 operations research, Artificial Intelligence, Tetris, méthode d'entropie croisée, fonction d'évaluation, 0211 other engineering and technologies, 0202 electrical engineering, electronic engineering, information engineering, 020201 artificial intelligence & image processing, 02 engineering and technology, apprentissage par renforcement, Software, [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]
Abstract: National audience; Nous étudions la conception d'un joueur artificiel pour le jeu de Tetris. Après une revue des principaux travaux, nous soulignons le fait que comparer différentes performances doit être fait avec le plus grand soin, car les scores ont une grande variance, et de subtils détails d'implémentation ont un effet significatif sur les résultats. Nous considérons ensuite la méthode d'entropie croisée pour optimiser la fonction d'évaluation d'un joueur artificiel, comme suggéré par Szita et al. (2006). Dans ce contexte, nous discutons de l'influence du paramètre bruit, et nous effectuons des expériences avec plusieurs jeux de fonctions de base, comme celles introduites par Bertsekas et al. (1996), par Dellacherie (Fahey, 2003) et des fonctions originales. Cette approche aboutit à un programme de Tetris dont les performances dépassent celles des autres programmes connus. Sur une version simplifiée de Tetris, considérée par la plupart des travaux de recherche, il réalise 35 000 000 ± 20 % de lignes en moyenne par partie.
Published: 2009
Full Text: View/download PDF

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Refine your results

2 results on '"Apprentissage par Renforcement"'

1. Recherche locale de politique dans un espace convexe

2. Construction d'un joueur artificiel pour Tetris

Catalog

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Language

Database

2 results on '"Apprentissage par Renforcement"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources