Un algorithme décentralisé d'apprentissage par renforcement multi-agents coopératifs : le Q-Learning Hystérétique

Authors :: Matignon, Laëtitia
Laurent, Guillaume
Le Fort - Piat, Nadine
Laboratoire d'automatique de Besançon (LAB)
Centre National de la Recherche Scientifique (CNRS)-Ecole Nationale Supérieure de Mécanique et des Microtechniques (ENSMM)-Université de Franche-Comté (UFC)
Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC)
Cépaduès Editions
Azema, Martine
Source :: 2è Journées Francophones Planification, Décision, Apprentissage pour la conduite de Systèmes. JFPDA'07., 2è Journées Francophones Planification, Décision, Apprentissage pour la conduite de Systèmes. JFPDA'07., Jul 2007, Grenoble, France. pp.115-121
Publication Year :: 2007
Publisher :: HAL CCSD, 2007.
Abstract: National audience; Nous nous intéressons aux techniques d'apprentissage par renforcement dans les systèmes multi-agents coopératifs. Nous présentons un nouvel algorithme pour agents indépendants qui permet d'apprendre l'action jointe optimale dans des jeux où la coordination est difficile. Nous motivons notre approche par le caractère décentralisé de cet algorithme qui ne nécessite aucune communication entre agents et des tables Q de taille indépendante du nombre d'agents. Des tests concluants sont de plus effectués sur des jeux coopératifs répétés, ainsi que sur un jeu de poursuite.

Subjects :: [SPI.AUTO] Engineering Sciences [physics]/Automatic
DEC-POMPD
[INFO.INFO-MA]Computer Science [cs]/Multiagent Systems [cs.MA]
[INFO.INFO-MA] Computer Science [cs]/Multiagent Systems [cs.MA]
Q-Learning
Apprentissage par renforcement multi-agents
jeux matriciels répétés
[SPI.AUTO]Engineering Sciences [physics]/Automatic

Language :: French
Database :: OpenAIRE
Journal :: 2è Journées Francophones Planification, Décision, Apprentissage pour la conduite de Systèmes. JFPDA'07., 2è Journées Francophones Planification, Décision, Apprentissage pour la conduite de Systèmes. JFPDA'07., Jul 2007, Grenoble, France. pp.115-121
Accession number :: edsair.dedup.wf.001..9d78eed20bea87e12ee188cff4470a93

Tools