1. Apprentissage actif sous contraite de budget en robotique et en neurosciences computationnelles : Localisation robotique et modélisation comportementale en environnement non stationnaire
- Author
-
Aklil, Nassim, Institut des Systèmes Intelligents et de Robotique (ISIR), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS), Université Pierre & Marie Curie - Paris 6, Mehdi Khamassi, Ludovic Denoyer, Benoît Girard, and Université Pierre et Marie Curie - Paris VI
- Subjects
Neurosciences Computationnelles ,[SDV.NEU.PC]Life Sciences [q-bio]/Neurons and Cognition [q-bio.NC]/Psychology and behavior ,[SCCO.NEUR]Cognitive science/Neuroscience ,Apprentissage budgétisé ,Apprentissage par Renforcement ,deep learning ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Reinforcement learning ,Compromis exploration/exploitation ,Apprentissage Profond ,[INFO.INFO-RB]Computer Science [cs]/Robotics [cs.RO] ,exploration-exploitation trade-off ,budgeted learning ,policy gradient ,computational neuroscience - Abstract
Decision-making is a vast domain of scientific research, investigated by several different disciplines, such as in Neuroscience to understand the processes underlying decision-making in animals, in Robotics to propose efficient and rapid decision-making algorithms working in a variety of tasks. From the point of view of Neuroscience, this problem is usually solved with online processes through models of sequential decision-making based on the reinforcement learning framework. From the point of view of Robotics, the primary objective is to come up with efficient solutions that work in the real world. However, nowadays in Robotics, researches most often neglect what we can call the budget and which concerns the inherent material limitations of a robot such as the computation time, the limited number of possible actions, or the limited life duration of the robot's batteries.In this PhD work, we propose to introduce the notion of budget as an explicit constraint in Robotics learning processes applied to a localization task. To do so, we first test a model based on recent developments in statistical learning, which can treat data under budget constraints either by limiting the number of processed data or by fixing an explicit time limitation. Moreover, in order to progress towards a online version of this type of budgeted learning algorithms, we discuss possible inspirations from computational neuroscience. Within this framework, the alternation between information seeking for localization and decisions to move within the environment can be indirectly linked to the exploration-exploitation trade-off. We finally present our contribution to the modeling of this trade-off in animals performing a non-stationary task under different levels of uncertainty, and make the link with bandit methods.; La prise de décision est un domaine vaste et très étudié en sciences, que ce soit en neurosciences pour comprendre les processus sous tendant la prise de décision chez les animaux, qu’en robotique pour modéliser des processus de prise de décision efficaces et rapides dans des tâches en environnement réel. Du point de vue des neurosciences, ce problème est résolu online avec des modèles de prises de décision séquentiels basés sur l’apprentissage par renforcement. Du point de vue de la robotique, l’objectif premier est l’efficacité, dans le but d’être déployés en environnement réel. Cependant, dans le cas de la robotique, ce que l’on peut appeler le budget et qui concerne les limitations inhérentes au matériel, comme par exemple les temps de calculs, les actions limitées disponibles au robot ou la durée de vie de la batterie du robot, ne sont, le plus souvent, pas prises en compte à l’heure actuelle.Nous nous proposons dans ce travail de thèse d’introduire la notion de budget comme contrainte explicite dans les processus d’apprentissage robotique appliqués à une tâche de localisation en mettant en place un modèle basé sur des travaux récents développés en apprentissage statistique qui traitent les données sous contrainte de budget, en limitant l’apport en données ou en posant une contrainte de temps plus explicite.Dans le but d’envisager à plus long terme un fonctionnement online de ce type d’algorithmes d’apprentissage budgétisé, nous discutons aussi certaines inspirations possibles qui pourraient être prises du côté des neurosciences computationnelles. Dans ce cadre, l’alternance entre recherche d’information pour la localisation et la décision de se déplacer pour un robot peuvent être indirectement liés à la notion de compromis exploration-exploitation. Nous présentons notre contribution à la modélisation de ce compromis chez l’animal dans une tâche non stationnaire impliquant différents niveaux d’incertitude, et faisons le lien avec les méthodes de bandits manchot.
- Published
- 2017