333 results on '"Apprentissage par Renforcement"'
Search Results
2. Irrigation canal control using enhanced fuzzy SARSA learning.
- Author
-
Shahverdi, Kazem and Javad Monem, Mohammad
- Subjects
CANALS ,IRRIGATION ,IRRIGATION management ,WATER management ,REINFORCEMENT learning ,WATER depth - Abstract
Copyright of Irrigation & Drainage is the property of Wiley-Blackwell and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2022
- Full Text
- View/download PDF
3. Artificial Intelligence for Logistic Program Conference: May 17th - 18th 2023, Ottawa, Canada: abstract booklet
- Author
-
National Research Council of Canada
- Subjects
quadrotor ,adaptive instructional system ,préservation de la vie privée ,continuum ,programmation génétique ,IDS ,photogrammetry ,MLP ,adversarial machine learning ,computer vision ,intentionality ,stress ,glace de mer ,advanced driver assistance systems ,apprentissage machine ,inspection ,VTOL ,graphs ,instrumentation ,robotics ,response ,federated learning ,origin destination ,simulation ,consensus protocols ,place recognition ,représentation neuronale ,climate change ,machine learning ,modélisation de la fiabilité des accidents ,surveillance ,photogrammétrie ,safety ,vision ,apprentissage profond ,soil temperature ,social media ,neural representation ,gaze ,segmentation sémantique aérienne ,deep-learning ,gaze-tracker ,strain ,routage ,regard ,data-acquisition ,rail ,similarity ,méta-heuristique ,province géologique esclaves ,convolution neural networks ,robotique aérienne ,adaptation du domaine ,IA ,preuve de livraison ,LTPP ,systèmes avancés d’aide à la conduite ,apprentissage par renforcement profond ,détection ,meta-heuristic ,ADAS ,truck ,aerial-semantic-segmentation ,fingerprinting ,réputation ,modelage ,dynamique ,internet des véhicules ,vehicle routing problem ,combinatorial optimization ,protocoles de consensus ,hazards ,blockchain ,perceptron multicouche ,apprentissage automatique contradictoire ,aerial robots haptics ,portable ,aerial manipulation systems ,détecter et éviter ,sécurité ,pavement ,deep-reinforcement-learning ,route recommendation system ,apprentissage par renforcement ,résilience ,VRP ,multi-layer perceptron ,optimisation combinatoire ,problème d’itinéraire du véhicule ,instrumentation de chaussée ,unsupervised-adversarial-domain-adaptation ,vision par ordinateur ,crashes ,SLZ ,localisation et cartographie simultanées ,traffic ,changement climatique ,téléopération ,résilient ,3D-reconstruction ,marche aléatoire ,intelligent transportation systems ,informatique hyperdimensionnelle ,robots aériens haptique ,artificial intelligence ,internet des objets ,système d’information météo-route ,drone localization ,réalité augmentée ,regression ,UAS ,profiling ,CNN ,drayage operations ,dernier kilomètre ,multi-agents ,UAV ,accidents ,FL ,unmanned aircraft vehicle ,aerial autonomy dataset ,last mile ,systèmes de navigation inertielle visuelle ,intelligence artificielle ,cross-calibration ,haptics ,données synthétiques ,température ,problème d’itinéraire du véhicule dépendant du temps de déplacement multiple ,optimisation des chemins d’arpentage LTE ,décollage et atterrissage verticaux ,prédiction ,continu ,détection de nouveauté ,visual inertial navigation systems ,pavement instrumentation ,chaos-engineering ,logistics ,segmentation ,menaces persistantes avancées ,temperature ,genetic-programming ,détection de défauts de béton ,synthetic data ,long-term pavement performance ,railway ,instability ,monitoring ,spatial semantic pointers ,statistical learning ,DRL ,régression ,système de transport intelligent ,network ,advanced persistent threats ,unmanned aircraft system ,trafic ,réseaux de neurones à convolution ,RWIS ,real option analysis ,detection ,acquisition de données ,localisation de drones ,performance à long terme de la chaussée ,sensors ,distributed fiber optic sensors ,AML ,système d’enseignement adaptatif ,digital twin ,slave geological province ,extreme-weather ,quadrirotor ,similitude ,véhicule d’aéronef sans pilote ,stéréo ,MTTDVRP ,feature tracking ,trucking ,ingénierie du chaos ,filtrer ,GIS ,sea ice ,zones d’atterrissage sécuritaires ,suivi du regard ,classification ,routing ,intrusion detection systems ,protatif ,vertical take-off and landing ,SLAM ,opérations de transport ,camionnage ,calibrage croisé ,logistique ,multi-trip time-dependent vehicle routing problem ,LSTM ,chaîne de blocs ,hyperdimensional computing ,surveillance en temps réel ,IoT ,ant colony optimization ,IoV ,domain adaptation ,firefighter training dangerous-goods ,capteurs à fibre optique distribués ,provenance ,analyse des options réelles ,robotique ,view-planning ,crash reliability modelling ,sequence-to-sequence ,detect & avoid ,resilience ,prévision du trafic des camions ,apprentissage fédéré ,instabilité ,time series classification ,haptique ,malware ,apprentissage statistique ,augmented reality ,AL ,camion ,AI ,SSPs ,manipulation ,reconnaissance du lieu ,semantic ,transport de marchandises ,APT ,safe landing zones ,adaptation non supervisée de domaine contradictoire ,détection de déformation ,système de recommandation d’itinéraire ,novelty detection ,AR ,fusion ,aerial robotics ,multi-agent ,privacy preserving ,continuous ,expédition de foule ,séquence à séquence ,détection d’objets ,systèmes de manipulation aérienne ,POD ,geographic information system ,grain ,profilage ,suivi des fonctionnalités ,road weather information system ,détection de zone d’atterrissage ,chaussée ,landing zone detection ,deformation detection ,object detection ,reputation ,dynamics ,real-time monitoring ,path optimization LTE surveying ,crowd shipping ,intentionnalité ,concrete defect detection ,ensemble de données sur l’autonomie aérienne ,VINS ,resilient ,apprentissage supervisé ,simultaneous localization and mapping ,Internet of things ,reinforcement learning ,long short term memory ,optimisation des colonies de fourmis ,risques ,chemin de fer ,pointeurs sémantiques spatiaux ,système d’aéronef sans pilote ,freight ,Internet of vehicules ,supervised learning ,conditions météorologiques extrêmes ,modelling ,destination d’origine ,random walk ,formation des pompiers sur les marchandises dangereuses ,température du sol ,Sim2real ,augmentation ,empreintes digitales ,teleoperation ,système d’information géographique ,sémantique ,planification de la vue ,médias sociaux ,DFOS ,ACO ,volume ,proof of delivery ,mémoire à long terme ,stereo ,prediction ,ML ,réseau ,truck traffic prediction ,capteurs ,systèmes de détection d’intrusion ,réponse ,graphiques ,jumeau numérique ,SGP ,classification des séries chronologiques ,ITS - Abstract
The National Research Council of Canada (NRC) is committed to supporting the scale ai cluster's goals through its Artificial Intelligence for Logistics program, which includes convener support in supply chain and logistics. The program also provides R&D expertise focused on next-generation technology issues to ensure Canadian excellence in logistics for the longer term. Using its national reach, the NRC program is creating linkages between stakeholders, and enabling the advancement of the technologies and firms that will make supply chain and logistics excellence a competitive advantage for Canada., Le Conseil national de recherches du Canada (CNRC) s'est engagé à appuyer les objectifs de la grappe scale ai par l'entremise de son programme Intelligence artificielle au service de la logistique, reliant des organisations dans les domaines de la chaine d'approvisionnement et de la logistique. Le programme tire parti d'une expertise en R-D axée sur les enjeux technologiques de la prochaine génération afin d'assurer l'excellence de la logistique canadienne à long terme. Fort de sa portée nationale, le programme crée des liens entre les intervenants et permet l'avancement des technologies et des entreprises qui fera de l'excellence dans la gestion de la chaîne d'approvisionnement et de la logistique un avantage concurrentiel pour le Canada.
- Published
- 2023
- Full Text
- View/download PDF
4. Paramétrisation du DDMRP avec l' apprentissage par renforcement
- Author
-
Duhem, Louis, Benali, Maha, Martin, Guillaume, École Polytechnique de Montréal (EPM), Centre Génie Industriel (CGI), IMT École nationale supérieure des Mines d'Albi-Carmaux (IMT Mines Albi), and Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)
- Subjects
[SPI]Engineering Sciences [physics] ,Production Management ,Apprentissage par renforcement ,Paramétrisation ,Parametrization ,Reinforcement learning ,Gestion de production ,DDMRP - Abstract
International audience; Considering more demanding customers and the diversity of the conventional products, the industrials face new stakes of production and lead times. Nevertheless, the production methods cannot reach those new goals anymore. The Demand Driven Material Requirements Planning (or DDMRP) is a demand-driven production method, which is included in a new era of industrial innovation. However, little attention has been given to the parametrization of DDMRP. This study aims to dynamically adjust order spike thresholds and horizons to improve the parametrization of the method. The proposed methodology is to integrate a reinforcement learning method to the simulation model of an hybrid DDMRP-run flowshop, subject to a peak demand distribution. We study the performance of the learning process and the industrial indicators of the flowshop. We manage to show that it is possible to adjust the parameters of the flowshop while improving its performance regarding customer satisfaction and inventory levels. The results of the study point out the possibility to drive DDMRP parameters with an automatic method using reinforcement learning.; Avec l’augmentation des exigences clients et de la diversité des produits conventionnels, les industriels font face à de nouveaux enjeux de production et de délais. Néanmoins, les méthodes de production ne peuvent plus répondre à ces nouveaux enjeux. Le Demand Driven Material Requirements Planning (ou DDMRP) est une méthode de production pilotée par la demande qui s’inscrit dans une nouvelle aire d’innovation industrielle. Cependant, peu d’attention a été accordée à la paramétrisation du DDMRP. Cette étude vise à apporter des ajustements dynamiques à des seuils et horizons de détection de pics afin d’améliorer la paramétrisation de la méthode. La méthodologie proposée est d’intégrer un algorithme d’apprentissage par renforcement au modèle de simulation d’un atelier hybride piloté en DDMRP soumis à des pics de demande. Nous étudions la performance de l’apprentissage, ainsi que l’évolution des indicateurs industriels de l’atelier. Nous parvenons à montrer qu’il est possible de piloter les paramètres de l’atelier tout en améliorant ses performances en termes de satisfaction client et de niveaux d’inventaire. Les résultats de l’étude démontrent la possibilité de piloter les paramètres d’un DDMRP avec une méthode automatique d'apprentissage par renforcement.
- Published
- 2023
5. Fear prediction for training robust RL agents
- Author
-
Gauthier, Charlie and Paull, Liam
- Subjects
robotics ,reinforcement learning ,machine learning ,intelligence artificielle ,adversarial training ,robotique ,apprentissage machine ,apprentissage adversariel ,artificial intelligence ,apprentissage par renforcement - Abstract
Les algorithmes d’apprentissage par renforcement conditionné par les buts apprennent à accomplir des tâches en interagissant avec leur environnement. Ce faisant, ils apprennent à propos du monde qui les entourent de façon graduelle et adaptive. Parmi d’autres raisons, c’est pourquoi cette branche de l’intelligence artificielle est une des avenues les plus promet- teuses pour le contrôle des robots généralistes de demain. Cependant, la sûreté de ces algo- rithmes de contrôle restent un champ de recherche actif. La majorité des algorithmes “d’ap- prentissage par renforcement sûr” tâchent d’assurer la sécurité de la politique de contrôle tant durant l’apprentissage que pendant le déploiement ou l’évaluation. Dans ce travail, nous proposons une stratégie complémentaire. Puisque la majorité des algorithmes de contrôle pour la robotique sont développés, entraî- nés, et testés en simulation pour éviter d’endommager les vrais robots, nous pouvons nous permettre d’agir de façon dangereuse dans l’environnement simulé. Nous démontrons qu’en donnant des buts dangereux à effectuer à l’algorithme d’apprentissage durant l’apprentissage, nous pouvons produire des populations de politiques de contrôle plus sûres au déploiement ou à l’évaluation qu’en sélectionnant les buts avec des techniques de l’état de l’art. Pour ce faire, nous introduisons un nouvel agent à l’entraînement de la politique de contrôle, le “Directeur”. Le rôle du Directeur est de sélectionner des buts qui sont assez difficiles pour aider la politique à apprendre à les résoudre sans être trop difficiles ou trop faciles. Pour aider le Directeur dans sa tâche, nous entraînons un réseau de neurones en ligne pour prédire sur quels buts la politique de contrôle échouera. Armé de ce “réseau de la peur” (nommé d’après la peur de la politique de contrôle), le Directeur parviens à sélectionner les buts de façon à ce que les politiques de contrôles finales sont plus sûres et plus performantes que les politiques entraînées à l’aide de méthodes de l’état de l’art, ou obtiennent des métriques semblables. De plus, les populations de politiques entraînées par le Directeur ont moins de variance dans leur comportement, et sont plus résistantes contre des attaques d’adversaires sur les buts qui leur sont issus., By learning from experience, goal-conditioned reinforcement learning methods learn from their environments gradually and adaptively. Among other reasons, this makes them a promising direction for the generalist robots of the future. However, the safety of these goal- conditioned RL policies is still an active area of research. The majority of “Safe Reinforce- ment Learning” methods seek to enforce safety both during training and during deployment and/or evaluation. In this work, we propose a complementary strategy. Because the majority of control algorithms for robots are developed, trained, and tested in simulation to avoid damaging the real hardware, we can afford to let the policy act in unsafe ways in the simulated environment. We show that by tasking the learning algorithm with unsafe goals during its training, we can produce populations of final policies that are safer at evaluation or deployment than when trained with state-of-the-art goal-selection methods. To do so, we introduce a new agent to the training of the policy that we call the “Director”. The Director’s role is to select goals that are hard enough to aid the policy’s training, without being too hard or too easy. To help the Director in its task, we train a neural network online to predict which goals are unsafe for the current policy. Armed with this “fear network” (named after the policy’s own fear of violating its safety conditions), the Director is able to select training goals such that the final trained policies are safer and more performant than policies trained on state-of-the-art goal-selection methods (or just as safe/performant). Additionally, the populations of policies trained by the Director show decreased variance in their behaviour, along with increased resistance to adversarial attacks on the goals issued to them.
- Published
- 2023
6. A supervised formulation of Reinforcement Learning - with SuperLinear Convergence
- Author
-
Parag, Amit, Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT), INSA de Toulouse, and Nicolas Mansard
- Subjects
Robots marcheurs ,Apprentissage par renforcement ,Reinforcement learning ,Legged Robots ,Contrôle optimal ,Apprentissage supervisé ,Supervised learning ,Optimal control ,[SPI.AUTO]Engineering Sciences [physics]/Automatic - Abstract
L'apprentissage profond par renforcement utilise des simulateurs comme oracles abstraits pour interagir avec l'environnement. Dans les domaines continus des systèmes robotiques multi-corps, des simulateurs différentiables ont récemment été proposés mais sont encore sous-utilisés, même si nous avons les connaissances nécessaires pour leur faire produire des informations plus riches. Ce problème, lorsqu'il est juxtaposé au coût de calcul élevé de l'exploration-exploitation dans un espace d'état de haute dimension, peut rapidement rendre les algorithmes d'apprentissage par renforcement impraticables. Dans cette these, nous proposons de combiner l'apprentissage et les simulateurs de sorte que la qualité des deux augmente, tandis que la nécessité d'explorer exhaustivement l'espace d'état diminue. Nous proposons d'apprendre la fonction de valeur, l'état et les trajectoires d'etat et de contrôle à travers les exécutions localement optimales de l'optimiseur de trajectoire. La fonction d'valeur apprise, ainsi qu'une estimation des politiques optimales d'état et de contrôle, est ensuite utilisée dans l'optimiseur de trajectoire ~ l'estimation de la fonction d'valeur sert de proxy pour raccourcir l'horizon de prévision, tandis que les approximations d'état et de contrôle servent de guide dans la recherche de politiques pour notre optimiseur de trajectoire. L'approche proposée démontre une meilleure relation symbiotique, avec une convergence super linéaire, entre l'apprentissage et les simulateurs, dont nous avons besoin pour l'apprentissage de bout en bout de systèmes polyarticulés complexes.; Deep reinforcement learning uses simulators as abstract oracles to interact with the environment. In continuous domains of multi-body robotic systems, differentiable simulators have recently been proposed, still, they are yet underutilized, even though we have the knowledge to make them produce richer information. This problem when juxtaposed with the usually high computational cost of exploration-exploitation in high dimensional state space can quickly render reinforcement learning algorithms less effective. In this thesis, we propose to combine learning and simulators such that the quality of both increases while the need to exhaustively search the state space decreases. We propose to learn value function and state, control trajectories through locally optimal runs of a trajectory optimizer. The learned value function, along with estimates of optimal state and control policies, is subsequently used in the trajectory optimizer : the value function estimate serves as a proxy for shortening the preview horizon, while the state and control approximations serve as a guide in policy search for our trajectory optimizer. The proposed approach demonstrates a better symbiotic relation, with superlinear convergence, between learning and simulators, that we need for end-to-end learning of complex polyarticulated systems.
- Published
- 2023
7. Une formulation supervisée de l'apprentissage par renforcement - vers des propriétés de convergence superlinéaire
- Author
-
Parag, Amit, Équipe Mouvement des Systèmes Anthropomorphes (LAAS-GEPETTO), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT), INSA TOULOUSE, and Nicolas MANSARD
- Subjects
Bellman's Optimality ,principes d'optimalité de Bellman ,Apprentissage par renforcement ,optimisation des trajectoires ,Trajectory Optimization ,trajectory learning ,régression de Sobolev ,Supervised Learning ,fonction de valeur globale ,Reinforcement Learning ,[SPI.AUTO]Engineering Sciences [physics]/Automatic - Abstract
National audience; Deep reinforcement learning uses simulators as abstract oracles to interact with the environment. In continuous domains of multi-body robotic systems, differentiable simulators have recently been proposed, still, they are yet underutilized, even though we have the knowledge to make them produce richer information. This problem when juxtaposed with the usually high computational cost of exploration-exploitation in high dimensional state space can quickly render reinforcement learning algorithms less effective. In this thesis, we propose to combine learning and simulator-based optimization such that the quality of both increases while the need to exhaustively search the state space decreases. We propose to learn value function and state, and control trajectories through locally optimal runs of a trajectory optimizer. The learned value function, along with estimates of optimal state and control policies, is subsequently used in the trajectory optimizer: the value function es! timate serves as a proxy for shortening the preview horizon, while the state and control approximations serve as a guide in policy search for our trajectory optimizer. The proposed approach demonstrates a better symbiotic relation, with superlinear convergence, between learning and simulators, that we need for end-to-end learning of complex poly articulated systems.; L’apprentissage profond par renforcement utilise des simulateurs comme oracles abstraits pour interagir avec l’environnement. Dans les domaines continus des systèmes robotiques multi-corps, des simulateurs différentiables ont récemment été proposés mais sont encore sous-utilisés, même si nous avons les connaissances nécessaires pour leur faire produire des informations plus riches. Ce problème, lorsqu’il est juxtaposé au coût de calcul élevé de l’exploration-exploitation dans un espace d’état de haute dimension, peut rapidement rendre les algorithmes d’apprentissage par renforcement impraticables. Dans cette these, nous proposons de combiner l’apprentissage et les simulateurs de sorte que la qualité des deux augmente, tandis que la nécessité d’explorer exhaustivement l’espace d’état diminue. Nous proposons d’apprendre la fonction de valeur, l’état et les trajectoires d’etat et de contrôle à travers les exécutions loca! lement optimales de l’optimiseur de trajectoire. La fonction d’valeur apprise, ainsi qu’une estimation des politiques optimales d’état et de contrôle, est ensuite utilisée dans l’optimiseur de trajectoire l’estimation de la fonction d’valeur sert de proxy pour raccourcir l’horizon de prévision, tandis que les approximations d’état et de contrôle servent de guide dans la recherche de politiques pour notre optimiseur de trajectoire. L’approche proposée démontre une meilleure relation symbiotique, avec une convergence super linéaire, entre l’apprentissage et les simulateurs, dont nous avons besoin pour l’apprentissage de bout en bout de systèmes polyarticulés complexes.
- Published
- 2023
8. Centralised orchestration and hybrid resource management for Ultra Reliable and Low Latency Communications (URLLC)
- Author
-
Dinh, Ngoc Lam, Commissariat à l'énergie atomique et aux énergies alternatives - Laboratoire d'Electronique et de Technologie de l'Information (CEA-LETI), Direction de Recherche Technologique (CEA) (DRT (CEA)), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA), Université Grenoble Alpes [2020-....], Emilio Calvanese Strinati, and Mickael Maman
- Subjects
[INFO.INFO-IU]Computer Science [cs]/Ubiquitous Computing ,Optimisation de Lyapunov ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Hybrid resource management ,Gestion des ressources hybrides ,Lyapunov Optimization ,Réseaux sans fils ,Wireless networks ,Urllc ,Multi-Agent Reinforcement Learning - Abstract
During the past decades, with the significant proliferation of 5G networks, Ultra Reliable and Low Latency Communications (URLLC) has been becoming indispensable to support time critical applications where data transmission in error-prone wireless medium must be bounded by low delay and ultra-reliableness requirements. However, the phenomenal growth of data traffic coupled with the heterogeneous Quality of Service (QoS), are posing unprecedented challenges. It suggests the paradigm shift from reactive and centralised networks towards proactive, low latency, ultra-reliable and decentralised 5G network designs which allow more flexible, scalable and low complexity deployments of resource management solutions. In this thesis, we focus on the refinement of fundamental trade-offs between latency, reliability and other Key Performance Indicators such as radio resource efficiency and network throughput in guaranteeing URLLC communications by exploiting various diversity levels such as time, frequency, space, signal processing and hardware for improving these key limits. Afterwards, we investigate centralized resource allocation problem where latency, reliability, resource efficiency is studied. Subsequently, we study the additional use of shared radio resources besides scheduled resources between multiple users for the boost of latency-reliability-throughput trade-off in a hybrid architecture where each user and coordinated gNb participate to the intelligent radio resource management. In the first study, we propose centralized orchestrator which yield the tradeoff between latency, reliability and resource efficiency. The objectives are to define when to (de)activate more resources/ mechanisms, to make an efficient tradeoff between reactive and proactive approaches and to exploit multi-modal latency distribution. Afterwards, we propose a jitter-aware orchestration method that forces latency to fall within predetermined windows. Resulted latency/jitter is independent of the wireless environment and now adapted to the control system. Thus, we transform the dependence of communication on the environment into a dependence on control/application. In the second study, we evaluate dynamic resource allocation in system simulation and hardware experimentation. We attempt to explore the parallelisation of Hybrid Automatic Repeat reQuest procedure with a resource scheduling optimization algorithm without sacrificing the efficiency of resource allocation. Relying on Lyapunov’s optimizations for two-queue state system management, we design an optimization framework in which RAN latency, reliability and resource efficiency are considered. Afterwards, we implement an OpenAirInterface (OAI) testbed for the validation of our algorithms. This implementation step is a proof of their feasibility under real time restrictions, and this step illustrates performance of our algorithms in experimentation. Finally, we propose a novel hybrid Grant-Based (GB) and Grant-Free (GF) radio access scheme using Multi Agent Reinforcement Learning (MARL) for URLLC. We provide two different algorithms to optimize a global network objective in terms of latency, reliability and network throughput: Multi-agent Deep-Q Learning (MADQL) and Multi-agent Deterministic Policy Gradient (MADDPG). MADQL is executed so that each user (agent) learns its optimal action-value function, which is based only on its local observation, and performs an optimal opportunistic action using the shared GF spectrum. MADDPG involves the attached gNB function as a global observer (critic), which criticizes the action of each associated agent (actor) in the network. By leveraging centralised training and decentralised execution, we achieve a shared goal better than the first algorithm. Then, through a system level simulation where the full protocol stack is considered, we show the gain of our approach to efficiently manage radio resources and guarantee URLLC.; Durant les dernières décennies, avec la prolifération significative des réseaux 5G, les communications ultra fiables et à faible latence (URLLC) sont devenues indispensables pour prendre en charge les applications critiques où la transmission de données sur un support sans fil sujet aux erreurs doit être limitée par des exigences de faible retard et d'ultra fiabilité. Cependant, la croissance phénoménale du trafic de données, associée à l'hétérogénéité de la qualité de service (QoS), pose des défis sans précédent. Elle suggère le changement de paradigme des réseaux réactifs et centralisés vers des conceptions de réseaux proactifs, à faible latence, ultra-fiables et décentralisés qui permettent des déploiements plus flexibles, évolutifs et peu complexes de solutions de gestion des ressources. Dans cette thèse, nous nous concentrons sur le raffinement des compromis fondamentaux entre la latence, la fiabilité et d'autres indicateurs clés de performance tels que l'efficacité des ressources radio et le débit du réseau pour garantir les communications URLLC en exploitant différents niveaux de diversité tels que le temps, la fréquence, l'espace, le traitement du signal et le matériel pour améliorer ces limites clés. Ensuite, nous examinons le problème de l'allocation centralisée des ressources en étudiant la latence, la fiabilité et l'efficacité des ressources. Ensuite, nous étudions l'utilisation supplémentaire des ressources radio partagées en plus des ressources schedules entre plusieurs utilisateurs pour améliorer le compromis latence-fiabilité-débit dans une architecture hybride où chaque utilisateur et le gNb coordonné participent à la gestion intelligente des ressources radio. Dans la première étude, nous proposons un orchestrateur centralisé qui permet de réaliser le compromis entre latence, fiabilité et efficacité des ressources. Dans la deuxième étude, nous évaluons l'allocation dynamique des ressources dans la simulation du système et l'expérimentation du matériel. En s'appuyant sur les optimisations de Lyapunov pour la gestion des systèmes à deux files d'attente, nous concevons un cadre d'optimisation dans lequel la latence, la fiabilité et l'efficacité des ressources du RAN sont prises en compte. Ensuite, nous mettons en œuvre un banc d'essai OpenAirInterface (OAI) pour la validation de nos algorithmes. Enfin, nous proposons un nouveau schéma d'accès radio hybride basé sur l'octroi (GB) et l'exemption d'octroi (GF) utilisant l'apprentissage par renforcement multi-agent (MARL) pour URLLC. Nous fournissons deux algorithmes différents pour optimiser un objectif global du réseau en termes de latence, de fiabilité et de débit du réseau : MADQL (Multi-agent Deep-Q Learning) et MADDPG (Multi-agent Deterministic Policy Gradient). MADQL est exécuté de manière à ce que chaque utilisateur (agent) apprenne sa fonction action-valeur optimale, qui est basée uniquement sur son observation locale, et effectue une action opportuniste optimale en utilisant le spectre GF partagé. MADDPG implique la fonction gNB attachée en tant qu'observateur (critique) global, qui critique l'action de chaque agent (acteur) associé dans le réseau. En tirant parti de la formation centralisée et de l'exécution décentralisée, nous atteignons un objectif partagé mieux que le premier algorithme. Ensuite, à travers une simulation au niveau du système où la pile de protocoles complète est considérée, nous montrons le gain de notre approche pour gérer efficacement les ressources radio et garantir l'URLLC.
- Published
- 2023
9. Apprentissage séquentiel pour la diffusion d'information
- Author
-
Iacob, Alexandra, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Bogdan Cautis, and Silviu Maniu
- Subjects
Maximisation de l'influence ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Reinforcement learning ,Bandits à plusieurs bras ,Multi-Armed bandits ,Borne supérieure de confiance ,Influence maximization ,[INFO.INFO-SI]Computer Science [cs]/Social and Information Networks [cs.SI] ,Upper confidence bound ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
Motivated by scenarios of information diffusion and advertising in social media, we study an emph{influence maximization} (IM) problem in which little is assumed to be known about the diffusion network or about the model that determines how information may propagate. In such a highly uncertain environment, one can focus on emph{multi-round diffusion campaigns}, with the objective to maximize the number of distinct users that are influenced or activated, starting from a known base of few influential nodes.During a campaign, spread seeds are selected sequentially at consecutive rounds, and feedback is collected in the form of the activated nodes at each round.A round's impact (reward) is then quantified as the number of emph{newly activated nodes}.Overall, one must maximize the campaign's total spread, as the sum of rounds' rewards.We consider two sub-classes of IM, emph{cimp} (CIMP) and emph{ecimp} (ECIMP), where (i) the reward of a given round of an ongoing campaign consists of only the extit{new activations} (not observed at previous rounds within that campaign), (ii) the round's context and the historical data from previous rounds can be exploited to learn the best policy, and (iii) ECIMP is CIMP repeated multiple times, offering the possibility of learning from previous campaigns as well.This problem is directly motivated by the real-world scenarios of information diffusion in emph{influencer marketing}, where (i) only a target user's emph{first} / unique activation is of interest (and this activation will emph{persist} as an acquired, latent one throughout the campaign), and (ii) valuable side-information is available to the learning agent.In this setting, an explore-exploit approach could be used to learn the key underlying diffusion parameters, while running the campaigns.For CIMP, we describe and compare two methods of emph{contextual multi-armed bandits}, with emph{upper-confidence bounds} on the remaining potential of influencers, one using a generalized linear model and the Good-Turing estimator for remaining potential (glmucb), and another one that directly adapts the LinUCB algorithm to our setting (linucb).For ECIMP, we propose the algorithmlgtlsvi, which implements the extit{optimism in the face of uncertainty} principle for episodic reinforcement learning with linear approximation. The learning agent estimates for each seed node its remaining potential with a Good-Turing estimator, modified by an estimated Q-function.We show that they outperform baseline methods using state-of-the-art ideas, on synthetic and real-world data, while at the same time exhibiting different and complementary behavior, depending on the scenarios in which they are deployed.; Motivés par les scénarios de diffusion de l'information et de publicité dans le les réseaux sociaux, nous étudions un problème de maximisation de l'influence (MI) dans lequel on suppose que l'on en sait peu sur le réseau de diffusion ou sur le modèle qui détermine comment l'information peut se propager.Dans un tel environnement incertain, on peut se concentrer sur des campagnes de diffusion à plusieurs tours, avec l'objectif de maximiser le nombre d'utilisateurs distincts qui sont influencés ou activés, à partir d'une base de nœuds influents.Au cours d'une campagne, les graines de propagation sont sélectionnées séquentiellement lors de tours consécutifs, et les commentaires sont collectés sous la forme des nœuds activés à chaque tour.L'impact (récompense) d'un tour est alors quantifié par le nombre de nœuds nouvellement activés. En général, il faut maximiser la propagation totale de la campagne, comme la somme des récompenses des tours.Nous considérons deux sous-classes de d'IM, emph{cimp} (CIMP) et emph{ecimp} (ECIMP), où (i) la récompense d'un tour d'une campagne en cours consiste uniquement en de nouvelles activations (non observées lors des tours précédents de cette campagne),(ii) le contexte du tour et les données historiques des tours précédents peuvent être exploités pour apprendre la meilleure politique, et(iii) ECIMP est CIMP répété plusieurs fois, ce qui permet d'apprendre également des campagnes précédentes.Ce problème est directement motivé par les scénarios du monde réel de la diffusion de l'information dans le marketing d'influence, où (i) seule la première / unique activation d'un utilisateur cible présente un intérêt (et cette activation persistera comme une activation acquise, latente, tout au long de la campagne).(ii) de précieuses informations secondaires sont disponibles pour l'agent d'apprentissageDans ce contexte, une approche d'exploration-exploitation pourrait être utilisée pour apprendre les principaux paramètres de diffusion sous-jacents, tout en exécutant les campagnes.Pour CIMP, nous décrivons et comparons deux méthodes de bandits à bras multiples contextuels, avec des limites supérieures de confiance sur le potentiel restant des influenceurs, l'une utilisant un modèle linéaire généralisé et l'estimateur de Good-Turing pour le potentiel restant, et l'autre adaptant directement l'algorithme LinUCB à notre cadre.Pour ECIMP, nous proposons l'algorithmelgtlsvi qui implémente le principe d'optimisme face à l'incertitude pour l'apprentissage par renforcement, avec approximation linéaire.L'agent d'apprentissage estime pour chaque nœud de départ son potentiel restant avec un estimateur de Good-Turing, modifié par une fonction Q estimée. Nous montrons qu'ils surpassent les performances des méthodes de base utilisant les idées les plus récentes, sur des données synthétiques et réelles, tout en présentant un comportement différent et complémentaire, selon les scénarios dans lesquels ils sont déployés.
- Published
- 2023
10. Imitation from observation using behavioral learning
- Author
-
Djeafea Sonwa, Medric B. and Belilovsky, Eugene
- Subjects
Imitation from observation ,Apprentissage par renforcement ,Imitation par observation ,Reinforcement learning ,Imitation learning ,Apprentissage par imitation ,Apprentissage contrastif ,Contrastive learning ,Reconnaissance d'actions ,Action recognition - Abstract
L'Imitation par observation (IPO) est un paradigme d'apprentissage qui consiste à entraîner des agents autonomes dans un processus de décision markovien (PDM) en observant les démonstrations d'un expert et sans avoir accès à ses actions. Ces démonstrations peuvent être des séquences d'états de l'environnement ou des observations visuelles brutes de l'environnement. Bien que le cadre utilisant des états à dimensions réduites ait permis d'obtenir des résultats convaincants avec des approches récentes, l'utilisation d'observations visuelles reste un défi important en IPO. Une des procédures très adoptée pour résoudre le problème d’IPO consiste à apprendre une fonction de récompense à partir des démonstrations, toutefois la nécessité d’analyser l'environnement et l'expert à partir de vidéos pour récompenser l'agent augmente la complexité du problème. Nous abordons ce problème avec une méthode basée sur la représentation des comportements de l'agent dans un espace vectoriel en utilisant des vidéos démonstratives. Notre approche exploite les techniques récentes d'apprentissage contrastif d'images et vidéos et utilise un algorithme de bootstrapping pour entraîner progressivement une fonction d'encodage de trajectoires à partir de la variation du comportement de l'agent. Simultanément, cette fonction récompense l'agent imitateur lors de l'exécution d'un algorithme d'apprentissage par renforcement. Notre méthode utilise un nombre limité de vidéos démonstratives et nous n'avons pas accès à comportement expert. Nos agents imitateurs montrent des performances convaincantes sur un ensemble de tâches de contrôle et démontrent que l'apprentissage d'une fonction de codage du comportement à partir de vidéos permet de construire une fonction de récompense efficace dans un PDM., Imitation from observation (IfO) is a learning paradigm that consists of training autonomous agents in a Markov Decision Process (MDP) by observing an expert's demonstrations and without access to its actions. These demonstrations could be sequences of environment states or raw visual observations of the environment. Although the setting using low-dimensional states has allowed obtaining convincing results with recent approaches, the use of visual observations remains an important challenge in IfO. One of the most common procedures adopted to solve the IfO problem is to learn a reward function from the demonstrations, but the need to understand the environment and the expert's moves through videos to appropriately reward the learning agent increases the complexity of the problem. We approach this problem with a method that focuses on the representation of the agent’s behaviors in a latent space using demonstrative videos. Our approach exploits recent techniques of contrastive learning of image and video and uses a bootstrapping algorithm to progressively train a trajectory encoding function from the variation of the agent’s policy. Simultaneously, this function rewards the imitating agent through a Reinforcement Learning (RL) algorithm. Our method uses a limited number of demonstrative videos and we do not have access to any expert policy. Our imitating agents in experiments show convincing performances on a set of control tasks and demonstrate that learning a behavior encoding function from videos allows for building an efficient reward function in MDP.
- Published
- 2023
11. Learning multi-value ethical behaviours by combining symbolic judging agents and learning agents
- Author
-
Chaput, Rémy, Duval, Jérémy, Boissier, Olivier, Guillermin, Mathieu, Hassas, Salima, Systèmes Cognitifs et Systèmes Multi-Agents (SyCoSMA), Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS), Université Lumière - Lyon 2 (UL2)-École Centrale de Lyon (ECL), Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Lumière - Lyon 2 (UL2)-École Centrale de Lyon (ECL), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), École des Mines de Saint-Étienne (Mines Saint-Étienne MSE), Institut Mines-Télécom [Paris] (IMT), Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes (LIMOS), Ecole Nationale Supérieure des Mines de St Etienne (ENSM ST-ETIENNE)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA)-Institut national polytechnique Clermont Auvergne (INP Clermont Auvergne), Université Clermont Auvergne (UCA)-Université Clermont Auvergne (UCA), Institut Henri Fayol (FAYOL-ENSMSE), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Département Informatique et systèmes intelligents ( FAYOL-ENSMSE), Ecole Nationale Supérieure des Mines de St Etienne (ENSM ST-ETIENNE), UR CONFLUENCE : Sciences et Humanités (EA 1598), Université Catholique de Lyon (UCLy) (UCLy), and Ce travail a été financé par la Région Auvergne Rhônes-Alpes (AURA), au sein du projet Ethics.AI (Pack Ambition Recherche).
- Subjects
Ethics ,Apprentissage Multi-Agent ,Apprentissage par Renforcement ,Reinforcement Learning ,Multi-Agent Learning ,Jugement Éthique ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Hybrid Neural-Symbolic Learning ,[INFO.INFO-CY]Computer Science [cs]/Computers and Society [cs.CY] ,[INFO.INFO-MA]Computer Science [cs]/Multiagent Systems [cs.MA] ,Ethical Judgment ,Machine Ethics ,Hybride Neural-Symbolique ,Éthique - Abstract
National audience; To answer the need to imbue Artificial Intelligence algorithms with ethical considerations, this article propose a method combining reasoning and learning, where judging agents evaluate the ethics of learning agents’ behavior. This separation offers several advantages: co-construction between agents and humans; judges more accessible for non-experts humans; richer feedback by using multiple judgments. Experiments on energy distribution inside a Smart Grid simulator show the learning agents’ ability to comply with judging agents’ rules, including when they evolve.; Afin de répondre au besoin d’incorporer des considérations éthiques au sein d’algorithmes d’Intelligence Artificielle, nous proposons une nouvelle méthode hybride, combinant raisonnement et apprentissage, où des agents juges évaluent l’éthique du comportement d’agents apprenants. Cette séparation offre plusieurs avantages : co-construction entre agents et humains ; juges plus accessibles pour des humains non-experts ; récompense plus riche par l’utilisation de multiples valeurs morales. Les expérimentations sur la distribution de l’énergie dans un simulateur de Smart Grid montrent la capacité des agents apprenants à se conformer aux règles des agents juges, y compris lorsque les règles évoluent.
- Published
- 2023
- Full Text
- View/download PDF
12. Système de surveillance basé sur l'IoT résilient pour l'industrie pétrolière et gazière nigériane
- Author
-
Ahmed, Safuriyawu, CITI Centre of Innovation in Telecommunications and Integration of services (CITI), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria), INSA de Lyon, Frédéric Le Mouël, and Nicolas Stouls
- Subjects
Pipelines ,Informatics ,Surveillance ,Monitoring ,Resilience ,Markov chains ,IoT - Internet of Things ,Leak detection ,Failure ,Informatique ,Distributed systems ,Energy consumption ,[INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,Défaillance ,Système distribué ,Apprentissage par renforcement ,Reinforcement learning ,Chaînes de markov ,Réseau de capteurs sans fil ,Consommation d’énergie ,Résilience ,Wireless sensor network ,Oléoducs ,Détection des fuites - Abstract
Pipeline failures in crude oil transportation occur due to ageing infrastructure, third-party interferences, equipment defects and naturally occurring failures. Consequently, hydrocarbons are released into the environment resulting in environmental pollution, ecological degradation, and unprecedented loss of lives and revenue. Hence, multiple leakage detection and monitoring systems (LDMS) are employed to mitigate such failures. More recently, these LDMS include Wireless Sensor Networks (WSN) and Internet of Things (IoT)-based systems. While they are proven more efficient than other LDMS, many challenges exist in adopting such systems for pipeline monitoring. These include fault tolerance, energy consumption, accuracy in leakage detection and localisation, and high false alarms, to cite a few. Therefore, our work seeks to address some challenges in implementing IoT-based systems for crude oil pipelines in a resilient end-to-end manner. Specifically, we consider the aspect of accurate leakage detection and localisation by introducing a unique node placement strategy based on fluid propagation for sensitive and multi-sized leakage detection. We also propose a new distributed leakage detection technique (HyDiLLEch) in the WSN layer. It is based on a fusion of existing leakage detection techniques such as the negative pressure wave method, gradient-based method, and pressure point analysis. With HyDiLLEch, we efficiently eliminate single points of failure. Furthermore, we implement fault-tolerant data and service management in the fog layer utilising the Nigerian National Petroleum Corporation (NNPC) pipeline network as a use case. The problem is modelled as a regionalised data-driven game against nature on the NNPC pipeline. Our proposed regionalised solution (R-MDP) using reinforcement learning optimises accuracy and fault tolerance while minimising energy consumption. Overall, our system guarantees resiliency to failures and efficiency in terms of detection and localisation accuracy and energy consumption.; Les défaillances d'oléoducs dans le transport du pétrole brut se produisent en raison du vieillissement de l'infrastructure, des interférences de tiers, des défauts d'équipement et des défaillances naturelles. Par conséquent, des hydrocarbures sont rejetés dans l'environnement, entraînant une pollution de l'environnement, une dégradation écologique et des pertes de vies et de revenus sans précédent. Par conséquent, plusieurs systèmes de détection et de surveillance des fuites (LDMS) sont utilisés pour atténuer ces défaillances. Plus récemment, ces LDMS incluent les réseaux de capteurs sans fil (WSN) et les systèmes basés sur l'Internet des objets (IoT). Bien qu'ils se soient avérés plus efficaces que d'autres LDMS, de nombreux défis existent dans l'adoption de tels systèmes pour la surveillance des pipelines. Ceux-ci incluent la tolérance aux pannes, la consommation d'énergie, la précision de la détection et de la localisation des fuites et le nombre élevé de fausses alarmes, pour n'en citer que quelques-uns. Par conséquent, notre travail vise à relever certains défis dans la mise en œuvre de systèmes basés sur l'IdO pour les oléoducs de pétrole brut de bout en bout de manière résiliente. Plus précisément, nous considérons les aspects de détection et localisation précises des fuites en introduisant une stratégie de placement de nœud unique basée sur la propagation des fluides pour une détection de fuite sensible et multi-tailles. Nous proposons également une nouvelle technique de détection de fuite distribuée (HyDiLLEch) dans la couche WSN. Elle est basée sur une fusion des techniques de détection de fuites existantes telles que la méthode des ondes de pression négative, la méthode basée sur le gradient et l'analyse des points de pression. Avec HyDiLLEch, nous éliminons efficacement les points de défaillance uniques. En outre, nous mettons en œuvre une gestion des données et des services tolérante aux pannes dans la couche de inrastructure Edge en utilisant le réseau de oléoducs de la Nigerian National Petroleum Corporation (NNPC) comme cas d'utilisation. Le problème est modélisé par la théorie des jeux avec une approche régionalisée du réseaux NNPC contre la nature. Notre proposition de solution régionalisée (R-MDP) utilise l'apprentissage par renforcement et optimise la précision et la tolérance aux pannes tout en minimisant la consommation d'énergie. Dans l'ensemble, notre système garantit la résilience aux pannes et l'efficacité en termes de précision de détection et de localisation et de consommation d'énergie.
- Published
- 2022
13. Robots autodidactes: Apprentissage autonome et faiblement supervisé pour la manipulation robotique
- Author
-
Alakuijala, Minttu, Google Research, Models of visual object recognition and scene understanding (WILLOW), Département d'informatique - ENS Paris (DI-ENS), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria), Apprentissage de modèles à partir de données massives (Thoth), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Jean Kuntzmann (LJK), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), ENS Paris - Ecole Normale Supérieure de Paris, Jean Ponce, Cordelia Schmid, Julien Mairal, and ANR-19-P3IA-0001,PRAIRIE,PaRis Artificial Intelligence Research InstitutE(2019)
- Subjects
Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Video understanding ,Reinforcement learning ,Prise robotique ,[INFO.INFO-CV]Computer Science [cs]/Computer Vision and Pattern Recognition [cs.CV] ,[INFO.INFO-RB]Computer Science [cs]/Robotics [cs.RO] ,[INFO]Computer Science [cs] ,Learning from demonstration ,Apprentissage par démonstration ,Robotic grasping ,Compréhension video - Abstract
Despite significant advances in machine learning in recent years, robotic control learned from data has yet to show large-scale impact in the real world. One of the main limitations is access to data -- especially when coupled with the complexity of high-dimensional and underactuated control problems. Unlike in domains such as image classification or machine translation, explicit training examples cannot be easily sourced and annotated on the internet but data collection is bounded by real-time robot operation.This thesis presents several ways to leverage external data sources, from task demonstrations to full-length tutorial videos, to address the challenge of slow data collection and thus accelerate learning of robotic manipulation tasks. First, we propose a method to efficiently leverage a small number of demonstrations as a starting point, and autonomously improve this initial policy through residual reinforcement learning. No reward shaping, controller engineering or state estimation is needed as the policy uses image and proprioceptive inputs as well as sparse task completion rewards only.In our second contribution, we show that robotic agents can acquire inductive biases for manipulation by watching videos of humans using their hands and arms before ever interacting with the world themselves. We demonstrate that our reward functions, though trained exclusively on human data, are able to generalize their predictions of task progress to robot arms and accelerate training of several unseen manipulation tasks.Finally, we propose that narrated instruction videos can not only help agents gain subtask execution skills, but also teach them which subtasks are needed to accomplish long-horizon goals and in which order, as well as how they map to natural language instructions. Specifically, we present a discriminative clustering based method leveraging the temporal alignment of the narration and visual streams for automatic subtask discovery and segmentation. Both short and long-form instructional videos are especially promising data sources as they are widely available on the internet.In this thesis, we investigate the performance of purely learning-based algorithms for robotic manipulation, while acknowledging that optimal control as well as hybrid approaches can provide complementary solutions to some of the open challenges. Our key argument is that advances in the related fields of computer vision, signal processing, natural language processing, imitation and deep reinforcement learning can help lead the way towards more adaptive robotic agents. In manipulation domains, in particular, the variety of materials, shapes and tasks present in the real world beyond tightly controlled operating conditions poses great difficulty for fixed control strategies and the precise physical modelling required by classical model-predictive control approaches. Our overarching goal is therefore to enable more capable and versatile robotic manipulation through data-driven methods. Reducing the amount of domain expertise required to train robots by emphasizing example-based learning and autonomous improvement will ultimately support more widespread adoption of adaptive robotic solutions.; Malgré des progrès considérables réalisés ces dernières années dans l'apprentissage automatique, son utilisation dans le cadre de la commande de robots n'a pas encore eu d'impact à grande échelle. L'une des principales limitations est l'accès aux données, surtout si l'on tient compte de la complexité des problèmes de commande en haute dimension et pour des systèmes sous-actionnés. Contrairement au cas des domaines tels que la classification d'images ou la traduction automatique, il est difficile de trouver des exemples d'entraînement annotés sur Internet, et la collecte de données dans des environnements physiques est limitée par le fonctionnement du robot.Cette thèse présente plusieurs façons d'exploiter des sources de données externes, de démonstrations de tâches aux tutoriels vidéo, pour relever le défi de la lenteur de la collecte de données et ainsi accélérer l'apprentissage des tâches de manipulation robotique. Nous proposons d'abord une méthode pour exploiter efficacement un petit nombre de démonstrations comme point de départ, et améliorer de manière automatique la politique initiale par un apprentissage par renforcement résiduel. Des étapes d'affinement de la fonction de récompense, des contrôleurs ou encore d'estimation d'état ne sont pas nécessaires car la politique utilise uniquement des entrées d'image et proprioceptives ainsi que des récompenses binaires obtenues en fonction de la réussite de la tâche désirée.Dans notre deuxième contribution, nous montrons que les agents robotiques peuvent acquérir des biais inductifs pour la manipulation avant d'interagir eux-mêmes avec le monde physique, en regardant des vidéos de personnes utilisant leurs mains et leurs bras. Nous démontrons que nos fonctions de récompense, bien qu'entraînées exclusivement sur des données humaines, sont capables de généraliser leurs prédictions de progression de tâche aux bras robotiques et d'accélérer l'entraînement de plusieurs tâches de manipulation.Enfin, nous proposons d'utiliser des tutoriels vidéo pour enseigner aux agents des compétences en matière d'exécution de sous-tâches, quelles sont les sous-tâches nécessaires pour accomplir une tâche à long terme, leur ordre d'exécution, et comment elles correspondent aux instructions en langage naturel. Plus précisément, nous présentons une méthode basée sur le clustering discriminant qui exploite l'alignement temporel de la narration et du flux visuel pour la découverte et la segmentation des sous-tâches. Les tutoriels vidéo, qu'ils soient courts ou longs, sont des sources de données particulièrement prometteuses car ils sont abondants sur Internet.Dans cette thèse, nous étudions la performance des algorithmes purement basés sur l'apprentissage pour la manipulation robotique, tout en reconnaissant que la commande optimale ainsi que les approches hybrides peuvent fournir des solutions complémentaires à certains des défis ouverts. Notre argument central est que les avancées dans les domaines connexes de la vision par ordinateur, du traitement du signal, du traitement du langage naturel, des l'apprentissage par imitation et par renforcement profond peuvent aider à ouvrir la voie à des agents robotiques plus adaptatifs. C'est particulièrement le cas pour le domaine de la manipulation dans le monde réel, en dehors de conditions d'exploitation étroitement contrôlées. En effet, la variété des matériaux, des formes et des tâches pose de grandes difficultés pour les stratégies de contrôle fixes et les approches classiques de commande prédictive qui nécessitent une modélisation physique précise. Notre objectif principal est donc de permettre une manipulation robotique plus performante et polyvalente grâce à des méthodes appris à partir des données. Réduire l'expertise liée au domaine nécessaire pour former les robots, en mettant l'accent sur l'apprentissage à partir d'exemples et l'amélioration autonome, favorisera en fin de compte l'adoption plus large de solutions robotiques adaptatives.
- Published
- 2022
14. Vers l'adaptation dans la collaboration homme-robot
- Author
-
Vianello, Lorenzo, Centre de Recherche en Automatique de Nancy (CRAN), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Lifelong Autonomy and interaction skills for Robots in a Sensing ENvironment (LARSEN), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Complex Systems, Artificial Intelligence & Robotics (LORIA - AIS), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Universite de Lorraine, Alexis Aubry, Serena Ivaldi, and ANR-15-IDEX-0004,LUE,Isite LUE(2015)
- Subjects
Human - Robot Physical Interaction ,Collaboration humain robot ,Apprentissage par renforcement ,Reinforcement learning ,[INFO.INFO-RB]Computer Science [cs]/Robotics [cs.RO] ,Industrie 4.0 ,Industry 4.0 ,Interaction physique homme-robot ,Human robot collaboration - Abstract
Cette thèse présente plusieurs contributions dans le domaine de l’interaction physique homme-robot. En premier lieu, elle propose une méthode pour prédire la posture humaine pendant qu’un humain interagit physiquement avec un robot. Deuxièmement, elle décrit des algorithmes et des outils de simulation pour visualiser le score d’ergonomie humaine associé au mouvement d’un humain, en temps réel, même lorsque l’humain est physiquement couplé au robot. Troisièmement, la thèse fait progresser les connaissances sur la façon de contrôler et d’adapter le comportement du robot pendant la collaboration, grâce à des études expérimentales impliquant des humains et des robots dans des scénarios de comanipulation. La première étude examine les meilleures stratégies d’impédance pour que le robot puisse collaborer avec l’humain lors de la co-manipulation d’un tuyau dans une tâche d’insertion de précision, tandis que la deuxième étude examine comment les humains s’adaptent aux stratégies d’impédance changeantes d’un robot lors d’une tâche de sciage collaborative.; The thesis presents several contributions in the area of human-robot physical interaction. First, it proposes a method to predict human posture while a human interacts physically with a robot. Second, it describes algorithms and simulation tools to visualize the human ergonomics score associated with themovement of a human, in real-time, even when the human is physically coupled with the robot. Third, the thesis advances the knowledge on how to control and adapt the robot behaviour during collaboration, thanks to experimental studies involving humans and robots in comanipulation scenarios. The firststudy investigates the best impedance strategies for the robot to collaborate with the human during a co-manipulation of a pipe in a precision insertion task, while the second study investigates how humans adapt to changing impedance strategies of a robot during a collaborative sawing task.
- Published
- 2022
15. Architecture à double voie sous-jacent l'apprentissage vocal des oiseaux chanteurs
- Author
-
Sankar, Remya, Mnemonic Synergy (Mnemosyne), Laboratoire Bordelais de Recherche en Informatique (LaBRI), Université de Bordeaux (UB)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Centre National de la Recherche Scientifique (CNRS)-Université de Bordeaux (UB)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Centre National de la Recherche Scientifique (CNRS)-Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut des Maladies Neurodégénératives [Bordeaux] (IMN), Université de Bordeaux (UB)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS), Institut des Maladies Neurodégénératives [Bordeaux] (IMN), Université de Bordeaux (UB)-Centre National de la Recherche Scientifique (CNRS), Université de Bordeaux (UB), Université de Bordeaux (UB)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Centre National de la Recherche Scientifique (CNRS), Université de Bordeaux, Nicolas Rougier, and Arthur Leblois
- Subjects
Neural Networks ,Apprentissage par renforcement ,L’apprentissage sensorimoteur ,Reinforcement learning ,Réseaux de neurones ,Sensorimotor learning ,[INFO.INFO-MO]Computer Science [cs]/Modeling and Simulation ,Neuroscience - Abstract
Sensorimotor learning refers to the acquisition of motor skills by an individual, guided by sensory perception, for instance, learning to speak. Human speech acquisition is rather similar to vocal learning by songbirds. Hence, we use songbirds to study the neural circuitry underlying sensorimotor learning. We build computational models to explore the utility of parallel cortical and subcortical pathways that govern song acquisition, and investigate the interplay between functional and structural plasticity within this circuitry. Inspired from the vocal learning behaviour, we look at biologically plausible mechanisms to optimise sensorimotor learning. We investigate the neural correlates of reinforcement learning contributing to vocal learning by observing the neural activity in the song system of male zebra finches. By using both theoretical and experimental approaches of neuroscience, we hope to advance our understanding of vocal learning, and, in general, sensorimotor learning.; L’apprentissage sensorimoteur est l’acquisition d’aptitudes motrices par un individu, guidée par la perception sensorielle, comme l’acquisition de la parole chez l’homme et les oiseaux chanteurs. Nous utilisons les oiseaux chanteurs pour étudier les circuits neuronaux qui soutiennent l’apprentissage sensorimoteur. Nous créons des modèles informatiques pour explorer l’utilité des voies corticales et sous-corticales parallèles qui régissent l’acquisition du chant, et nous étudions l’interaction entre la plasticité fonctionnelle et structurelle dans ces circuits. Inspirés par le comportement d’apprentissage vocal, nous étudions les mécanismes biologiquement plausibles pour optimiser l’apprentissage sensorimoteur. Nous étudions les corrélats neuraux de l’apprentissage par renforcement contribuant à l’apprentissage vocal en observant l’activité neuronale dans le système de chant. En utilisant les approches théoriques et expérimentales, nous espérons mieux comprendre l’apprentissage sensorimoteur.
- Published
- 2022
16. Optimisation de la prise de décisions pour la collaboration homme-robot
- Author
-
Daniel, Mélodie, Institut Pascal (IP), Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA)-Institut national polytechnique Clermont Auvergne (INP Clermont Auvergne), Université Clermont Auvergne (UCA)-Université Clermont Auvergne (UCA), Université Clermont Auvergne, Youcef Mezouar, Sébastien Lengagne, and Juan Antonio Corrales Ramón
- Subjects
Human-robot collaboration ,Apprentissage par renforcement ,Reinforcement learning ,Prise de décisions ,Game theory ,Théorie des jeux ,Decision-making ,Collaboration homme-robot ,[SPI.TRON]Engineering Sciences [physics]/Electronics ,[SPI.AUTO]Engineering Sciences [physics]/Automatic - Abstract
Robots are gradually making their way from industries and laboratories into our daily lives. Whetherthey serve as companions, teachers, receptionists, cleaners, or meet other needs, these robots aim toimprove our quality of life. However, robots' decisional autonomy remains the major challenge inrobotics. To increase the robot's autonomy, the researchers tend, on the one hand, to classify thecollaborations based on different criteria to gather the commonalities between the human-robotcollaborations. The goal is to detect the similar steps that the robot must be able to accomplish toperform the various tasks. On the other hand, other works focus on enhancing one or many of the fieldsrequired to set up a human-robot collaboration. The robot must perform four standard steps to set up ahuman-robot collaboration: perception, decision-making, motion execution, and evaluation. This thesis aims to optimize the human-robot collaboration performance by improving the robot'sdecision-making process. We evaluate the collaboration performance based on different changeableperformance metrics. Hence, an optimized collaboration aims to benefit humans, such as getting thetask done faster or reducing the effort of human agents. However, an unoptimized collaboration willbring nothing to humans or, on the contrary, will represent a nuisance, such as slowing them down oroverloading them, even if the task is finally accomplished. We start by developing a global framework that optimizes the robot's decision-making process. Weapply this framework to a non-intuitive assembly task, i.e., complex cognitive processing is required tofind the right place for each piece of the proposed assembly game. We want to enhance the task time tocompletion by a collaborative human-robot team without having to increase its physical capabilities(i.e., perception, trajectory planning, or low-level control). Our proposed framework can improvehuman-robot collaboration while considering different performance metrics. These metrics areconsidered regardless of the behavior of the human agent. We then apply this framework to a second application more complex (i.e., deforming a soft object)that requires increasing the robot's manipulation dexterity by improving its low-level control. Indeed,we will consider this second application that requires increasing the robot's manipulation dexterity tomaximize the optimization of the collaboration performance. A human-robot collaborative team willhave to co-manipulate the soft object to make it reach desired shapes. The collaborative team canachieve this application using a deep reinforcement learning approach. The idea is to train the agent (asingle-arm robot or a dual-arm robot) in simulation and to test it in real by replacing the second roboticarm with the human agent.; Les robots se fraient progressivement un chemin depuis les industries et les laboratoires jusqu’à notre vie quotidienne. Qu'ils servent de compagnons, d'enseignants, de réceptionnistes, de nettoyeurs ou répondent à d'autres de nos besoins, ces robots ont pour objectif d'améliorer notre qualité de vie. Cependant, l'autonomie décisionnelle des robots reste un défi majeur dans le domaine de la robotique. Pour augmenter l'autonomie du robot, les chercheurs ont tendance à classer les collaborations en fonction de différents critères afin de rassembler les points communs entre les collaborations homme-robot. L'objectif est de détecter les étapes similaires que le robot doit être capable d'accomplir pour réaliser les différentes tâches. D'autre part, d'autres travaux visent à améliorer un ou plusieurs des domaines nécessaires pour qu'une collaboration homme-robot soit mise en place. Le robot doit effectuer quatre étapes standards pour mettre en place une collaboration homme-robot : la perception,la prise de décisions, l'exécution de mouvements et l'évaluation. Cette thèse se concentre sur l'optimisation des performances de la collaboration homme-robot en améliorant le processus décisionnel du robot. Nous évaluons la performance de la collaboration à l'aide de différentes métriques modifiables de performance. Ainsi, une collaboration optimisée a pour but d'apporter des bénéfices aux humains, tels que l'accomplissement plus rapide de la tâche ou la réduction de l'effort des agents humains. En revanche, une collaboration non optimisée n'apportera rien aux humains ou, au contraire, représentera une nuisance, comme le fait de les ralentir ou de les surcharger et ce même si la tâche est finalement accomplie. Nous commençons par développer un framework global qui optimise le processus décisionnel du robot. Nous appliquons ce framework à une tâche d'assemblage non intuitive, c'est-à-dire qu'un raisonnement cognitif complexe est nécessaire pour trouver le bon endroit où placer chaque pièce du jeu d'assemblage proposé. Nous voulons améliorer la réalisation de la tâche par une équipe homme-robot collaborative sans avoir à augmenter les capacités physiques de ce dernier (à savoir la perception,la planification de trajectoires ou le contrôle bas-niveau). Le framework que nous proposons peut améliorer la collaboration homme-robot en prenant en compte différentes métriques de performance. Ces métriques sont prises en compte indépendamment du comportement de l'humain. Nous appliquons ensuite ce framework à une deuxième application plus complexe (à savoir la déformation d'un objet mou) qui nécessite d'augmenter la dextérité de manipulation du robot en améliorant son contrôle bas-niveau. En effet, nous prenons en considération cette deuxième application,qui nécessite d'augmenter la dextérité de manipulation du robot, afin de maximiser l'optimisation de la performance de la collaboration. Une équipe collaborative homme-robot devra co-manipuler un objet déformable afin de lui faire atteindre des formes désirées. L'équipe collaborative peut réaliser cette application à l'aide d'une approche d'apprentissage par renforcement profond. L'idée est d'entraîner l'agent (un robot à un ou deux bras) en simulation et de le tester en situation réelle et ce en remplaçant le second bras robotique par l'agent humain.
- Published
- 2022
17. The Ecology of Open-Ended Skill Acquisition: Computational framework and experiments on the interactions between environmental, adaptive, multi-agent and cultural dynamics
- Author
-
Moulin-Frier, Clément, Flowing Epigenetic Robots and Systems (Flowers), Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université de Bordeaux (UB), and Pierre-Yves Oudeyer
- Subjects
évolution culturelle ,Open-ended skill acquisition ,reinforcement learning ,motivations intrinsèques ,systèmes multi-agents ,[SCCO.COMP]Cognitive science/Computer science ,[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,artificial intelligence ,apprentissage par renforcement ,écologie ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,intelligence artificielle ,[SDV.EE.ECO]Life Sciences [q-bio]/Ecology, environment/Ecosystems ,[INFO.INFO-MA]Computer Science [cs]/Multiagent Systems [cs.MA] ,evolution ,multi-agent systems ,ecology ,cultural evolution ,évolution ,Acquisition ouverte de compétence ,development ,intrinsic motivation ,développement - Abstract
An intriguing feature of the human species is our ability to continuously invent new problems and to proactively acquiring new skills in order to solve them: what is called open-ended skill acquisition (OESA). Understanding the mechanisms underlying OESA is an important scientific challenge in both cognitive science (e.g. by studying infant cognitive development) and in artificial intelligence (aiming at computational architectures capable of open-ended learning). Both fields, however, mostly focus on cognitive and social mechanisms at the scale of an individual’s life. It is rarely acknowledged that OESA, an ability that is fundamentally related to the characteristics of human intelligence, has been necessarily shaped by ecological, evolutionary and cultural mechanisms interacting at multiple spatiotemporal scales. In this thesis, I present a research program aiming at understanding, modelingand simulating the dynamics of OESA in artificial systems, grounded in theories studying its eco-evolutionary bases in the human species. It relies on a conceptual framework expressing the complex interactions between environmental, adaptive, multi-agent and cultural dynamics. Three main research questions are developed and I present a selection of my contributions for each of them.- What are the ecological conditions favoring the evolution of skill acquisition?- How to bootstrap the formation of a cultural repertoire in populations of adaptive agents?- What is the role of cultural evolution in the open-ended dynamics of human skill acquisition?By developing these topics, we will reveal interesting relationships between theories in human evolution and recent approaches in artificial intelligence. This will lead to the proposition of a humanist perspective on AI: using it as a family of computational tools that can help us to explore and study the mechanisms driving open-ended skill acquisition in both artificial and biological systems, as a way to better understand the dynamics of our own species within its whole ecological context. This document presents an overview of my scientific trajectory since the start of my PhD thesis in 2007, the detail of my current research program, a selection of my contributions as well as perspectives for future work.
- Published
- 2022
18. Apprentissage par renforcement d’une méthode de navigation pour la planification de contact de robots humanoïdes
- Author
-
Chemin, Jason, Équipe Mouvement des Systèmes Anthropomorphes (LAAS-GEPETTO), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT), INSA de Toulouse, Nicolas Mansard, and Steve Tonneau
- Subjects
Machine Learning ,Apprentissage par renforcement ,[INFO.INFO-AU]Computer Science [cs]/Automatic Control Engineering ,Robotics ,Robotique ,Intelligence artificielle ,Reinforcement Learning ,Navigation - Abstract
National audience; This thesis explores how to generate paths for legged robot locomotion. One approach to tackle the locomotion problem is its division into three sequential modules: navigation to generate a guide path that the robot has to follow, contact planning along this guide path, and finally the robot whole-body motion. This division greatly reduces the locomotion problem complexity, but raises the critical question of the "feasibility" between the different modules. In this context, this thesis explores the feasibility problem between the navigation and the next modules, in other words: "How to generate feasible paths by the robot?" A naive approach is to use a reduced model of the robot with two conditions: the robot trunk must not collide with the environment, and the robot feet must be able to reach the ground all along the path. But these two conditions are not sufficient to approximate path feasibility. To refine these conditions, another approach is to consider the traversability of the terrain, to generate more likely easier paths for the robot. This thesis explores a different approach that is to learn by reinforcement how to generate feasible paths directly from the contact planner. My contribution is a local steering method, named Leas, which locally navigates the terrain in the desired direction using a height map. Leas learns from the contact planner validation what is a feasible path by it, and consequently adapts its navigation behavior. This steering method has been connected to three contact planners, each having different strategies. I will explain its results and limitations for legged robot locomotion in complex environments.; E but de ma thèse est d’apprendre comment générer des chemins pour la locomotion de robots à pattes. Une approche possible au problème de la locomotion est une division en trois modules séquentiels qui sont: la navigation pour générer un chemin (ou guide) que le robot devra suivre, la planification de ses pas tout le long du chemin, puis enfin le mouvement corps complet du robot pour les réaliser. Cette division permet de réduire la complexité du problème, mais amène la question critique de la "faisabilité" entre les différents modules. Dans ce contexte, cette thèse s'intéresse à la question de la faisabilité entre le module de navigation et les autres modules, autrement dit: "Comment générer des chemins faisables par le robot?" Une approche naïve repose sur un modèle réduit du robot apportant deux conditions: le tronc du robot ne soit pas en collision avec l'environnement, et les pieds du robot doivent pouvoir atteindre le sol tout le long du chemin. Mais ces deux conditions ne sont pas suffisantes pour approximer la faisabilité des chemins. Pour raffiner ces conditions, une deuxième approche est de s'intéresser au concept de traversabilité des terrains, afin de de générer des chemins plus faciles pour le robot. Cette thèse explore une autre approche qui est d'apprendre par renforcement à générer des chemins faisables directement via le planificateur de contact. Ma contribution est une méthode de pilotage, nommée Leas, qui grâce à une carte d'élévation locale navigue le terrain dans une direction désirée. Leas apprend via la validation par le planificateur de contact ce qu'est un chemin faisable par lui, et modifie ses comportements de navigation en conséquence. Cette méthode de pilotage a été connectée à trois planificateurs de contacts ayant des stratégies différentes. Je vais montrer ses résultats et ses limitations pour la locomotion de robot à pattes dans des environnements complexes.
- Published
- 2022
19. Identifier la structure des problèmes d'apprentissage en ligne et collaboratif
- Author
-
Asadi, Mahsa, Machine Learning in Information Networks (MAGNET), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), Université de Lille, Marc Tommasi, Aurélien Bellet, Lille University, and Aurelien Bellet
- Subjects
Mean estimation ,Reinforcement learning RL ,Decentralized learning ,Bandit manchot (mathématiques) ,Collaborative Learning ,Apprentissage automatique en ligne ,Estimation moyenne ,Reinforcement Learning ,Graph ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Réseaux de graphes ,Apprentissage par renforcement ,Online Learning ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Machine learning ML ,apprentissage automatique ,Graph networks ,[INFO]Computer Science [cs] ,online machine learning ,Bandits ,Apprentissage automatique collaboratif - Abstract
Nowadays it is commonplace to deal with large scale problems and should we take problem structure into account, it could assist us toward improving learning performance. In this work, we have proposed approaches that take into account the structure in two settings: (i) model-based reinforcement learning problems where we have reduced the regret (ii) online personalized mean estimation problems where we have reduced the sample complexity for mean estimation.; De nos jours, il est courant de traiter des problèmes à grande échelle et si nous prenons en compte la structure du problème, cela pourrait nous aider à améliorer les performances d'apprentissage. Dans ce travail, nous avons proposé des approches qui tiennent compte de la structure dans deux contextes: (i) les problèmes d'apprentissage par renforcement basés sur des modèles où nous avons réduit le regret (ii) les problèmes d'estimation de moyenne personnalisée en ligne où nous avons réduit la complexité de l'échantillon pour l'estimation moyenne.
- Published
- 2022
20. Algorithmes efficaces pour le contrôle et l'apprentissage par renforcement
- Author
-
Berthier, Eloïse, Université Paris sciences et lettres (PSL), École normale supérieure - Paris (ENS-PSL), Statistical Machine Learning and Parsimony (SIERRA), Département d'informatique - ENS Paris (DI-ENS), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS)-Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria), Université PSL (Paris Sciences & Lettres), and Francis Bach (francis.bach@inria.fr)
- Subjects
Sommes de carrés ,Optimal control ,Fonctions de Lyapunov ,Méthodes numériques ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Espaces à noyaux reproduisants ,Approximation max-plus ,Reinforcement learning ,Sums-of-squares ,Contrôle optimal ,Numerical methods ,Max-plus approximation ,Estimation non-paramétrique ,[MATH.MATH-OC]Mathematics [math]/Optimization and Control [math.OC] ,Non-parametric estimation ,Reproducing kernel Hilbert spaces ,Lyapunov functions - Abstract
Reinforcement learning describes how an agent can learn to act in an unknown environment in order to maximize its reward in the long run. It has its origins in the field of optimal control, as well as in some works in psychology. The increase in computational power and the use of approximation methods such as neural networks have led to recent successes, in particular in the resolution of games, yet without systematically providing theoretical guarantees. As for the field of optimal control, for which a model of the environment is provided, it has known solid theoretical developments since the 1960s, with numerical tools that have proven useful in many industrial applications. Nevertheless, the numerical resolution of high dimensional nonlinear control problems, which are typically encountered in robotics, remains relatively open today.In this thesis, we develop and analyze efficient algorithms, when possible with theoretical guarantees, for control and reinforcement learning. We show that, even though they are formulated differently, these two problems are very similar. We first focus on the discretization of continuous state deterministic Markov decision processes, by adapting a method developed for continuous time control. Then we propose a method for fast estimation of stability regions applicable to imperfectly known high-dimensional dynamical systems. We then generalize an algorithm for solving control problems derived from polynomial optimization, to non-polynomial systems known through a finite number of observations. For this, we use a sum-of-squares representation of smooth positive functions from kernel methods. Finally, we analyze a classical algorithm in reinforcement learning, the temporal-difference learning algorithm, in its non-parametric version. In particular, we insist on the link between the temporal-difference learning algorithm and the stochastic gradient descent algorithm, for which many convergence results are known.; L’apprentissage par renforcement désigne pour un agent le fait d’apprendre à agir dans un environnement inconnu, de façon à maximiser sa récompense sur le long terme. Il trouve son origine dans le domaine du contrôle optimal, ainsi que dans certains travaux en psychologie. L’augmentation des capacités de calcul et l’utilisation de méthodes d’approximation comme les réseaux de neurones ont permis des succès récents notamment pour la résolution des jeux, sans pour autant systématiquement fournir des garanties théoriques. Quant au domaine du contrôle optimal, pour lequel un modèle de l’environnement est fourni, il a connu des développements théoriques solides dès les années 1960, avec des outils numériques qui ont fait leurs preuves dans de nombreuses applications industrielles. Néanmoins, la résolution numérique de problèmes de contrôle non-linéaires de grande dimension, problèmes qui sont notamment rencontrés en robotique, reste aujourd’hui relativement ouverte.Dans cette thèse, nous développons et analysons des algorithmes efficaces, si possible avec des garanties théoriques, pour le contrôle et l’apprentissage par renforcement. Nous montrons que, même s’ils sont formulés différemment, ces deux problèmes sont très proches. Nous nous intéressons d’abord à la discrétisation des processus de décision Markoviens déterministes à état continu, en adaptant une méthode développée pour le contrôle en temps continu. Puis nous proposons une méthode d’estimation rapide de régions de stabilité applicable à des systèmes dynamiques de grande dimension imparfaitement connus. Nous généralisons ensuite un algorithme de résolution de problèmes de contrôle issu de l’optimisation polynomiale, aux systèmes non-polynomiaux et connus à partir d’un nombre fini d’observations. Pour cela, nous utilisons une représentation comme somme de carrés des fonctions positives lisses issue des méthodes à noyaux. Enfin, nous analysons un algorithme classique en apprentissage par renforcement, l’algorithme des différences temporelles, dans sa version non-paramétrique. Nous soulignons ainsi le lien entre l’algorithme des différences temporelles et l’algorithme de descente de gradient stochastique, pour lequel de nombreux résultats de convergence sont connus.
- Published
- 2022
21. Towards simulating the emergence of environmentally responsible behavior among natural resource users : an integration of complex systems theory, machine learning and geographic information science
- Author
-
Harati Asl, Saeed, Perez, Liliana, and Molowny-Horas, Roberto
- Subjects
Governance ,Complex systems ,Social-ecological system ,Modèle basé sur les agents ,Apprentissage automatique ,Reinforcement Learning ,Système socio-écologique ,Systèmes complexes ,Spatial model ,Machine Learning ,Apprentissage par renforcement ,Agent Based Model ,Gouvernance ,Modèle spatial - Abstract
La gouvernance pour le développement durable comporte de nombreux défis. L'un de ces défis consiste à mieux comprendre les systèmes socio-écologiques gouvernés. Dans de tels systèmes, l'apprentissage par essais et erreurs implique le risque de conséquences inattendues, irréversibles et néfastes. De plus, en raison de la complexité des systèmes socio-écologiques, les leçons tirées d'expériences à petite échelle ne peuvent pas toujours être applicables à des problèmes à grande échelle. Un autre aspect difficile des problèmes de développement durable est que ces problèmes sont souvent multidisciplinaires et composés de composants qui sont chacun étudiés individuellement dans une discipline différente, mais il existe peu d'informations sur leur comportement ensemble. Un troisième défi de la gouvernance pour le développement durable est qu'il est souvent nécessaire d'impliquer les parties prenantes dans des actions de gestion et des mesures d'intervention coûteuses pour les individus qui y participent. De plus, dans de nombreuses situations de ce type, les incitations financières et l'application des réglementations se soldent par un échec et ne constituent donc pas des options de gouvernance. Dans cette thèse, les défis ci-dessus sont abordés dans un exemple de contrôle des perturbations forestières avec une approche intégrée. Pour éviter le problème des effets indésirables irréversibles et pour permettre des expériences répétées, une approche de simulation est utilisée. Pour relever le défi de la multidisciplinarité des problèmes des systèmes socio-écologiques, deux modèles sont développés indépendamment - portant sur les aspects sociaux et écologiques du système de l'étude - et ils sont ensuite couplés de telle sorte que la sortie de chaque modèle est utilisée comme entrée pour l'autre modèle. Pour résoudre le problème de l'engagement des parties prenantes, un plan est proposé pour la promotion d'un comportement respectueux de l'environnement. Ce plan est basé sur l'offre de reconnaissance à ceux qui adoptent volontairement le comportement responsable. Le modèle écologique de cette étude, qui simule la propagation d'une perturbation forestière, est construit à l'aide de l’apprentissage automatique supervisé. Le modèle social de cette étude, qui simule l'émergence d'une nouvelle norme de comportement, est construit à l'aide de l'apprentissage par renforcement. Les deux modèles sont testés et validés avant couplage. Le modèle couplé est ensuite utilisé comme un laboratoire virtuel, où plusieurs expériences sont réalisées dans un cadre hypothétique et selon différents scénarios. Chacune de ces expériences est une simulation. A travers ces simulations, cette étude montre qu'avec un algorithme de prise de décision approprié et avec suffisamment de temps pour l'interaction entre une entité gouvernante et la société, il est possible de créer une motivation pour un comportement responsable dans la société. En d'autres termes, il est possible d'encourager la participation volontaire des acteurs à l'action pour le développement durable, sans que l'entité gouvernante ait besoin d'utiliser des incitations financières ou d'imposer son autorité. Ces résultats peuvent être applicables à d'autres contextes où un comportement responsable des individus ou des entreprises est recherché afin d'atténuer l'impact d'une perturbation, de protéger une ressource écologique, ou de faciliter une transition sectorielle vers la durabilité., Governance for sustainable development involves many challenges. One of those challenges is to gain insight about the social-ecological systems being governned. In such systems, learning by trial and error involve the risk of unexpected, irreversible and adverse consequences. Moreover, due to complexity of social-ecological systems, lessons learned from small scale experiments may not be applicable in large-scale problems. Another challenging aspect of problems of sustainable development is that these problems are often multidisciplinary and comprised of components that are each studied individually in a different discipline, but little information exists about their behavior together as a whole. A third challenge in governance for sustainable development is that often it is necessary to involve stakeholders in management actions and intervention measures that are costly for individuals who participate in them. Moreover, in many of these situations financial incentives or enforcement of regulations result in failure, and are thus not options for governance. In this thesis, the above challenges are addressed in an example case of forest disturbance control with an integrated approach. To avoid the problem of irreversible adverse effects and to allow repeated experiments, a simulation approach is used. To tackle the challenge of multidisciplinarity of problems of social-ecological systems, two models are independently developed – pertaining to social and ecological aspects of the system of the study – and they are subsequently coupled in such a way that the output of each model served as an input for the other. To address the problem of engagement of stakeholders, a scheme is proposed for promotion of environmentally responsible behavior. This scheme is based on offering recognition to those who voluntarily perform the responsible behavior. The ecological model of this study, which simulates the spread of a forest disturbance, is built using Supervised Machine Learning. The social model of this study, which simulates the emergence of a new norm of behavior, is built using Reinforcement Learning. Both models are tested and validated before coupling. The coupled model is then used as a virtual laboratory, where several experiments are performed in a hypothetical setting and under various scenarios. Each such experiment is a simulation. Through these simulations, this study shows that with an appropriate decision-making algorithm and with sufficient time for interaction between a governing entity and the society, it is possible to create motivation for responsible behavior in the society. In other words, it is possible to encourage voluntary participation of stakeholders in action for sustainable development, without the need for the governing entity to use financial incentives or impose its authority. These results may be applicable to other contexts where responsible behavior by individuals or enterprises is sought in order to mitigate the impact of a disturbance, protect an ecological resource, or facilitate a sectoral transition towards sustainability.
- Published
- 2022
22. Apprentissage automatique interactif pour les opérateurs du réseau électrique
- Author
-
Crochepierre, Laure, Knowledge representation, reasonning (ORPAILLEUR), Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Réseau de Transport d'Electricité [Paris] (RTE), Thèse CIFRE - RTE (Réseau de transport d'électricité), Université de Lorraine, and Baya Lydia Boudjeloud-Assala
- Subjects
Interactivité ,Evolution grammaticale ,Symbolic Regression ,Réseau de transport d'électricité ,Apprentissage automatique ,Régression symbolique ,Reinforcement Learning ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Machine Learning ,Interactivity ,Grammatical Evolution ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[STAT.ML]Statistics [stat]/Machine Learning [stat.ML] ,Electricity transmission networks - Abstract
In the energy transition context and the increase in interconnections between the electricity transmission networks in Europe, the French network operators must now deal with more fluctuations and new network dynamics. To guarantee the safety of the network, operators rely on computer software that allows them to carry out simulations or to monitor the evolution of indicators created manually by experts, thanks to their knowledge of the operation of the network. The French electricity transmission network operator RTE (Réseau de Transport d'Electricité) is particularly interested in developing tools to assist operators in monitoring flows on power lines. Flows are notably important to maintain the network in a safe state, guaranteeing the safety of equipment and people. However, the indicators used are not easy to update because of the expertise required to construct and analyze them.In order to address the stated problem, this thesis aims at constructing indicators, in the form of symbolic expressions, to estimate flows on power lines. The problem is studied from the Symbolic Regression perspective and investigated using both Grammatical Evolution and Reinforcement Learning approaches in which explicit and implicit expert knowledge is taken into account. Explicit knowledge about the physics and expertise of the electrical domain is represented in the form of a Context-Free Grammar to limit the functional space from which an expression is created. A first approach of Interactive Grammatical Evolution proposes to incrementally improve found expressions by updating a grammar between evolutionary learnings. Expressions are obtained on real-world data from the network history, validated by an analysis of learning metrics and an interpretability evaluation. Secondly, we propose a reinforcement approach to search in a space delimited by a Context-Free Grammar in order to build a relevant symbolic expression to applications involving physical constraints. This method is validated on state-of-the-art Symbolic Regression benchmarks and also on a dataset with physical constraints to assess its interpretability.Furthermore, in order to take advantage of the complementarities between the capacities of machine learning algorithms and the expertise of network operators, interactive Symbolic Regression algorithms are proposed and integrated into interactive platforms. Interactivity allows updating the knowledge represented in grammatical form and analyzing, interacting with, and commenting on the solutions found by the different approaches. These algorithms and interactive interfaces also aim to take into account implicit knowledge, which is more difficult to formalize, through interaction mechanisms based on suggestions and user preferences.; Dans le contexte de la transition énergétique et de l'augmentation des interconnexions entre les réseaux de transport d'électricité en Europe, les opérateurs du réseau français doivent désormais faire face à davantage de fluctuations et des dynamiques nouvelles sur le réseau. Pour garantir la sûreté de ce réseau, les opérateurs s'appuient sur des logiciels informatiques permettant de réaliser des simulations, ou de suivre l'évolution d'indicateurs créés manuellement par des experts grâce à leur connaissance du fonctionnement du réseau. Le gestionnaire de réseau de transport d'électricité français RTE (Réseau de Transport d'Electricité) s'intéresse notamment aux développements d'outils permettant d'assister les opérateurs dans leur tâche de surveillance des transits sur les lignes électriques. Les transits sont en effet des grandeurs particulièrement importantes pour maintenir le réseau dans un état de sécurité, garantissant la sûreté du matériel et des personnes. Cependant, les indicateurs utilisés ne sont pas faciles à mettre à jour du fait de l'expertise nécessaire pour les construire et les analyser. Pour répondre à la problématique énoncée, cette thèse a pour objet la construction d'indicateurs, sous la forme d'expressions symboliques, permettant d'estimer les transits sur les lignes électriques. Le problème est étudié sous l'angle de la Régression Symbolique et investigué à la fois par des approches génétiques d'Evolution Grammaticale et d'Apprentissage par Renforcement dans lesquelles la connaissance experte, explicite et implicite, est prise en compte. Les connaissances explicites sur la physique et l'expertise du domaine électrique sont représentées sous la forme d'une grammaire non-contextuelle délimitant l'espace fonctionnel à partir duquel l'expression est créée. Une première approche d'Evolution Grammaticale Interactive propose d’améliorer incrémentalement les expressions trouvées par la mise à jour d'une grammaire entre les apprentissages évolutionnaires. Les expressions obtenues sur des données réelles issues de l'historique du réseau sont validées par une évaluation de métriques d'apprentissages, complétée par une évaluation de leur interprétabilité. Dans un second temps, nous proposons une approche par renforcement pour chercher dans un espace délimité par une grammaire non-contextuelle afin de construire une expression symbolique pertinente pour des applications comportant des contraintes physiques. Cette méthode est validée sur des données de l'état de l'art de la régression symbolique, ainsi qu’un jeu de données comportant des contraintes physiques pour en évaluer l'interprétabilité. De plus, afin de tirer parti des complémentarités entre les capacités des algorithmes d'apprentissage automatique et de l'expertise des opérateurs du réseau, des algorithmes interactifs de Régression Symbolique sont proposés et intégrés dans des plateformes interactives. L'interactivité est employée à la fois pour mettre à jour la connaissance représentée sous forme grammaticale, analyser, interagir avec et commenter les solutions proposées par les différentes approches. Ces algorithmes et interfaces interactifs ont également pour but de prendre en compte de la connaissance implicite, plus difficile à formaliser, grâce à l'utilisation de mécanismes d'interactions basés sur des suggestions et des préférences de l’utilisateur.
- Published
- 2022
23. gym-DSSAT:un modèle de cultures converti en un environnement d’apprentissage par renforcement
- Author
-
Gautron, R. (Romain), Padron Gonzalez, E.J. (Emilio José), Preux, P. (Philippe), Bigot, J. (Julien), Maillard, O-A. (Odalric-Ambrym), Emukpere, D. (David), Agroécologie et Intensification Durables des cultures annuelles [UPR AIDA], Universidade da Coruña, and Scool [Scool]
- Subjects
crop management ,crop model ,agriculture ,Reinforcement Learning ,DSSAT ,OpenAI gym ,Python ,itinéraire technique ,conduite des cultures ,modèle de culture ,Apprentissage par Renforcement - Abstract
La résolution d’un problème de déecision séquentielle en conditions réelles s’appuie très souvent sur l’utilisation d’un simulateur qui reproduit ces conditions réelles. Nous introduisons un nouvel environnement pour l’apprentissage par renforcement (AR) qui propose des tâches d’apprentissage réalistes pour la conduite de cultures. gym-DSSAT est une interface gym avec le simulateur de cultures Decision Support System for Agrotechnology Transfer (DSSAT), un simulateur de haute fidélité. DSSAT a été développé durant les 30 dernières années et est largement reconnu par les agronomes. gym-DSSAT propose des simulations prédéfinies, basées sur des expérimentations au champ avec du maïs. L’environnement est aussi simple à utiliser que n’importe quel autre environnement gym. Nous proposons des performances de base dans l’environnement en utilisant des algorithmes d’AR conventionnels. Nous décrivons également brièvement comment le simulateur monolithique DSSAT, codé en Fortran, a été transformé en un environnement d’AR en Python. Notre approche est générique et peut être appliquée à des simulateurs similaires. Quoique très préliminaires, les premiers résultats expérimentaux indiquent que l’AR peut aider les chercheurs à rendre les pratiques de fertilisation et d’irrigation plus durables. Addressing a real world sequential decision problem with Reinforcement Learning (RL) usually starts with the use of a simulated environment that mimics real conditions. We present a novel open source RL environment for realistic crop management tasks. gym-DSSAT is agym interface to the Decision Support System for Agrotechnology Transfer (DSSAT), a high fidelity crop simulator. DSSAT has been developped over the last 30 years and is widely recognized by agronomists. gym-DSSAT comes with predefined simulations based on real world maize experiments.The environment is as easy to use as any gym environment. We provide performance baselines using basic RL algorithms. We also briefly outline how the monolithic DSSAT simulator written in Fortran has been turned into a Python RL environment. Our methodology is generic and may be applied to similar simulators. We report on very preliminary experimental results which suggest that RL can help researchers to improve sustainability of fertilization and irrigation practices.
- Published
- 2022
24. Bandits massifs multi-bras multi-joueurs pour les réseaux de l’internet des objets
- Author
-
Dakdouk, Hiba, Dependability Interoperability and perfOrmance aNalYsiS Of networkS (DIONYSOS), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-RÉSEAUX, TÉLÉCOMMUNICATION ET SERVICES (IRISA-D2), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Département Systèmes Réseaux, Cybersécurité et Droit du numérique (IMT Atlantique - SRCD), IMT Atlantique (IMT Atlantique), Ecole nationale supérieure Mines-Télécom Atlantique, and Patrick Maillé
- Subjects
Multi-player multi-armed bandits ,Internet of things ,[INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,Internet des objets ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Reinforcement leaning ,Bandit multi-Joueurs multi-Bras - Abstract
This PhD thesis studies the optimization problem of Internet of Things (IoT) networks performance. We aim to maximize the successful communications in IoT networks, by proposing efficient dynamic decision-making algorithms that can be embedded in future IoT devices, while respecting the low complexity and low energy consumption constraints in IoT devices. For this sake, we use Reinforcement Learning (RL), and we model the optimization problem as a massive multi-player multi-armed bandit (MP-MAB) problem to best suit IoT networks, while overcoming many unrealistic assumptions previously made in the literature. In this manuscript, we propose two different approaches to handle the optimization problem. The first blacklists bad channels after a collaborative best-arms identification algorithm. The second consists of two different policies that recursively assign each device to one channel; where one policy focuses on the number of successful communications while the other guarantees a level of fairness between the devices. We provide both numerical and experimental studies of our developed algorithms, and show their out-performance over other algorithms proposed in the literature. Furthermore, we test our algorithms using a realistic LoRa network simulator entirely redeveloped in C during the thesis, and show the gain they achieve in terms of both successful communications and energy consumption compared to other already implemented algorithms.; Cette thèse de doctorat étudie le problème d’optimisation de la performance des réseaux de l’Internet des objets (IoT). L’objectif est de maximiser le succès des communications dans les réseaux de l’IoT, en proposant des algorithmes de prise de décision dynamiques efficaces pouvant être intégrés dans les futurs équipements IoT, tout en respectant leurs contraintes de faible complexité et de faible consommation d’énergie. Pour cela, l’apprentissage par renforcement (RL) est utilisé et le problème d’optimisation est modélisé comme un problème de bandit multi-joueurs multi-bras (MP-MAB), adapté aux réseaux IoT et permettant de surmonter de nombreuses hypothèses irréalistes dans le cadre des réseaux IoT précédemment effectuées dans la littérature. Dans cette thèse, deux approches différentes sont proposées pour traiter le problème d’optimisation. La première approche permet de blacklister les mauvais canaux de propagation d’un réseau en utilisant un algorithme collaboratif d’identification des meilleurs bras. La seconde approche consiste en deux politiques différentes qui attribuent de manière récursive chaque équipement IoT à un canal ; la première politique se concentre sur le nombre de communications réussies tandis que l’autre garantit un niveau d’équité entre les équipements. Dans un premier temps, nous avons effectué l’étude numérique et expérimentale des différents algorithmes développés pendant cette thèse afin de montrer qu’ils étaient capables de surclasser les autres algorithmes de la littérature. Dans un second temps, une partie importante du travail a consisté en l’application des algorithmes développés au problème concret de choix de la puissance d’émission et du facteur d’étalement dans un réseau LoRa, en analysant les performances en termes de qualité de service et de consommation d’énergie à l’aide d’un simulateur de réseau LoRa réaliste entièrement redéveloppé en C durant la thèse.
- Published
- 2022
25. INSPIRE : Optimisation bayésienne distribuée pour l'amélioration de la réutilisation spatiale des WLANs denses
- Author
-
Bardou, Anthony, Begin, Thomas, Laboratoire de l'Informatique du Parallélisme (LIP), École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS), Begin, Thomas, Holistic Wireless Networks (hownet), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL), and Bardou, Anthony
- Subjects
[INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,[INFO.INFO-NI] Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,WLANs ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,réutilisation spatiale ,[INFO]Computer Science [cs] ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,[INFO] Computer Science [cs] ,apprentissage en ligne ,apprentissage par renforcement ,ComputingMilieux_MISCELLANEOUS ,processus gaussien - Abstract
International audience; Le manque de place dans les bandes de fréquence utilisées par les réseaux locaux sans fil (WLANs) donne lieu à des problèmes de performance. En réponse, la norme IEEE 802.11ax et ses amendements ultérieurs visent à augmenter la réutilisation spatiale d'un canal radio en permettant la mise à jour dynamique de deux paramètres clés de la transmission sans fil : la puissance de transmission (TX_POWER) et le seuil de sensibilité (OBSS_PD). Dans cet article, nous présentons INSPIRE, une solution bayésienne distribuée basée sur des processus gaussiens pour améliorer la réutilisation spatiale dans les WLANs. INSPIRE ne fait aucune hypothèse explicite sur la topologie des WLANs et favorise les comportements altruistes des points d'accès, les amenant à maximiser leur performance tout en minimisant leur impact sur les points d'accès voisins. Nous démontrons la supériorité d'INSPIRE sur les autres stratégies de l'état de l'art avec le simulateur ns-3 et plusieurs exemples inspirés de déploiements réels de WLANs denses. Nos résultats montrent qu'en quelques secondes seulement, INSPIRE est capable d'augmenter drastiquement la qualité de service des WLANs en améliorant leur équité et leur débit.
- Published
- 2022
26. Apprentissage automatique à grande échelle du comportement des agents autonomes avec apprentissage structuré par renforcement profond
- Author
-
Beeching, Edward, CITI Centre of Innovation in Telecommunications and Integration of services (CITI), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria), Robots coopératifs et adaptés à la présence humaine en environnements (CHROMA), Inria Grenoble - Rhône-Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-CITI Centre of Innovation in Telecommunications and Integration of services (CITI), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Inria Lyon, Institut National de Recherche en Informatique et en Automatique (Inria), Université de Lyon, Olivier Simonin, Christian Wolf, and STAR, ABES
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Video game ,Deep Reinforcement Learning ,Apprentissage par Renforcement ,Robotics ,Deep reinforcement ,Informatique ,Computer science ,Reinforcement Learning ,Navigation ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Machine Learning ,Planning ,Deep Learning ,Apprentissage Automatique ,Renforcement profond ,Apprentissage par Renforcement Profond ,Apprentissage Profond ,Robotique ,Plannification ,Jeu vidéo - Abstract
Autonomous robotic agents have begun to impact many aspects of our society, with application in automated logistics, autonomous hospital porters, manufacturing and household assistants. The objective of this thesis is to explore Deep Reinforcement Learning approaches to planning and navigation in large and unknown 3D environments. In particular, we focus on tasks that require exploration and memory in simulated environments. An additional requirement is that learned policies should generalize to unseen map instances. Our long-term objective is the transfer of a learned autonomous robotic agents have begun to impact many aspects of our society, with application in automated logistics, autonomous hospital porters, manufacturing and household assistants. The objective of this thesis is to explore Deep Reinforcement Learning approaches to planning and navigation in large and unknown 3D environments. In particular, we focus on tasks that require exploration and memory in simulated environments. Our long-term objective is the transfer of a learned objective of accumulating a task-based reward, an Embodied AI agent must learn to discover relevant semantic cues such as object recognition and obstacle avoidance, if these skills are pertinent to the task at hand. This thesis introduces the field of Structured Deep Reinforcement Learning and then describes 5 contributions that were published during the PhD. We start by creating a set of challenging memory-based tasks whose performance is benchmarked with an unstructured memory-based agent. We then demonstrate how the incorporation of structure in the form of a learned metric map, differentiable inverse projective geometry and self-attention mechanisms; augments the unstructured agent, improving its performance and allowing us to interpret the agent’s reasoning process. We then move from complex tasks in visually simple environments, to more challenging environments with photo-realistic observations, extracted from scans of real-world buildings. In this work we demonstrate that augmenting such an agent with a topological map can improve its navigation performance. We achieve this by learning a neural approximation of a classical path planning algorithm, which can be utilized on graphs with uncertain connectivity. From work undertaken over the course of a 4-month internship at the R & D department of Ubisoft, we demonstrate that structured methods can also be used for navigation and planning in challenging video game environments. Where we couple a lower level neural policy with a classical planning algorithm to improve long-distance planning and navigation performance in vast environments of 1km×1km. Finally, we develop an open-source Deep Reinforcement Learning interface for the Godot Game Engine. Allowing for the construction of complex virtual worlds and the learning of agent behaviors with a suite of state-of-the-art algorithms., Les robots autonomes ont commencé à impacter de nombreux aspects de notre société avec, par exemple des applications dans la logistique automatisée, les robots hospitaliers autonomes, l’industrie ou encore les aides ménagères. L’objectif de cette thèse est d’explorer les approches d’apprentissage par renforcement profond pour la planification et la navigation dans des environnements 3D vastes et inconnus. Nous nous concentrons en particulier sur les tâches qui nécessitent d’explorer et mémoriser les environnements simulés. Une contrainte supplémentaire est que les stratégies apprises doivent se généraliser à des cartes inconnues. Notre objectif à long terme est le transfert d’une technique d’apprentissage vers un système robotique dans le monde réel. Les algorithmes d’apprentissage par renforcement apprennent des interactions. En agissant avec l’objectif d’accumuler des récompenses liées à une tâche, une IA incarnée doit apprendre à découvrir des informations sémantiques telles que la reconnaissance d’objets et l’évitement d’obstacles, si ces compétences sont pertinentes pour l’accomplissement de la tâche. Cette thèse introduit le domaine de l’Apprentissage par Renforcement Profond Structuré et décrit ensuite cinq contributions qui ont été publiées au cours de la thèse. Nous commençons par créer un ensemble de tâches complexes nécessitant de la mémoire pour comparer les performances avec un agent à la mémoire non structurée. Nous démontrons ensuite comment l’incorporation d’une structure telle qu’une carte métrique apprise, une géométrie projective inverse différentiable et des mécanismes d’autoattention améliorent les performances de l’agent, ce qui nous permet d’analyser son processus de raisonnement. Nous passons ensuite d’environnements visuellement simples à des environnements plus difficiles avec des observations photoréalistes extraites de scans de bâtiments du monde réel. Dans ce travail, nous démontrons qu’améliorer un agent avec une carte topologique peut améliorer ses performances de navigation. Nous y parvenons en lui apprenant une approximation neuronale d’un algorithme de planification de chemin classique, qui peut être utilisé sur des graphes avec une connectivité incertaine. Ensuite, à partir des travaux menés lors d’un stage de quatre mois au sein du département recherche et développement d’Ubisoft, nous démontrons que les méthodes structurées peuvent également être utilisées pour la navigation et la planification dans des environnements de jeux vidéo complexes. Nous combinons une politique neuronale de bas niveau avec un algorithme de planification classique pour améliorer la planification à longue distance et les performances de navigation dans de vastes environnements de 1km×1km.
- Published
- 2022
27. Sur certaines méthodes raisonnées pour l'apprentissage par renforcement profond
- Author
-
Blier, Léonard, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), TAckling the Underspecified (TAU), Inria Saclay - Ile de France, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Marc Schoenauer, and Yann Ollivier
- Subjects
Machine Learning ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Deep neural networks ,Reinforcement learning ,Réseaux de neurones profonds ,Apprentissage automatique ,[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
This thesis develops and studies some principled methods for Deep Learning (DL) and deep Reinforcement Learning (RL).In Part II, we study the efficiency of DL models from the context of the Minimum Description Length principle, which formalize Occam's razor, and holds that a good model of data is a model that is good at losslessly compressing the data, including the cost of describing the model itself. Deep neural networks might seem to go against this principle given the large number of parameters to be encoded. Surprisingly, we demonstrate experimentally the ability of deep neural networks to compress the training data even when accounting for parameter encoding, hence showing that DL approaches are well principled from this information theory viewpoint.In Part III, we tackle two limitations of standard approaches in DL and RL, and develop principled methods, improving robustness empirically.The first one concerns optimisation of deep learning models with SGD, and the cost of finding the optimal learning rate, which prevents using a new method out of the box without hyperparameter tuning. When design a principled optimisation method for DL, 'All Learning Rates At Once' : each unit or feature in the network gets its own learning rate sampled from a random distribution spanning several orders of magnitude. Perhaps surprisingly, Alrao performs close to SGD with an optimally tuned learning rate, for various architectures and problems.The second one tackles near continuous-time RL environments (such as robotics, control environment, …) : we show that time discretization (number of action per second) in as a critical factor, and that empirically, Q-learning-based approaches collapse with small time steps. Formally, we prove that Q-learning does not exist in continuous time. We detail a principled way to build an off-policy RL algorithm that yields similar performances over a wide range of time discretizations, and confirm this robustness empirically.The main part of this thesis, (Part IV), studies the Successor States Operator in RL, and how it can improve sample efficiency of policy evaluation. In an environment with a very sparse reward, learning the value function is a hard problem. At the beginning of training, no learning will occur until a reward is observed. This highlight the fact that not all the observed information is used. Leveraging this information might lead to better sample efficiency. The Successor State Operator is an object that expresses the value functions of all possible reward functions for a given, fixed policy. Learning the successor state operator can be done without reward signals, and can extract information from every observed transition, illustrating an unsupervised reinforcement learning approach.We offer a formal treatment of these objects in both finite and continuous spaces with function approximators. We present several learning algorithms and associated results. Similarly to the value function, the successor states operator satisfies a Bellman equation. Additionally, it also satisfies two other fixed point equations: a backward Bellman equation and a Bellman-Newton equation, expressing path compositionality in the Markov process. These new relation allow us to generalize from observed trajectories in several ways, potentially leading to more sample efficiency. Every of these equations lead to corresponding algorithms for any function approximators such as neural networks.Finally, (Part V) the study of the successor states operator and its algorithms allow us to derive unbiased methods in the setting of multi-goal RL, dealing with the issue of extremely sparse rewards. We additionally show that the popular Hindsight Experience Replay algorithm, known to be biased, is actually unbiased in the large class of deterministic environments.; Cette thèse développe et étudie certaines méthodes de principe pour l'apprentissage profond (DL) et l'apprentissage par renforcement (RL).Dans la partie II, nous étudions le DL selon le point de vue du “Minimum Description Length” principe, qui formalise le rasoir d'Occam, et postule qu'un bon modèle prédictif est un modèle capable de compresser sans perte les données (en prenant en compte le coût de la description du modèle lui-même). Les modèles de DL, par le nombre de paramètres à encoder, semblent aller à l'encontre de ce principe. Nous démontrons expérimentalement la capacité de compression des modèles de DL, même en tenant compte de l'encodage des paramètres, montrant ainsi que ces approches sont bien fondées du point de vue de la théorie de l'information.Dans la partie III, nous étudions deux limitations des approches standard de DL et RL, et nous développons des méthodes mathématiquement bien fondées pour les dépasser;La première concerne l'optimisation des modèles de DL avec SGD, et le coût important du choix d'un bon taux d'apprentissage. Nous introduisons la méthode Alrao (All learning rates at once) : chaque unité (ou neurone) du réseau obtient son propre taux d'apprentissage tiré aléatoirement à partir d'une distribution couvrant de nombreux ordres de grandeur. De façon surprenante, Alrao obtient des résultats proches de ceux de SGD avec un taux d'apprentissage optimal, et ce pour diverses architectures et problèmes.Le second aborde les environnements de RL en temps quasi continu (robotique, contrôle, jeux vidéos,…) : nous montrons que la discrétisation temporelle (nombre d'actions par seconde) est un facteur critique, et empiriquement que les approches basées sur Q-learning ne peuvent plus apprendre quand le nombre d'action par seconde devient grand. Formellement, nous prouvons que le Q-learning n'existe pas en temps continu. Nous détaillons une méthode mathématiquement bien fondée pour construire un algorithme RL invariant à la discrétisation temporelle, et confirmons cette approche empiriquement.La partie principale de cette thèse, (Partie IV), étudie l'opérateur des états successeurs en RL, et comment il peut améliorer l'efficacité de l'apprentissage de la fonction valeur.Dans un environnement où la récompense n'est reçue que très rarement, l'apprentissage de la fonction valeur est un problème difficile. L'opérateur des états successeurs est un objet mathématique qui exprime les fonctions valeur de toutes les fonctions de récompense possibles pour une politique fixe. L'apprentissage de cet opérateur peut se faire sans signaux de récompense et peut extraire des informations de chaque transition observée, illustrant une approche de RL non supervisé.Nous proposons un traitement formel de cet objet dans des espaces finis et continus avec des approximateurs de fonctions, comme les réseaux de neurones. Nous présentons plusieurs algorithmes d'apprentissage et les résultats associés. De même que la fonction valeur, l'opérateur des états successeurs satisfait une équation de Bellman. De plus, il satisfait également deux autres équations à point fixe : une équation de Bellman en arrière et une équation de Bellman-Newton, exprimant la compositionalité des chemins dans le processus de Markov. Ces nouvelles relations nous permettent de généraliser à partir des trajectoires observées de plusieurs façons, ce qui peut conduire à une plus grande efficacité en pratique.Enfin, (partie V), l'étude de l'opérateur des états successeurs et de ses algorithmes nous permet de dériver des méthodes non biaisées dans le cadre d'un RL à buts multiples. Nous montrons en outre que l'algorithme Hindsight Experience Replay, populaire dans ce cadre mais connu pour être biaisé, est en fait non biaisé dans la classe importante des environnements déterministes.
- Published
- 2022
28. Apprentissage par renforcement sur des connaissances symboliques structurées : modéliser la résolution créative de problèmes
- Author
-
Mercier, Chloé, Romero, Margarida, Alexandre, Frédéric, Viéville, Thierry, Mnemonic Synergy (Mnemosyne), Laboratoire Bordelais de Recherche en Informatique (LaBRI), Université de Bordeaux (UB)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Centre National de la Recherche Scientifique (CNRS)-Université de Bordeaux (UB)-École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB)-Centre National de la Recherche Scientifique (CNRS)-Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut des Maladies Neurodégénératives [Bordeaux] (IMN), Université de Bordeaux (UB)-Centre National de la Recherche Scientifique (CNRS)-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Innovation et Numérique pour l'Education (LINE), Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Université Côte d'Azur (UCA), Fédération Française des Sciences de la Cognition (Fresco), École Normale Supérieure, and AEx AIDE
- Subjects
Créativité ,[SCCO]Cognitive science ,Représentation des connaissances ,Apprentissage par Renforcement ,Résolution de problèmes ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; La créativité, la résolution de problèmes et la pensée informatique sont des compétences majeures du 21e siècle à inclure dans les programmes éducatifs du primaire et secondaire. Afin de mieux appréhender et enseigner ces compétences, nous proposons d’étudier les mécanismes cognitifs à l'œuvre dans la résolution d’une tâche spécifique appelée CréaCube, dans laquelle l’apprenant·e est invité·e à construire un véhicule à l’aide de cubes robotiques modulaires. Nous nous appuyons d’une part sur les données collectées pendant la tâche à l’aide d’analyses de vidéos, et d’autre part sur les modèles issus des neurosciences computationnelles et de l’intelligence artificielle, le but étant d’expliquer les comportements observés et d’inférer les représentations internes de l’apprenant·e en lien avec ses connaissances préalables et la découverte des affordances. Ceci implique de spécifier la représentation des connaissances au niveau symbolique et sub-symbolique et de prendre en compte la régulation des processus divergents et convergents au cours de la tâche. Cette étude est encore exploratoire, mais nous avons déjà introduit quelques idées au niveau de la modélisation : en particulier, nous proposons d’appliquer un paradigme d’apprentissage par renforcement sur des données symboliques, permettant de traiter les connaissances à la fois explicitement et implicitement, tout en introduisant une récompense liée à la motivation intrinsèque.
- Published
- 2022
29. Large state spaces and self-supervision in reinforcement learning
- Author
-
Touati, Ahmed and Vincent, Pascal
- Subjects
reinforcement learning ,processus de décision Markovien ,compromis exploration-exploitation ,function approximation ,self-supervision ,off-policy learning ,apprentissage hors-politique ,approximation de fonction ,apprentissage par renforcement ,auto-supervision ,généralisation ,agent artificiel ,artificial agent ,exploration-exploitation trade-off ,Markov decision process ,generalization - Abstract
L'apprentissage par renforcement (RL) est un paradigme d'apprentissage orienté agent qui s'intéresse à l'apprentissage en interagissant avec un environnement incertain. Combiné à des réseaux de neurones profonds comme approximateur de fonction, l'apprentissage par renforcement profond (Deep RL) nous a permis récemment de nous attaquer à des tâches très complexes et de permettre à des agents artificiels de maîtriser des jeux classiques comme le Go, de jouer à des jeux vidéo à partir de pixels et de résoudre des tâches de contrôle robotique. Toutefois, un examen plus approfondi de ces remarquables succès empiriques révèle certaines limites fondamentales. Tout d'abord, il a été difficile de combiner les caractéristiques souhaitables des algorithmes RL, telles que l'apprentissage hors politique et en plusieurs étapes, et l'approximation de fonctions, de manière à obtenir des algorithmes stables et efficaces dans de grands espaces d'états. De plus, les algorithmes RL profonds ont tendance à être très inefficaces en raison des stratégies d'exploration-exploitation rudimentaires que ces approches emploient. Enfin, ils nécessitent une énorme quantité de données supervisées et finissent par produire un agent étroit capable de résoudre uniquement la tâche sur laquelle il est entrainé. Dans cette thèse, nous proposons de nouvelles solutions aux problèmes de l'apprentissage hors politique et du dilemme exploration-exploitation dans les grands espaces d'états, ainsi que de l'auto-supervision dans la RL. En ce qui concerne l'apprentissage hors politique, nous apportons deux contributions. Tout d'abord, pour le problème de l'évaluation des politiques, nous montrons que la combinaison des méthodes populaires d'apprentissage hors politique et à plusieurs étapes avec une paramétrisation linéaire de la fonction de valeur pourrait conduire à une instabilité indésirable, et nous dérivons une variante de ces méthodes dont la convergence est prouvée. Deuxièmement, pour l'optimisation des politiques, nous proposons de stabiliser l'étape d'amélioration des politiques par une régularisation de divergence hors politique qui contraint les distributions stationnaires d'états induites par des politiques consécutives à être proches les unes des autres. Ensuite, nous étudions l'apprentissage en ligne dans de grands espaces d'états et nous nous concentrons sur deux hypothèses structurelles pour rendre le problème traitable : les environnements lisses et linéaires. Pour les environnements lisses, nous proposons un algorithme en ligne efficace qui apprend activement un partitionnement adaptatif de l'espace commun en zoomant sur les régions les plus prometteuses et fréquemment visitées. Pour les environnements linéaires, nous étudions un cadre plus réaliste, où l'environnement peut maintenant évoluer dynamiquement et même de façon antagoniste au fil du temps, mais le changement total est toujours limité. Pour traiter ce cadre, nous proposons un algorithme en ligne efficace basé sur l'itération de valeur des moindres carrés pondérés. Il utilise des poids exponentiels pour oublier doucement les données qui sont loin dans le passé, ce qui pousse l'agent à continuer à explorer pour découvrir les changements. Enfin, au-delà du cadre classique du RL, nous considérons un agent qui interagit avec son environnement sans signal de récompense. Nous proposons d'apprendre une paire de représentations qui mettent en correspondance les paires état-action avec un certain espace latent. Pendant la phase non supervisée, ces représentations sont entraînées en utilisant des interactions sans récompense pour encoder les relations à longue portée entre les états et les actions, via une carte d'occupation prédictive. Au moment du test, lorsqu'une fonction de récompense est révélée, nous montrons que la politique optimale pour cette récompense est directement obtenue à partir de ces représentations, sans aucune planification. Il s'agit d'une étape vers la construction d'agents entièrement contrôlables. Un thème commun de la thèse est la conception d'algorithmes RL prouvables et généralisables. Dans la première et la deuxième partie, nous traitons de la généralisation dans les grands espaces d'états, soit par approximation de fonctions linéaires, soit par agrégation d'états. Dans la dernière partie, nous nous concentrons sur la généralisation sur les fonctions de récompense et nous proposons un cadre d'apprentissage non-supervisé de représentation qui est capable d'optimiser toutes les fonctions de récompense., Reinforcement Learning (RL) is an agent-oriented learning paradigm concerned with learning by interacting with an uncertain environment. Combined with deep neural networks as function approximators, deep reinforcement learning (Deep RL) allowed recently to tackle highly complex tasks and enable artificial agents to master classic games like Go, play video games from pixels, and solve robotic control tasks. However, a closer look at these remarkable empirical successes reveals some fundamental limitations. First, it has been challenging to combine desirable features of RL algorithms, such as off-policy and multi-step learning with function approximation in a way that leads to both stable and efficient algorithms in large state spaces. Moreover, Deep RL algorithms tend to be very sample inefficient due to the rudimentary exploration-exploitation strategies these approaches employ. Finally, they require an enormous amount of supervised data and end up producing a narrow agent able to solve only the task that it was trained on. In this thesis, we propose novel solutions to the problems of off-policy learning and exploration-exploitation dilemma in large state spaces, as well as self-supervision in RL. On the topic of off-policy learning, we provide two contributions. First, for the problem of policy evaluation, we show that combining popular off-policy and multi-step learning methods with linear value function parameterization could lead to undesirable instability, and we derive a provably convergent variant of these methods. Second, for policy optimization, we propose to stabilize the policy improvement step through an off-policy divergence regularization that constrains the discounted state-action visitation induced by consecutive policies to be close to one another. Next, we study online learning in large state spaces and we focus on two structural assumptions to make the problem tractable: smooth and linear environments. For smooth environments, we propose an efficient online algorithm that actively learns an adaptive partitioning of the joint space by zooming in on more promising and frequently visited regions. For linear environments, we study a more realistic setting, where the environment is now allowed to evolve dynamically and even adversarially over time, but the total change is still bounded. To address this setting, we propose an efficient online algorithm based on weighted least squares value iteration. It uses exponential weights to smoothly forget data that are far in the past, which drives the agent to keep exploring to discover changes. Finally, beyond the classical RL setting, we consider an agent interacting with its environments without a reward signal. We propose to learn a pair of representations that map state-action pairs to some latent space. During the unsupervised phase, these representations are trained using reward-free interactions to encode long-range relationships between states and actions, via a predictive occupancy map. At test time, once a reward function is revealed, we show that the optimal policy for that reward is directly obtained from these representations, with no planning. This is a step towards building fully controllable agents. A common theme in the thesis is the design of provable RL algorithms that generalize. In the first and the second part, we deal with generalization in large state spaces either by linear function approximation or state aggregation. In the last part, we focus on generalization over reward functions and we propose a task-agnostic representation learning framework that is provably able to solve all reward functions.
- Published
- 2022
30. Learning neural ordinary differential equations for optimal control
- Author
-
Howe, Nikolaus Harry Reginald and Bacon, Pierre-Luc
- Subjects
Nonlinear Programming ,Optimal Control ,Apprentissage par Renforcement ,Neural ODE ,Reinforcement Learning ,Contrôle Optimal ,Machine Learning ,Deep Learning ,Apprentissage Automatique ,Optimisation Non Linéaire ,Apprentissage Profond ,Contrôle Prédictif par Modèle ,Model Predictive Control ,ODE Neuronale - Abstract
Ce mémoire rassemble des éléments d'optimisation, d'apprentissage profond et de contrôle optimal afin de répondre aux problématiques d'apprentissage et de planification dans le contexte des systèmes dynamiques en temps continu. Deux approches générales sont explorées. D'abord, une approche basée sur la méthode du maximum de vraisemblance est présentée. Ici, les trajectoires ``d'entrainement'' sont échantillonnées depuis la dynamique réelle, et à partir de celles-ci un modèle de prédiction des états observés est appris. Une fois que l'apprentissage est terminé, le modèle est utilisé pour la planification, en utilisant la dynamique de l'environnement et une fonction de coût pour construire un programme non linéaire, qui est par la suite résolu pour trouver une séquence de contrôle optimal. Ensuite, une approche de bout en bout est proposée, dans laquelle la tâche d'apprentissage de modèle dynamique et celle de planification se déroulent simultanément. Ceci est illustré dans le cadre d'un problème d'apprentissage par imitation, où le modèle est mis à jour en rétropropageant le signal de perte à travers l'algorithme de planification. Grâce au fait que l'entrainement est effectué de bout en bout, cette technique pourrait constituer un sous-module de réseau de neurones de plus grande taille, et pourrait être utilisée pour fournir un biais inductif en faveur des comportements optimaux dans le contexte de systèmes dynamiques en temps continu. Ces méthodes sont toutes les deux conçues pour fonctionner avec des modèles d'équations différentielles ordinaires paramétriques et neuronaux. Également, inspiré par des applications réelles pertinentes, un large recueil de systèmes dynamiques et d'optimiseurs de trajectoire, nommé Myriad, est implémenté; les algorithmes sont testés et comparés sur une variété de domaines de la suite Myriad., This thesis brings together elements of optimization, deep learning and optimal control to study the challenge of learning and planning in continuous-time dynamical systems. Two general approaches are explored. First, a maximum likelihood approach is presented, in which training trajectories are sampled from the true dynamics, and a model is learned to accurately predict the state observations. After training is completed, the learned model is then used for planning, by using the dynamics and cost function to construct a nonlinear program, which can be solved to find a sequence of optimal controls. Second, a fully end-to-end approach is proposed, in which the tasks of model learning and planning are performed simultaneously. This is demonstrated in an imitation learning setting, in which the model is updated by backpropagating the loss signal through the planning algorithm itself. Importantly, because it can be trained in an end-to-end fashion, this technique can be included as a sub-module of a larger neural network, and used to provide an inductive bias towards behaving optimally in a continuous-time dynamical system. Both the maximum likelihood and end-to-end methods are designed to work with parametric and neural ordinary differential equation models. Inspired by relevant real-world applications, a large repository of dynamical systems and trajectory optimizers, named Myriad, is also implemented. The algorithms are tested and compared on a variety of domains within the Myriad suite.
- Published
- 2022
31. Parsimonious reasoning in reinforcement learning for better credit assignment
- Author
-
Ma, Michel and Bacon, Pierre-Luc
- Subjects
Credit assignment ,Long-term credit assignment ,Évaluation de la politique ,Troncation ,Model-free ,Parcimonie ,Apprentissage automatique ,Rétrospection ,Model-based ,Contrefactuelle ,Apprentissage par renforcement ,Apprentissage basé sur un modèle ,Attribution de crédits ,Attribution de crédits à long terme ,Reinforcement learning ,Machine learning ,Attention ,Counterfactual ,Hindsight ,Parsimony ,Markov decision process - Abstract
Le contenu de cette thèse explore la question de l’attribution de crédits à long terme dans l’apprentissage par renforcement du point de vue d’un biais inductif de parcimonie. Dans ce contexte, un agent parcimonieux cherche à comprendre son environnement en utilisant le moins de variables possible. Autrement dit, si l’agent est crédité ou blâmé pour un certain comportement, la parcimonie l’oblige à attribuer ce crédit (ou blâme) à seulement quelques variables latentes sélectionnées. Avant de proposer de nouvelles méthodes d’attribution parci- monieuse de crédits, nous présentons les travaux antérieurs relatifs à l’attribution de crédits à long terme en relation avec l’idée de sparsité. Ensuite, nous développons deux nouvelles idées pour l’attribution de crédits dans l’apprentissage par renforcement qui sont motivées par un raisonnement parcimonieux : une dans le cadre sans modèle et une pour l’apprentissage basé sur un modèle. Pour ce faire, nous nous appuyons sur divers concepts liés à la parcimonie issus de la causalité, de l’apprentissage supervisé et de la simulation, et nous les appliquons dans un cadre pour la prise de décision séquentielle. La première, appelée évaluation contrefactuelle de la politique, prend en compte les dévi- ations mineures de ce qui aurait pu être compte tenu de ce qui a été. En restreignant l’espace dans lequel l’agent peut raisonner sur les alternatives, l’évaluation contrefactuelle de la politique présente des propriétés de variance favorables à l’évaluation des politiques. L’évaluation contrefactuelle de la politique offre également une nouvelle perspective sur la rétrospection, généralisant les travaux antérieurs sur l’attribution de crédits a posteriori. La deuxième contribution de cette thèse est un algorithme augmenté d’attention latente pour l’apprentissage par renforcement basé sur un modèle : Latent Sparse Attentive Value Gra- dients (LSAVG). En intégrant pleinement l’attention dans la structure d’optimisation de la politique, nous montrons que LSAVG est capable de résoudre des tâches de mémoire active que son homologue sans modèle a été conçu pour traiter, sans recourir à des heuristiques ou à un biais de l’estimateur original., The content of this thesis explores the question of long-term credit assignment in reinforce- ment learning from the perspective of a parsimony inductive bias. In this context, a parsi- monious agent looks to understand its environment through the least amount of variables possible. Alternatively, given some credit or blame for some behavior, parsimony forces the agent to assign this credit (or blame) to only a select few latent variables. Before propos- ing novel methods for parsimonious credit assignment, previous work relating to long-term credit assignment is introduced in relation to the idea of sparsity. Then, we develop two new ideas for credit assignment in reinforcement learning that are motivated by parsimo- nious reasoning: one in the model-free setting, and one for model-based learning. To do so, we build upon various parsimony-related concepts from causality, supervised learning, and simulation, and apply them to the Markov Decision Process framework. The first of which, called counterfactual policy evaluation, considers minor deviations of what could have been given what has been. By restricting the space in which the agent can reason about alternatives, counterfactual policy evaluation is shown to have favorable variance properties for policy evaluation. Counterfactual policy evaluation also offers a new perspective to hindsight, generalizing previous work in hindsight credit assignment. The second contribution of this thesis is a latent attention augmented algorithm for model-based reinforcement learning: Latent Sparse Attentive Value Gradients (LSAVG). By fully inte- grating attention into the structure for policy optimization, we show that LSAVG is able to solve active memory tasks that its model-free counterpart was designed to tackle, without resorting to heuristics or biasing the original estimator.
- Published
- 2022
32. Génération automatique de curriculum pour apprenants artificiels
- Author
-
Portelas, Rémy, Flowing Epigenetic Robots and Systems (Flowers), Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université de Bordeaux, Pierre-Yves Oudeyer, and Katja Hofmann
- Subjects
Automatic Curriculum Learning ,Machine Learning ,Apprentissage profond ,Developmental Machine Learning ,Deep Reinforcement Learning ,Génération automatique de curriculum ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Intrinsic Motivation ,Motivations intrinsèques ,Apprentissage machine développemental ,Intelligence artificielle ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
A long-standing goal of Machine Learning (ML) and AI at large is to design autonomous agents able to efficiently interact with our world. Towards this, taking inspirations from the interactive nature of human and animal learning, several lines of works focused on building decision making agents embodied in real or virtual environments. In less than a decade, Deep Reinforcement Learning (DRL) established itself as one of the most powerful set of techniques to train such autonomous agents. DRL is based on the maximization of expert-defined reward functions that guide an agent’s learning towards a predefined target task or task set. In parallel, the Developmental Robotics field has been working on modelling cognitive development theories and integrating them into real or simulated robots. A core concept developed in this literature is the notion of intrinsic motivation: developmental robots explore and interact with their environment according to self-selected objectives in an open-ended learning fashion. Recently, similar ideas of self-motivation and open-ended learning started to grow within the DRL community, while the Developmental Robotics community started to consider DRL methods into their developmental systems. We propose to refer to this convergence of works as Developmental Machine Learning. Developmental ML regroups works on building embodied autonomous agents equipped with intrinsic-motivation mechanisms shaping open-ended learning trajectories. The present research aims to contribute within this emerging field. More specifically, the present research focuses on proposing and assessing the performance of a core algorithmic block of such developmental machine learners: Automatic Curriculum Learning (ACL) methods. ACL algorithms shape the learning trajectories of agents by challenging them with tasks adapted to their capacities. In recent years, they have been used to improve sample efficiency and asymptotic performance, to organize exploration, to encourage generalization or to solve sparse reward problems, among others. Despite impressive success in traditional supervised learning scenarios (e.g. image classification), large-scale and real-world applications of embodied machine learners are yet to come. The present research aims to contribute towards the creation of such agents by studying how to autonomously and efficiently scaffold them up to proficiency.; Un objectif de longue date du Machine Learning (ML) et de l'IA en général est de concevoir des agents autonomes capables d'interagir efficacement avec notre monde. Dans cette optique, s'inspirant de la nature interactive de l'apprentissage humain et animal, plusieurs axes de travaux se sont concentrés sur la construction d'agents décisionnels incarnés dans des environnements réels ou virtuels. En moins d'une décennie, le Deep Reinforcement Learning (DRL) s'est imposé comme l'un des ensembles de techniques les plus puissants pour former de tels agents autonomes. Le DRL est basé sur la maximisation de fonctions de récompense définies par des experts qui guident l'apprentissage d'un agent vers une tâche ou un ensemble de tâches cible prédéfinies. En parallèle, la Robotique Développementale a travaillé sur la modélisation des théories du développement cognitif et de leur intégration dans des robots réels ou simulés. Un concept central développé dans cette littérature est la notion de motivation intrinsèque : les robots développementaux explorent et interagissent avec leur environnement selon des objectifs auto-sélectionnés dans un mode d'apprentissage ouvert. Récemment, des idées similaires d'auto-motivation et d'apprentissage ouvert ont commencé à se développer au sein de la communauté DRL, tandis que la Robotique Développementale a commencé à considérer les méthodes DRL dans leurs systèmes de développement. Nous proposons de désigner cette convergence de travaux sous le nom de Developmental Machine Learning. Developmental ML regroupe des travaux sur la construction d'agents autonomes incarnés équipés de mécanismes de motivation intrinsèque façonnant des trajectoires d'apprentissage ouvertes. La présente recherche vise à contribuer dans ce domaine émergent. Plus précisément, la présente recherche se concentre sur la proposition et l'évaluation des performances d'un bloc algorithmique de base de tels apprenants: les méthodes d'apprentissage automatique de curriculum (ACL). Les algorithmes ACL façonnent les trajectoires d'apprentissage des agents en les challengeant avec des tâches adaptées à leurs compétences. Ces dernières années, ils ont été utilisés pour améliorer la vitesse d’apprentissage et les performances asymptotiques, pour organiser l'exploration, pour encourager la généralisation ou pour résoudre des problèmes de récompense clairsemée, entre autres. Malgré un succès impressionnant dans les scénarios d'apprentissage supervisé traditionnels (par exemple, la classification d'images), les applications à grande échelle et dans le monde réel des apprenants automatiques incarnés sont encore à venir. La présente recherche vise à contribuer à la création de tels agents en étudiant comment guider leurs apprentissage de manière autonome.
- Published
- 2022
33. Apprentissage de stratégies coopératives dans un contexte de jeu multi-opérateurs de télécommunications : l'IA coopérative au service des dilemmes sociaux
- Author
-
Le Gléau, Tangui, Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Université Rennes 1, Tayeb Lemlouma, and Xavier Marjou
- Subjects
Machine Learning ,Game Theory ,Apprentissage par renforcement ,Dilemme du prisonnier ,Prisoner's Dilemma ,Apprentissage automatique ,Reinforcement Learning ,Théorie des jeux ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
The objective of this PhD thesis is the study of policy learning within general-sum non-cooperative games (in particular the social dilemmas) in order to model cooperative interactions between telecom providers. First, it has been interesting to study the behavior of learning agents (such as reinforcement learning (RL) policies or multi-armed bandits) in an iterated prisoner’s dilemma (IPD). The first conclusions show that RL polices struggle to converge towards mutual cooperation. Given this observation, it becomes important to focus on simple strategies like Tit-for-tat (TFT) which will eventually be added to more complex policies (such Deep RL). The main contributions of the thesis were initially improvements proposal for simple two-player strategies such as continuous TFT. We then turned to N-player prisoner dilemma models. We have introduced an extension allowing to model a cooperation that is not necessarily bilateral and can be potentially circular, which then led to a proposal for a suitable strategy, based on continuous TFT and graph-processing algorithms. Secondly, we extended the previous paradigm to the formalism of sequential social dilemmas (SSD) (an existing extension of the IPD that extends the atomic actions of players into complex RL policies). To address this new game model, we then proposed a strategy that uses RL policies and TFT strategies. Finally, we carried out some simulations in a Telecom context. The first contribution was the implementation of a multi-provider environment for the cooperation simulation. A few simulations were then carried out: some of the previously developed strategies were used to study the agent’s behavior in various multi-provider scenarios of cooperation.; L’objectif de la thèse est l’étude de l’apprentissage de politiques au sein de jeux non-coopératifs à somme non-nulle (de type dilemmes sociaux) dans le but de modéliser des interactions de coopération entre opérateurs de Télécom. Pour commencer, il a été intéressant d’étudier le comportement d’agents apprenants (tels que des politiques d’apprentissage par renforcement (RL) ou des bandits manchots) dans un dilemme du prisonnier itéré (IPD). Les premières conclusions montrent que le RL peine à converger vers des politiques de coopération mutuelles. Étant donné ce constat, il devient important de nous intéresser à des stratégies simples comme le Tit-for-tat (TFT) qui viendront à terme s’ajouter à des politiques plus complexes de type RL. Les principales contributions de la thèse ont été dans un premier temps des propositions d’améliorations de stratégies simples à deux joueurs telles que le TFT continu. Nous nous sommes ensuite intéressés aux modèles de dilemmes du prisonnier à N joueurs. Nous avons introduit une extension qui permet de modéliser une coopération non nécessairement bilatérale et potentiellement circulaire, ce qui a conduit alors à une proposition de stratégie adaptée, basée sur du TFT continu et des algorithmes de traitement de graphe. Dans un second temps, nous avons étendu le paradigme précédent au formalisme des dilemmes sociaux séquentiels (une extension existante de l'IPD qui permet d’étendre les actions atomiques des joueurs en des politiques plus complexes). Pour adresser ce nouveau modèle de jeu, nous avons alors proposé une stratégie qui utilise des politiques de RL et des stratégies de TFT. Enfin, nous avons procédé à quelques simulations dans un contexte Télécom. La première contribution a été l’implémentation d’un environnement de simulation de collaboration multi-opérateurs. Quelques simulations ont été ensuite conduites : les stratégies précédemment développées ont été mises en jeu dans divers scénarios de coopération multi-opérateurs.
- Published
- 2022
34. Exploration in Reinforcement Learning: Beyond Finite State-Spaces
- Author
-
Domingues, Omar, Darwiche Domingues, Omar, Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria), Scool (Scool), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), Université de Lille, Michal Valko, and Emilie Kaufmann
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Exploration / exploitation ,Exploration-exploitation trade-off ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Apprentissage par renforcement ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,Estimation par noyaux ,Reinforcement Learning ,Kernel-based algorithms ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
Reinforcement learning (RL) is a powerful machine learning framework to design algorithms that learn to make decisions and to interact with the world. Algorithms for RL can be classified as offline or online. In the offline case, the algorithm is given a fixed dataset, based on which it needs to compute a good decision-making strategy. In the online case, an agent needs to efficiently collect data by itself, by interacting with the environment: that is the problem of exploration in reinforcement learning. This thesis presents theoretical and practical contributions to online RL. We investigate the worst-case performance of online RL algorithms in finite environments, that is, those that can be modeled with a finite amount of states, and where the set of actions that can be taken by an agent is also finite. Such performance degrades as the number of states increases, whereas in real-world applications the state set can be arbitrarily large or continuous. To tackle this issue, we propose kernel-based algorithms for exploration that can be implemented for general state spaces, and for which we provide theoretical results under weak assumptions on the environment. Those algorithms rely on a kernel function that measures the similarity between different states, which can be defined on arbitrary state-spaces, including discrete sets and Euclidean spaces, for instance. Additionally, we show that our kernel-based algorithms are able to handle non-stationary environments by using time-dependent kernel functions, and we propose and analyze approximate versions of our methods to reduce their computational complexity. Finally, we introduce a scalable approximation of our kernel-based methods, that can be implemented with deep reinforcement learning and integrate different representation learning methods to define a kernel function., L’apprentissage par renforcement (reinforcement learning, RL) est un paradigme de l’apprentissage automatique qui nous permet de concevoir des algorithmes qui apprennent à prendre des décisions et à interagir avec le monde. Les algorithmes de RL peuvent être classés comme hors ligne ou en ligne. Dans le cas hors ligne, l’algorithme dispose d’un ensemble de données fixe, avec lequel il doit calculer une bonne stratégie de prise de décision. Dans le cas en ligne, l’agent doit collecter efficacement des données par lui-même, en interagissant avec l’environnement : c’est le problème que l’on appelle exploration en apprentissage par renforcement. Cette thèse présente des contributions théoriques et pratiques sur le RL en ligne. Nous étudions la performance dans le pire des cas des algorithmes de RL dans des environnements finis, c’est-à-dire, ceux qui peuvent être modélisés avec un nombre fini d’états, et où l’ensemble des actions qui peuvent être prises par un agent est aussi fini. Cette performance se dégrade à mesure que le nombre d’états augmente, alors qu’en pratique, l’espace d’états peut être arbitrairement grand ou continu. Pour résoudre ce problème, nous proposons des algorithmes à noyaux qui peuvent être implémentés pour des espaces d’états généraux, et pour lesquels nous proposons des résultats théoriques sous des hypothèses faibles sur l’environnement. Ces algorithmes reposent sur une fonction noyau qui mesure la similarité entre différents états, qui peut être définie sur des espaces d’état arbitraires, y compris des ensembles discrets et des espaces euclidiens, par exemple. De plus, nous montrons que nos algorithmes à noyaux sont capables d’apprendre dans des environnements non stationnaires en utilisant des fonctions noyau dépendantes du temps, et nous proposons et analysons des versions approximatives de nos méthodes pour réduire leur complexité de calcul. Finalement, nous introduisons une autre approximation de nos méthodes à noyaux, qui peut être implémentée avec des algorithmes d’apprentissage par renforcement profond et intégrer de différentes méthodes d’apprentissage de représentation pour définir un noyau.
- Published
- 2022
35. gym-DSSAT : un modèle de cultures converti en un environnement d’apprentissage par renforcement
- Author
-
Gautron, Romain, Padrón, Emilio J., Preux, Philippe, Bigot, Julien, Maillard, Odalric-Ambrym, Emukpere, David, Agroécologie et Intensification Durables des cultures annuelles (UPR AIDA), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad), Département Performances des systèmes de production et de transformation tropicaux (Cirad-PERSYST), Universidade da Coruña, Scool (Scool), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), Maison de la Simulation (MDLS), Université de Versailles Saint-Quentin-en-Yvelines (UVSQ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Inria Lille, and Philippe, Preux
- Subjects
FOS: Computer and information sciences ,Computer Science - Artificial Intelligence ,[SDE.IE]Environmental Sciences/Environmental Engineering ,crop model ,Apprentissage par Renforcement ,[SDV.SA.STA] Life Sciences [q-bio]/Agricultural sciences/Sciences and technics of agriculture ,crop management ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,OpenAI gym ,itinéraire technique ,Reinforcement Learning ,[SDE.ES]Environmental Sciences/Environmental and Society ,conduite des cultures ,modèle de culture ,Artificial Intelligence (cs.AI) ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[SDV.SA.STA]Life Sciences [q-bio]/Agricultural sciences/Sciences and technics of agriculture ,[SDE.ES] Environmental Sciences/Environmental and Society ,[SDE.IE] Environmental Sciences/Environmental Engineering ,DSSAT ,agriculture ,Python - Abstract
Addressing a real world sequential decision problem with Reinforcement Learning (RL) usually starts with the use of a simulated environment that mimics real conditions. We present a novel open source RL environment for realistic crop management tasks. gym-DSSAT is agym interface to the Decision Support System for Agrotechnology Transfer (DSSAT), a high fidelity crop simulator. DSSAT has been developped over the last 30 years and is widely recognized by agronomists. gym-DSSAT comes with predefined simulations based on real world maize experiments.The environment is as easy to use as any gym environment. We provide performance baselines using basic RL algorithms. We also briefly outline how the monolithic DSSAT simulator written in Fortran has been turned into a Python RL environment. Our methodology is generic and may be applied to similar simulators. We report on very preliminary experimental results which suggest that RL can help researchers to improve sustainability of fertilization and irrigation practices., La résolution d’un problème de déecision séquentielle en conditions réelles s’appuie très souvent sur l’utilisation d’un simulateur qui reproduit ces conditions réelles. Nous introduisons un nouvel environnement pour l’apprentissage par renforcement (AR) qui propose des tâches d’apprentissage réalistes pour la conduite de cultures. gym-DSSAT est une interface gym avec le simulateur de cultures Decision Support System for Agrotechnology Transfer (DSSAT), un simulateur de haute fidélité. DSSAT a été développé durant les 30 dernières années et est largement reconnu par les agronomes. gym-DSSAT propose des simulations prédéfinies, basées sur des expérimentations au champ avec du maïs. L’environnement est aussi simple à utiliser que n’importe quel autre environnement gym. Nous proposons des performances de base dans l’environnement en utilisant des algorithmes d’AR conventionnels. Nous décrivons également brièvement comment le simulateur monolithique DSSAT, codé en Fortran, a été transformé en un environnement d’AR en Python. Notre approche est générique et peut être appliquée à des simulateurs similaires. Quoique très préliminaires, les premiers résultats expérimentaux indiquent que l’AR peut aider les chercheurs à rendre les pratiques de fertilisation et d’irrigation plus durables.
- Published
- 2022
36. Exploration sous contrainte dans l'apprentissage par renforcement
- Author
-
Garcelon, Evrard and STAR, ABES
- Subjects
Constrained exploration ,Apprentissage par renforcement ,[STAT.AP] Statistics [stat]/Applications [stat.AP] ,[STAT.TH] Statistics [stat]/Statistics Theory [stat.TH] ,Reinforcement learning ,Exploration sous contrainte ,Bandits ,[MATH.MATH-ST] Mathematics [math]/Statistics [math.ST] ,[STAT.ML] Statistics [stat]/Machine Learning [stat.ML] - Abstract
A major application of machine learning is to provide personnalized content to different users. In general, the algorithms powering those recommandation are supervised learning algorithm. That is to say the data used to train those algorithms are assumed to be sampled from the same distribution. However, the data are generated through interactions between the users and the recommendation algorithms. Thus, recommendations for a user a time t can have an impact on the set of pertinent recommandation at a later time. Therefore, it is necessary to take those interactions into account. This setting is reminiscent of the online learning setting. Among online learning algorithms, Reinforcement Learning algorithms (RL) looks the most promising to replace supervised learning algorithms for applications requiring a certain degree of personnalization. The deployement in production of RL algorithms presents some challenges such as being able to guarantee a certain level of performance during exploration phases or how to guarantee privacy of the data collected by RL algorithms. In this thesis, we consider different constraints limiting the use of RL algorithms and provides both empirical and theoretical results on the impact of those constraints on the learning process., Une application majeure de l'apprentissage machine automatisée est la personnalisation des différents contenus recommandé à différents utilisateurs. Généralement, les algorithmes étant à la base de ces systèmes sont dit supervisé. C'est-à-dire que les données utilisées lors de la phase d'apprentissage sont supposées provenir de la même distribution. Cependant, ces données sont générées par des interactions entre un utilisateur et ces mêmes algorithmes. Ainsi, les recommandations pour un utilisateur à un instant t peuvent modifier l'ensemble des recommandations pertinentes à un instant ultérieur. Il est donc nécessaire de prendre en compte ces interactions afin de produire un service de la meilleure qualité possible. Ce type d'interaction est réminiscente du problème d'apprentissage en ligne. Parmi les algorithmes dit en ligne, les algorithmes de bandits et d'apprentissage par Renforcement (AR) semblent être les mieux positionnés afin de remplacer les méthodes d'apprentissage supervisé pour des applications nécessitant un certain degré de personnalisation. Le déploiement en production d'algorithmes d'apprentissage par Renforcement présente un certain nombre de difficultés tel que garantir un certain niveau de performance lors des phases d'exploration ou encore comment garantir la confidentialité des données collectées par ces algorithmes. Dans cette thèse nous considérons différentes contraintes freinant l’utilisation d’algorithmes d’apprentissage par renforcement, en fournissant des résultats à la fois empirique et théorique sur la vitesse d’apprentissage en présence de différentes contraintes.
- Published
- 2022
37. Rétroactions dans un environnement numérique d'apprentissage : modèle de description et décision
- Author
-
JOLIVET, Sébastien, YESSAD, Amel, MURATET, Mathieu, LESNES, Elann, GRUGEON-ALLYS, Brigitte, and LUENGO, Vanda
- Subjects
epistemic feedback model ,computer model of feedback decision ,reinforcement learning ,modèle informatique de décision de rétroaction ,learning and technology ,EIAH ,TICE ,technologie de l'information pour l'éducation et la formation ,apprentissage par renforcement ,modèle de rétroaction épistémique ,STICEF - Abstract
L'article introduit un modèle de description des rétroactions épistémiques et un modèle informatique de décision de ces rétroactions. Le modèle de description est fondé sur des connaissances didactiques et a pour objectif d'tre suffisamment explicite pour aider à la décision automatique des rétroactions. Le modèle informatique de décision combine des connaissances expertes et un algorithme d'apprentissage par renforcement. La faisabilité de l'approche est évaluée avec la réification du modèle et son intégration à une implémentation du modèle décisionnel. This paper introduces a model for describing epistemic feedbacks and a computer model for deciding these feedbacks. The description model is based on didactic knowledge and aims to be sufficiently explicit to allow the automatic decision-making of feedbacks. The computational decision model combines expert knowledge and a RL algorithm. Initial evaluations of the description model were carried out to verify its descriptive capacity. In addition, the reification of the model and its integration into an implementation of the decision-making model made it possible to show the feasibility of the approach.
- Published
- 2022
- Full Text
- View/download PDF
38. Analyse des performances des réseaux cellulaires dynamiques en liaison descendante
- Author
-
liu, qiong and liu, qiong
- Subjects
reinforcement learning ,géométrie stochastique ,epsilon-stable region ,[INFO.INFO-NI] Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,stochastic geometry ,coverture analysis ,région stable epsilon ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,coverage analysis ,apprentissage par renforcement ,[MATH.MATH-ST] Mathematics [math]/Statistics [math.ST] - Abstract
The main question posed in this thesis is the characterization of the stability region of a random network when a traffic model is integrated into the description of the network geometry. First, we characterized the stable coverage probability of a random network. Starting from the notion of dynamic coverage probability, the interaction between the queue states in the network is taken into account using a discrete Markov chain modelling of the queues, where the typical user's service rate depends on the dynamic coverage probability. The cases of buffer with finite and infinite size are both taken into account. The stability region indicates from which traffic intensity at least one queue in the network diverges. A more refined description of the phenomenon is made by answering the question, "what is the proportion of unstable queues in the network?". In this case, the notion of epsilon-stability is exploited, which describes the set of traffic intensities for which a queue taken at random has a probability of diverging less than epsilon. Finally, the characterization of the stable regions by considering the resource allocation is very difficult to obtain, because of the dependence between the geometry and the dynamic of the network and the allocation strategy. However, the dynamic nature of the network considered in this thesis lends itself perfectly to description by a Markovian decision process, for which reinforcement learning strategies can be proposed. The region of stability is therefore investigated, where the typical base station can choose to transmit or remain silent depending on the observed network state., Cette thèse caractérise de la région de stabilité d'un réseau aléatoire lorsqu'un modèle de trafic est intégré à la description de la géométrie du réseau. Premièrement, nous caractérisons la probabilité de couverture stable du réseau. À partir de la notion de probabilité de couverture dynamique, l'interaction entre les états des files d'attentes dans le réseau est prise en compte à l'aide d'une modélisation par chaîne de Markov discrète des files d'attente. Les cas des files d'attente à taille finie et infinie sont traités. La région de stabilité indique à partir de quelle intensité de trafic au moins une file d'attente dans le réseau diverge. Une description plus fine du phénomène est faite en répondant à la question “quelle est la proportion de files d'attente instables dans le réseau ?". Dans ce cas, la notion d'epsilon-stabilité est exploitée, elle décrit l'ensemble des intensités de trafic pour lequel une file d'attente prise au hasard à une probabilité de diverger inférieure à epsilon. Enfin, la dépendance entre la géométrie, la dynamique du réseau et la stratégie d'allocation rend la caractérisation des régions de stabilité avec l'allocation de ressources très difficile. Le caractère dynamique du réseau est décrit par un processus décisionnel markovien utilisant l'apprentissage par renforcement. La région de stabilité est donc étudiée lorsque la station de base typique peut choisir d'émettre ou de rester silencieuse selon l'état du réseau observé.
- Published
- 2022
39. Of Population-Based Methods for Multiagent Reinforcement Learning
- Author
-
Muller, Paul and STAR, ABES
- Subjects
Machine Learning ,Theorie des Jeux ,Jeux à Champ Moyen ,[MATH.MATH-PR] Mathematics [math]/Probability [math.PR] ,Mean-Field Games ,Apprentissage Automatique ,Apprentissage par Renforcement ,Multiagent ,Reinforcement Learning ,Game theory - Abstract
This thesis addresses the question of computing game-theoretic equilibria in N-player games, and focuses particularly on the question of computing equilibria in N-player games when N is tremendously large. The thesis' body starts with methods to converge to three different types of equilibria in N-player games: correlated equilibria, coarse-correlated equilibria, and alpha-Rank. All three equilibria are converged-to using an alteration of Policy Space Response Oracle (PSRO), a popular population-based algorithm which computes a number of different policies and finds the optimal way to mix them in order to converge. More specifically, this alteration uses the target equilibrium and an innovative new-policy-computing algorithm to reach said equilibrium. We prove the convergence of our method to these equilibria of interest, and enlarge it to a broader class of equilibria which we define.This answers the initial thesis question regarding converging towards any equilibrium in any finite N-player game. However, these PSRO-derived approaches are heavily dependent on the number of players in their game: the more players there are, the more difficult it becomes for them to find an equilibrium, and this difficulty quickly becomes prohibitive. The second part of the thesis is therefore concerned with overcoming this difficulty when the number of agents is extremely large, by considering that their number is infinite. Paradoxically, this approximation simplifies equilibrium computation by eliminating combinatorial effects. We first analyze what becomes of correlated and coarse-correlated equilibria in Mean-Field games, derive their new expressions, properties, and their behavior when they are reused in N-player games. Under suitable conditions, reusing a Mean-Field (coarse-) correlated equilibrium in an N-player game yields an mathcal{O}left( frac{1}{sqrt{N}} right -approximate (coarse-) correlated equilibrium. We then address the question of computing Mean-Field (coarse-) correlated equilibria. We show that two popular algorithms converge towards Mean-Field coarse-correlated equilibria, but in a spatially-complex way, via the notion of Mean-Field regret minimization. We introduce another variant of PSRO, Mean-Field PSRO, capable of converging towards correlated, coarse-correlated and Nash equilibria in all Mean-Field games of our framework. This is done by the use of black-box optimizers for Nash equilibria, and of no-adversarial-regret algorithms for (coarse-) correlated equilibria. These equilibria are also simplified by the introduction of a new compression method, bandit compression.Finally, the thesis ends with an application of Game-Theoretical equilibria in a real-world situation: soccer penalty kicks. The game-theoretic analysis serves the purpose of analyzing how optimal the behavior of players is, characterizing each player's behavioral tendencies, and providing strategic suggestions to improve penalty kick outcomes, Cette thèse traite la question du calcul et de l'estimation d'équilibres de théorie des jeux dans des jeux à N-joueurs. Elle se concentre en particulier sur les jeux N-joueurs où N est extrêmement large. Le corps de cette thèse commence par décrire des méthodes permettant de converger vers trois types d'équilibres : corrélés, faiblement-corrélés (coarse-correlated), et alpha-Rank. Ces trois équilibres sont atteints via une altération de PSRO, un algorithme basé sur une population, c'est à dire qui calcule différentes stratégies et une manière optimale de les combiner. Plus spécifiquement, cette altération utilise l'équilibre recherché et un nouveau type d'algorithme calculant une nouvelle stratégie pour atteindre l'équilibre mentionné. Nous prouvons que notre méthode converge vers les équilibres que nous examinons, et élargissons ce résultat à une plus large classe d'équilibres que nous définissons.Ces développements apportent une réponse à la question initiale de la thèse portant sur la convergence vers tout équilibre de théorie des jeux dans tout jeu fini à N-joueurs. Cependant, les méthodes dérivées de PSRO mentionnées plus haut peinent à converger rapidement lorsque N est élevé. Pour des valeurs de N très élevées, il devient presque impossible de trouver des équilibres en un temps raisonnable. La seconde partie de cette thèse porte donc sur la question de contourner la complexité provenant du nombre d'agents, en considérant que leur nombre est en fait infini. Paradoxalement, cette approximation simplifie le calcul d'équilibres parce qu'elle élimine tout effet combinatoire provenant des N joueurs. Nous analysons d'abord ce que deviennent les équilibres (faiblement-) corrélés sous l'approximation des jeux à Champ Moyen (Jeux avec une infinité de joueurs), décrivons leur nouvelle expression, leurs propriétés, et leur comportement lorsqu'ils sont réutilisés dans un jeu à N-joueurs. Etant données des conditions raisonnables, réutiliser un équilibre à Champ Moyen dans un jeu à N-joueurs produit un équilibre (faiblement-) corrélé mathcal{O}left( frac{1}{sqrt{N}} right) -approximatif.La thèse aborde ensuite le sujet de calculer des équilibres (faiblement-) corrélés à Champ Moyen. Elle montre que deux algorithmes populaires convergent vers des équilibres faiblement-corrélés à Champ Moyen, d'une façon inefficace spatialement, via la notion de minimisation de regret à Champ Moyen. Nous définissons ensuite une nouvelle variante de PSRO, PSRO à Champ Moyen, capable de converger vers des équilibres corrélés, faiblement corrélés et de Nash dans tout jeu à Champ Moyen conforme à notre formulation. Ce résultat est obtenu via l'utilisation d'optimiseurs boite-noire pour le Nash; et d'algorithmes sans-regret-adversarial pour les équilibres corrélés et faiblement corrélés. Ces équilibres sont aussi simplifiés via l'utilisation d'un nouvel algorithme de compression, "compression de bandits". Enfin, la thèse est conclue par une application d'équilibres de théorie des jeux dans une situation réelle : les tirs au but, lors de matchs de balle-aux-pieds qui devrait être popularisé pour ce sport populaire, arrivé en Angleterre grâce à la France lors du Camp du Drap d'Or. L'analyse de théorie des jeux sert à analyser l'optimalité des stratégies adoptées par les joueurs, à caractériser les tendances comportementales de chaque joueur, et à leur faire des suggestions afin qu'ils puissent améliorer leurs comportements lors de tirs-aux-but
- Published
- 2022
40. Apprentissage par renforcement basé sur un modèle pour l'allocation dynamique des ressources dans les environnements cloud
- Author
-
Tournaire, Thomas and STAR, ABES
- Subjects
Auto-Scaling policies ,Apprentissage par renforcement ,Apprentissage par renforcement factorisé ,[SCCO.COMP] Cognitive science/Computer science ,Hysteresis ,Causal reinforcement learning ,Reinforcement learning ,Apprentissage par renforcement causal ,Factored reinforcement learning ,Politiques d'auto-Scaling ,Cloud - Abstract
The emergence of new technologies (Internet of Things, smart cities, autonomous vehicles, health, industrial automation, ...) requires efficient resource allocation to satisfy the demand. These new offers are compatible with new 5G network infrastructure since it can provide low latency and reliability. However, these new needs require high computational power to fulfill the demand, implying more energy consumption in particular in cloud infrastructures and more particularly in data centers. Therefore, it is critical to find new solutions that can satisfy these needs still reducing the power usage of resources in cloud environments. In this thesis we propose and compare new AI solutions (Reinforcement Learning) to orchestrate virtual resources in virtual network environments such that performances are guaranteed and operational costs are minimised. We consider queuing systems as a model for clouds IaaS infrastructures and bring learning methodologies to efficiently allocate the right number of resources for the users.Our objective is to minimise a cost function considering performance costs and operational costs. We go through different types of reinforcement learning algorithms (from model-free to relational model-based) to learn the best policy. Reinforcement learning is concerned with how a software agent ought to take actions in an environment to maximise some cumulative reward. We first develop queuing model of a cloud system with one physical node hosting several virtual resources. On this first part we assume the agent perfectly knows the model (dynamics of the environment and the cost function), giving him the opportunity to perform dynamic programming methods for optimal policy computation. Since the model is known in this part, we also concentrate on the properties of the optimal policies, which are threshold-based and hysteresis-based rules. This allows us to integrate the structural property of the policies into MDP algorithms. After providing a concrete cloud model with exponential arrivals with real intensities and energy data for cloud provider, we compare in this first approach efficiency and time computation of MDP algorithms against heuristics built on top of the queuing Markov Chain stationary distributions.In a second part we consider that the agent does not have access to the model of the environment and concentrate our work with reinforcement learning techniques, especially model-based reinforcement learning. We first develop model-based reinforcement learning methods where the agent can re-use its experience replay to update its value function. We also consider MDP online techniques where the autonomous agent approximates environment model to perform dynamic programming. This part is evaluated in a larger network environment with two physical nodes in tandem and we assess convergence time and accuracy of different reinforcement learning methods, mainly model-based techniques versus the state-of-the-art model-free methods (e.g. Q-Learning).The last part focuses on model-based reinforcement learning techniques with relational structure between environment variables. As these tandem networks have structural properties due to their infrastructure shape, we investigate factored and causal approaches built-in reinforcement learning methods to integrate this information. We provide the autonomous agent with a relational knowledge of the environment where it can understand how variables are related to each other. The main goal is to accelerate convergence by: first having a more compact representation with factorisation where we devise a factored MDP online algorithm that we evaluate and compare with model-free and model-based reinforcement learning algorithms; second integrating causal and counterfactual reasoning that can tackle environments with partial observations and unobserved confounders., L'émergence de nouvelles technologies nécessite une allocation efficace des ressources pour satisfaire la demande. Cependant, ces nouveaux besoins nécessitent une puissance de calcul élevée impliquant une plus grande consommation d'énergie notamment dans les infrastructures cloud et data centers. Il est donc essentiel de trouver de nouvelles solutions qui peuvent satisfaire ces besoins tout en réduisant la consommation d'énergie des ressources. Dans cette thèse, nous proposons et comparons de nouvelles solutions d'IA (apprentissage par renforcement RL) pour orchestrer les ressources virtuelles dans les environnements de réseaux virtuels de manière à garantir les performances et minimiser les coûts opérationnels. Nous considérons les systèmes de file d'attente comme un modèle pour les infrastructures cloud IaaS et apportons des méthodes d'apprentissage pour allouer efficacement le bon nombre de ressources.Notre objectif est de minimiser une fonction de coût en tenant compte des coûts de performance et opérationnels. Nous utilisons différents types d'algorithmes de RL (du « sans-modèle » au modèle relationnel) pour apprendre la meilleure politique. L'apprentissage par renforcement s'intéresse à la manière dont un agent doit agir dans un environnement pour maximiser une récompense cumulative. Nous développons d'abord un modèle de files d'attente d'un système cloud avec un nœud physique hébergeant plusieurs ressources virtuelles. Dans cette première partie, nous supposons que l'agent connaît le modèle (dynamiques de l'environnement et coût), ce qui lui donne la possibilité d'utiliser des méthodes de programmation dynamique pour le calcul de la politique optimale. Puisque le modèle est connu dans cette partie, nous nous concentrons également sur les propriétés des politiques optimales, qui sont des règles basées sur les seuils et l'hystérésis. Cela nous permet d'intégrer la propriété structurelle des politiques dans les algorithmes MDP. Après avoir fourni un modèle de cloud concret avec des arrivées exponentielles avec des intensités réelles et des données d'énergie pour le fournisseur de cloud, nous comparons dans cette première approche l'efficacité et le temps de calcul des algorithmes MDP par rapport aux heuristiques construites sur les distributions stationnaires de la chaîne de Markov des files d'attente.Dans une deuxième partie, nous considérons que l'agent n'a pas accès au modèle de l'environnement et nous concentrons notre travail sur les techniques de RL. Nous évaluons d'abord des méthodes basées sur un modèle où l'agent peut réutiliser son expérience pour mettre à jour sa fonction de valeur. Nous considérons également des techniques de MDP en ligne où l'agent autonome approxime le modèle pour effectuer une programmation dynamique. Cette partie est évaluée dans un environnement plus large avec deux nœuds physiques en tandem et nous évaluons le temps de convergence et la précision des différentes méthodes, principalement les techniques basées sur un modèle par rapport aux méthodes sans modèle de l'état de l'art.La dernière partie se concentre sur les techniques de RL basées sur des modèles avec une structure relationnelle entre les variables d’état. Comme ces réseaux en tandem ont des propriétés structurelles dues à la forme de l’infrastructure, nous intégrons les approches factorisées et causales aux méthodes de RL pour inclure cette connaissance. Nous fournissons à l'agent une connaissance relationnelle de l'environnement qui lui permet de comprendre comment les variables sont reliées. L'objectif principal est d'accélérer la convergence: d'abord avec une représentation plus compacte avec la factorisation où nous concevons un algorithme en ligne de MDP factorisé que nous comparons avec des algorithmes de RL sans modèle et basés sur un modèle ; ensuite en intégrant le raisonnement causal et contrefactuel qui peut traiter les environnements avec des observations partielles et des facteurs de confusion non observés.
- Published
- 2022
41. Une nouvelle approche d'apprentissage en profondeur efficace pour le traitement des séries temporelles utilisant la classification, la prédiction et le renforcement : cas d'utilisations Energie et télécommunications
- Author
-
Dridi, Aicha and STAR, ABES
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Réseaux de neurones récurrents ,Apprentissage profond ,Time series ,Séries temporelles ,Recurrent neural network ,Deep learning ,Anomaly detection ,[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG] ,Apprentissage par renforcement ,Machine learning ,Reinforcement learning ,Détection d'anomalie ,Apprentissage machine - Abstract
The massive growth of sensors (temperature, humidity, accelerometer, position sensor) and mobile devices (smartphones, tablets, smartwatches) increases the amount of data generated explosively. This immense amount of data can be collected and managed. The work carried out during this thesis aims first to propose an approach that deals with a specific type of data, which are time series. First, we used classification methods based on convolutional neural networks and multilayer perceptrons to extract the relevant information. We then used recurrent neural networks to make the predictions. We treated several time series data: energy, cellular, and GPS taxi track data. We also investigated several other methods like as semantic compression and transfer learning. The two described methods above allow us for the first to transmit only the weight of the neural networks, or if an anomaly is detected, send the anomalous data. Transfer learning allows us to make good predictions even if the data is missing or noisy. These methods allowed us to set up dynamic anomaly detection mechanisms. The objective of the last part of the thesis is to develop and implement a resource management solution having as input the result of the previous phases. We used several methods to implement this resource management solution, such as reinforcement learning, exact resolution, or recurrent neural networks. The first application is the implementation of an energy management system. The second application is the management of the deployment of drones to assist cellular networks when an anomaly occurs., La croissance massive des capteurs (température, humidité, accéléromètre, capteur de position) et des appareils mobiles (smartphones, tablettes, smartwatch …) fait que la quantité de données générées augmente de manière explosive. Cette immense quantité de données peut être collectée et gérée. Le travail réalisé durant cette thèse vise à proposer en un premier temps une approche qui traite un type de données spécifique qui sont les séries temporelles. Pour ce faire nous avons utilisé des méthodes de classification basées sur des réseaux de neurones convolutifs ainsi que des multi layer perceptron afin d'extraire les informations pertinentes. Nous avons par la suite eu recours à l'utilisation des réseaux de neurones récurrents pour réaliser les prédictions. Les données utilisées provenaient de plusieurs sources : Données de consommation énergétique, données de production d'énergies renouvelables, données cellulaires, données de trace GPS de taxi. Nous avons également investigué plusieurs autres méthodes telles que la compression sémantique ainsi que le transfer learning. Les deux méthodes décrites précédemment nous permettent pour la première de ne transmettre que les poids des réseaux de neurones ou en cas d'anomalie détectée d'envoyer les données la constituant. Le transfer learning nous permet quant à lui de réaliser de bonnes prédictions même si les données traitées souffrent d'un manque ou d'un bruit. Ces traitements nous ont permis par la suite de mettre en place des mécanismes dynamiques de détection d'anomalie. L'objectif du dernier volet de la thèse est le développement et l'implémentation d'une solution de management des ressources ayant comme entrée le résultat des phases précédentes. Pour mettre en place cette solution de gestion des ressources nous avons utilisé plusieurs approches tel que l'apprentissage par renforcement, la résolution exacte ou encore des réseaux de neurones récurrents. Une première application est la mise en place d'un système de management de l'énergie et la seconde est la gestion du déploiement des drones pour assister les réseaux cellulaires en cas d'anomalies.
- Published
- 2022
42. Dependency Parsing with Backtracking using Deep Reinforcement Learning
- Author
-
Franck Dary, Maxime Petit, Alexis Nasr, Traitement Automatique du Langage Ecrit et Parlé (TALEP), Laboratoire d'Informatique et Systèmes (LIS), Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS), Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS), Becerra, Leonor, Favre, Benoît, Gardent, Claire, and Parmentier, Yannick
- Subjects
retour arrière ,FOS: Computer and information sciences ,Linguistics and Language ,reinforcement learning ,Computer Science - Computation and Language ,backtracking ,Communication ,Transition based parsing ,Computer Science::Computation and Language (Computational Linguistics and Natural Language and Speech Processing) ,apprentissage par renforcement ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Computer Science Applications ,Human-Computer Interaction ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Artificial Intelligence ,Analyse syntaxique en transitions ,Computation and Language (cs.CL) - Abstract
Greedy algorithms for NLP such as transition based parsing are prone to error propagation. One way to overcome this problem is to allow the algorithm to backtrack and explore an alternative solution in cases where new evidence contradicts the solution explored so far. In order to implement such a behavior, we use reinforcement learning and let the algorithm backtrack in cases where such an action gets a better reward than continuing to explore the current solution. We test this idea on both POS tagging and dependency parsing and show that backtracking is an effective means to fight against error propagation., Comment: Accepted for publication in Transactions of the Association for Computational Linguistics
- Published
- 2022
- Full Text
- View/download PDF
43. Équilibrage de charge efficace et adaptatif avec contraintes temporelles pour les véhicules connectés
- Author
-
Ibarz, Jean, Équipe Tolérance aux fautes et Sûreté de Fonctionnement informatique (LAAS-TSF), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT), INPT, Jean-Charles FABRE, Michaël LAUER (co-directeur), and HAL-LAAS, LAAS
- Subjects
véhicules connectés ,produits d'information ,du véhicule au cloud ,allocation des ressources ,[INFO] Computer Science [cs] ,Reinforcement Learning ,soft real-time ,soft en temps réel ,Apprentissage par renforcement ,économie computationnelle basée sur des agents ,connected vehicles ,resources allocation ,agents-based computational economics ,[INFO]Computer Science [cs] ,vehicle-to-Cloud ,information goods - Abstract
To enhance the mobility experience, millions of connected vehicles are envisioned to act as information miners in a massive distributed system. In this system, each vehicle embeds multiple sensors to acquire local information from the environment. This information is then transferred to the Cloud, where it is used by services to generate global and frequently updated knowledge of the environment. This knowledge makes possible a better anticipation of future situations in an electronic horizon that extends beyond the perception of on-board sensors.The overwhelming amount of data generated by the vehicle fleet as well as the highly dynamic nature of the environment require efficient and adaptive optimization of the data flow transferred from vehicles to the Cloud. In this thesis, we propose elements of solution to this problem.To start, we set out the framework of the initial problem and the assumptions we have made to make the problem tractable. We propose to decompose our problem in a multi-time-scale model, a model classically encountered in operational research.Then, we model the problem at the vehicle’s level as a value-based scheduling problem using flexible real-time concepts. We experimentally evaluate a set of greedy on-line algorithms chosen for their high adaptive capacity and low complexity, a characteristic suitable for an embedded context. We extend a method of random generation of scenarios to improve the transparency of our results. We also propose to reduce a side effect due to the termination of the simulation, which does not affect all algorithms equally, in order to improve the accuracy of the evaluation. Our results point to an analysis bias present in the literature, and indicate that a simpler algorithm than the one previously considered makes it possible to solve the problem more effectively.Eventually, we study the problem at the Cloud level. A compromise must be found between maximizing the overall wealth generated and meeting the individual needs of each service. We are looking for a way to abstract the concrete expression of the needs of the different services, and to control the influence of each service on the data flow to protect ourselves from famine situations. We envision a market-based control solution, where the power of influence is materialized in numeraire, which is convenient to imagine as cash. Numeraire is distributed periodically to services and can be accumulated by a service to allow it to dynamically adapt its power of influence as its needs evolve. Services have the freedom and responsibility to make good use of the numeraire to acquire the data they want. The influence of services on the flow of data is achieved through interactions with a provision mechanism. To obtain a mechanism that generates desirable effects, we propose to build ! a family of mechanisms based on concepts similar to mechanisms already existing in the literature. We simulate intelligent services, whose behavior is obtained by taking advantage of reinforcement learning techniques, to evaluate the effects obtained with the provision mechanism. Our results indicate that the NE-WR (No-Exclusion Weighted-Rebate) mechanism, which is simple and where the contribution of each service is free, is a good candidate. This mechanism makes it possible to obtain a good compromise between the overall wealth generated by all the services and the satisfaction of individual needs, while allowing each service to influence the flow of data to a fair extent., Pour améliorer l'expérience de la mobilité, il est envisagé que des millions de véhicules connectés agissent en tant que mineurs d'informations dans un système distribué massif. Dans ce système, chaque véhicule embarque de multiples capteurs pour acquérir des informations locales de l'environnement. Ces informations sont ensuite transférées vers le Cloud, où elles sont exploitées par des services pour générer une connaissance globale et fréquemment mise à jour de l'environnement. Cette connaissance rend possible une meilleure anticipation des situations futures dans un horizon électronique qui s'étend au-delà de la perception des capteurs embarqués.L’écrasante quantité de données générées par la flotte de véhicules ainsi que le caractère fortement dynamique de l'environnement imposent une optimisation efficace et adaptative du flux de données transférées des véhicules vers le Cloud. Dans cette thèse, nous proposons des éléments de solution à ce problème.Pour commencer, nous posons le cadre du problème initial et des hypothèses que nous nous sommes imposées pour rendre l'étude du problème abordable. Nous proposons de décomposer notre problème dans un modèle multi-échelle-temporelle, un modèle classiquement rencontré en recherche opérationnelle.Ensuite, nous modélisons le problème au niveau des véhicules comme un problème d’ordonnancement basé-valeur en nous appuyant sur des concepts de temps-réel souple. Nous évaluons expérimentalement un ensemble d'algorithmes gloutons en-ligne choisis pour leur forte capacité adaptative et leur faible complexité, une caractéristique appropriée pour un contexte embarqué. Nous étendons une méthode de génération aléatoire de scénarios afin d’améliorer la transparence de nos résultats. Nous proposons aussi de réduire un effet de bord dû à la terminaison de la simulation, qui n’affecte pas de manière égale tous les algorithmes, afin d’améliorer la justesse de l’évaluation. Nos résultats pointent vers un biais d’analyse présent dans la littérature, et indiquent qu'un algorithme plus simple que celui précédemment considéré permet de résoudre plus efficacement le problème.Finalement, nous étudions le problème au niveau du Cloud. Il faut trouver un compromis entre maximisation de la richesse globale générée et satisfaction des besoins individuels de chaque service. Nous cherchons un moyen d'abstraire l'expression concrète des besoins des différents services, et contrôler l'influence de chaque service sur le flux de données pour nous prémunir de situations de famines. Nous envisageons une solution de contrôle basé-marché, où le pouvoir d'influence est matérialisé par du numéraire, qu'il est pratique d'imaginer comme de la monnaie. Le numéraire est distribué périodiquement aux services et peut être cumulé par un service pour lui permettre d’adapter dynamiquement son pouvoir d’influence avec l’évolution de ses besoins. Les services ont la liberté et la responsabilité de faire bon usage du numéraire pour acquérir les données qu’ils convoitent. L'influence des services sur le flux de données se réalise au tr! avers d'intéractions avec un mécanisme de provision. Pour obtenir un mécanisme qui génère des effets désirables, nous proposons de construire une famille de mécanismes basés sur des concepts similaires à des mécanismes déjà existants dans la littérature. Nous simulons des services intelligents, dont le comportement est obtenu en tirant profit de techniques d’apprentissage par renforcement, pour évaluer les effets obtenus avec le mécanisme de provision. Nos résultats indiquent que le mécanisme NE-WR (No-Exclusion Weighted-Rebate), qui est simple et où la contribution de chaque service est libre, est un bon candidat. Ce mécanisme permet d’obtenir un bon compromis entre la richesse globale générée par l’ensemble des services et la satisfaction des besoins individuels, tout en permettant à chaque service d’influencer le flux de données dans une juste mesure.
- Published
- 2021
44. Contributions à l'optimisation stochastique non convexe et à l'apprentissage par renforcement
- Author
-
Barakat, Anas, Laboratoire Traitement et Communication de l'Information (LTCI), Institut Mines-Télécom [Paris] (IMT)-Télécom Paris, Institut Polytechnique de Paris, Pascal Bianchi, and Walid Hachem
- Subjects
Optimization ,Méthodes acteur-critique ,Stochastic approximation ,Approximation stochastique ,[MATH.MATH-DS]Mathematics [math]/Dynamical Systems [math.DS] ,Systèmes dynamiques ,Actor-critic methods ,Evitement de pièges ,Reinforcement Learning ,Méthodes à gradient adaptatives avec momentum ,Apprentissage par renforcement ,[STAT.ML]Statistics [stat]/Machine Learning [stat.ML] ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Avoidance of traps ,Adaptive gradient methods with momentum ,Dynamical systems ,Optimisation ,[MATH.MATH-OC]Mathematics [math]/Optimization and Control [math.OC] - Abstract
This thesis is focused on the convergence analysis of some popular stochastic approximation methods in use in the machine learning community with applications to optimization and reinforcement learning.The first part of the thesis is devoted to a popular algorithm in deep learning called ADAM used for training neural networks. This variant of stochastic gradient descent is more generally useful for finding a local minimizer of a function. Assuming that the objective function is differentiable and non-convex, we establish the convergence of the iterates in the long run to the set of critical points under a stability condition in the constant stepsize regime. Then, we introduce a novel decreasing stepsize version of ADAM. Under mild assumptions, it is shown that the iterates are almost surely bounded and converge almost surely to critical points of the objective function. Finally, we analyze the fluctuations of the algorithm by means of a conditional central limit theorem.In the second part of the thesis, in the vanishing stepsizes regime, we generalize our convergence and fluctuations results to a stochastic optimization procedure unifying several variants of the stochastic gradient descent such as, among others, the stochastic heavy ball method, the Stochastic Nesterov Accelerated Gradient algorithm, and the widely used ADAM algorithm. We conclude this second part by an avoidance of traps result establishing the non-convergence of the general algorithm to undesired critical points, such as local maxima or saddle points. Here, the main ingredient is a new avoidance of traps result for non-autonomous settings, which is of independent interest.Finally, the last part of this thesis which is independent from the two previous parts, is concerned with the analysis of a stochastic approximation algorithm for reinforcement learning. In this last part, we propose an analysis of an online target-based actor-critic algorithm with linear function approximation in the discounted reward setting. Our algorithm uses three different timescales: one for the actor and two for the critic. Instead of using the standard single timescale temporal difference (TD) learning algorithm as a critic, we use a two timescales target-based version of TD learning closely inspired from practical actor-critic algorithms implementing target networks. First, we establish asymptotic convergence results for both the critic and the actor under Markovian sampling. Then, we provide a finite-time analysis showing the impact of incorporating a target network into actor-critic methods.; Cette thèse est centrée autour de l'analyse de convergence de certains algorithmes d'approximation stochastiques utilisés en machine learning appliqués à l'optimisation et à l'apprentissage par renforcement. La première partie de la thèse est dédiée à un célèbre algorithme en apprentissage profond appelé ADAM, utilisé pour entraîner des réseaux de neurones. Cette célèbre variante de la descente de gradient stochastique est plus généralement utilisée pour la recherche d'un minimiseur local d'une fonction. En supposant que la fonction objective est différentiable et non convexe, nous établissons la convergence des itérées au temps long vers l'ensemble des points critiques sous une hypothèse de stabilité dans le régime des pas constants. Ensuite, nous introduisons une nouvelle variante de l'algorithme ADAM à pas décroissants. Nous montrons alors sous certaines hypothèses réalistes que les itérées sont presque sûrement bornées et convergent presque sûrement vers des points critiques de la fonction objective. Enfin, nous analysons les fluctuations de l'algorithme par le truchement d'un théorème central limite conditionnel. Dans la deuxième partie de cette thèse, dans le régime des pas décroissants, nous généralisons nos résultats de convergence et de fluctuations à une procédure d'optimisation stochastique unifiant plusieurs variantes de descente de gradient stochastique comme la méthode de la boule pesante, l'algorithme stochastique de Nesterov accéléré ou encore le célèbre algorithme ADAM, parmi d'autres. Nous concluons cette partie par un résultat d'évitement de pièges qui établit la non convergence de l'algorithme général vers des points critiques indésirables comme les maxima locaux ou les points-selles. Ici, le principal ingrédient est un nouveau résultat indépendant d'évitement de pièges pour un contexte non-autonome. Enfin, la dernière partie de cette thèse qui est indépendante des deux premières parties est dédiée à l'analyse d'un algorithme d'approximation stochastique pour l'apprentissage par renforcement. Dans cette dernière partie, dans le cadre des processus décisionnels de Markov avec critère de récompense gamma-pondéré, nous proposons une analyse d'un algorithme acteur-critique en ligne intégrant un réseau cible et avec approximation de fonction linéraire. Notre algorithme utilise trois échelles de temps distinctes: une échelle pour l'acteur et deux autres pour la critique. Au lieu d'utiliser l'algorithme de différence temporelle (TD) standard à une échelle de temps, nous utilisons une version de l'algorithme TD à deux échelles de temps intégrant un réseau cible inspiré des algorithmes acteur-critique utilisés en pratique. Tout d'abord, nous établissons des résultats de convergence pour la critique et l'acteur sous échantillonnage Markovien. Ensuite, nous menons une analyse à temps fini montrant l'impact de l'utilisation d'un réseau cible sur les méthodes acteur-critique.
- Published
- 2021
45. Virtual reality therapy for Alzheimer’s disease with speech instruction and real-time neurofeedback system
- Author
-
Ai, Yan and Frasson, Claude
- Subjects
Emotion ,Immersive Virtual Reality ,Zoo thérapie ,Auto encoder ,Neurofeedback ,Maladie d’Alzheimer ,Intelligent Agent ,Speech Recognition ,Reconnaissance vocale ,Encodeur automatique ,Apprentissage par renforcement ,Environnement immersif ,Zoo Therapy ,Reinforcement learning ,Algorithmes d’optimisation de la politique proximale ,Immersive environment ,Alzheimer’s Disease ,EEG ,Proximal Policy Optimization Algorithms ,Réalité virtuelle immersive ,Émotions - Abstract
La maladie d'Alzheimer (MA) est une maladie cérébrale dégénérative qui entraîne une perte progressive de la mémoire, un déclin cognitif et une détérioration graduelle de la capacité d'une personne à faire face à la complexité et à l'exigence des tâches quotidiennes nécessaires pour vivre en autonomie dans notre société actuelle. Les traitements pharmacologiques actuels peuvent ralentir le processus de dégradation attribué à la maladie, mais ces traitements peuvent également provoquer certains effets secondaires indésirables. L'un des traitements non pharmacologiques qui peut soulager efficacement les symptômes est la thérapie assistée par l'animal (T.A.A.). Mais en raison de certaines limitations telles que le prix des animaux et des problèmes d'hygiène, des animaux virtuels sont utilisés dans ce domaine. Cependant, les animaux virtuels animés, la qualité d'image approximative et le mode d'interaction unidirectionnel des animaux qui attendent passivement les instructions de l’utilisateur, peuvent difficilement stimuler le retour émotionnel entre l'utilisateur et les animaux virtuels, ce qui affaiblit considérablement l'effet thérapeutique. Cette étude vise à explorer l'efficacité de l'utilisation d'animaux virtuels à la place d’animaux vivants et leur impact sur la réduction des émotions négatives chez le patient. Cet objectif a été gardé à l'esprit lors de la conception du projet Zoo Therapy, qui présente un environnement immersif d'animaux virtuels en 3D, où l'impact sur l'émotion du patient est mesuré en temps réel par électroencéphalographie (EEG). Les objets statiques et les animaux virtuels de Zoo Therapy sont tous présentés à l'aide de modèles 3D réels. Les mouvements des animaux, les sons et les systèmes de repérage spécialement développés prennent en charge le comportement interactif simulé des animaux virtuels. De plus, pour que l'expérience d'interaction de l'utilisateur soit plus réelle, Zoo Therapy propose un mécanisme de communication novateur qui met en œuvre une interaction bidirectionnelle homme-machine soutenue par 3 méthodes d'interaction : le menu sur les panneaux, les instructions vocales et le Neurofeedback. La manière la plus directe d'interagir avec l'environnement de réalité virtuelle (RV) est le menu sur les panneaux, c'est-à-dire une interaction en cliquant sur les boutons des panneaux par le contrôleur de RV. Cependant, il était difficile pour certains utilisateurs ayant la MA d'utiliser le contrôleur de RV. Pour accommoder ceux qui ne sont pas bien adaptés ou compatibles avec le contrôleur de RV, un système d'instructions vocales peut être utilisé comme interface. Ce système a été reçu positivement par les 5 participants qui l'ont essayé. Même si l'utilisateur choisit de ne pas interagir activement avec l'animal virtuel dans les deux méthodes ci-dessus, le système de Neurofeedback guidera l'animal pour qu'il interagisse activement avec l'utilisateur en fonction des émotions de ce dernier. Le système de Neurofeedback classique utilise un système de règles pour donner des instructions. Les limites de cette méthode sont la rigidité et l'impossibilité de prendre en compte la relation entre les différentes émotions du participant. Pour résoudre ces problèmes, ce mémoire présente une méthode basée sur l'apprentissage par renforcement (AR) qui donne des instructions à différentes personnes en fonction des différentes émotions. Dans l'expérience de simulation des données émotionnelles synthétiques de la MD, la méthode basée sur l’AR est plus sensible aux changements émotionnels que la méthode basée sur les règles et peut apprendre automatiquement des règles potentielles pour maximiser les émotions positives de l'utilisateur. En raison de l'épidémie de Covid-19, nous n'avons pas été en mesure de mener des expériences à grande échelle. Cependant, un projet de suivi a combiné la thérapie de RV Zoo avec la reconnaissance des gestes et a prouvé son efficacité en évaluant les valeurs d'émotion EEG des participants., Alzheimer’s disease (AD) is a degenerative brain disease that causes progressive memory loss, cognitive decline, and gradually impairs one’s ability to cope with the complexity and requirement of the daily routine tasks necessary to live in autonomy in our current society. Actual pharmacological treatments can slow down the degradation process attributed to the disease, but such treatments may also cause some undesirable side effects. One of the non-pharmacological treatments that can effectively relieve symptoms is animal-assisted treatment (AAT). But due to some limitations such as animal cost and hygiene issues, virtual animals are used in this field. However, the animated virtual animals, the rough picture quality presentation, and the one-direction interaction mode of animals passively waiting for the user's instructions can hardly stimulate the emotional feedback background between the user and the virtual animals, which greatly weakens the therapeutic effect. This study aims to explore the effectiveness of using virtual animals in place of their living counterpart and their impact on the reduction of negative emotions in the patient. This approach has been implemented in the Zoo Therapy project, which presents an immersive 3D virtual reality animal environment, where the impact on the patient’s emotion is measured in real-time by using electroencephalography (EEG). The static objects and virtual animals in Zoo Therapy are all presented using real 3D models. The specially developed animal movements, sounds, and pathfinding systems support the simulated interactive behavior of virtual animals. In addition, for the user's interaction experience to be more real, the innovation of this approach is also in its communication mechanism as it implements a bidirectional human-computer interaction supported by 3 interaction methods: Menu panel, Speech instruction, and Neurofeedback. The most straightforward way to interact with the VR environment is through Menu panel, i.e., interaction by clicking buttons on panels by the VR controller. However, it was difficult for some AD users to use the VR controller. To accommodate those who are not well suited or compatible with VR controllers, a speech instruction system can be used as an interface, which was received positively by the 5 participants who tried it. Even if the user chooses not to actively interact with the virtual animal in the above two methods, the Neurofeedback system will guide the animal to actively interact with the user according to the user's emotions. The mainstream Neurofeedback system has been using artificial rules to give instructions. The limitation of this method is inflexibility and cannot take into account the relationship between the various emotions of the participant. To solve these problems, this thesis presents a reinforcement learning (RL)-based method that gives instructions to different people based on multiple emotions accordingly. In the synthetic AD emotional data simulation experiment, the RL-based method is more sensitive to emotional changes than the rule-based method and can automatically learn potential rules to maximize the user's positive emotions. Due to the Covid-19 epidemic, we were unable to conduct large-scale experiments. However, a follow-up project combined VR Zoo Therapy with gesture recognition and proved the effectiveness by evaluating participant's EEG emotion values.
- Published
- 2021
46. Self-supervision for data interpretability in image classification and sample efficiency in reinforcement learning
- Author
-
Rajkumar, Nitarshan and Charlin, Laurent
- Subjects
généralisation ,representation learning ,reinforcement learning ,apprentissage profond ,machine learning ,apprentissage automatique ,apprentissage auto-surveillé ,self-supervised learning ,deep learning ,apprentissage par renforcement ,generalization ,apprentissage de représentations - Abstract
L'apprentissage auto-surveillé (AAS), c'est-à-dire l'apprentissage de connaissances en exploitant la structure intrinsèque présente dans un ensemble de données non étiquettées, a beaucoup fait progresser l'apprentissage automatique dans la dernière décennie, et plus particulièrement dans les dernières deux années en vision informatique. Dans cet ouvrage, nous nous servons de l'AAS comme outil dans deux champs applicatifs: Pour interpréter efficacement les ensembles de données et les décisions prises par des modèles statistiques, et pour pré-entrainer un modèle d'apprentissage par renforcement pour grandement augmenter l'efficacité de son échantillonnage dans son contexte d'entraînement. Le Chapitre 1 présente les connaissances de fond nécessaires à la compréhension du reste du mémoire. Il offre un aperçu de l'apprentissage automatique, de l'apprentissage profond, de l'apprentissage auto-surveillé et de l'apprentissage par renforcement (profond). Le Chapitre 2 se détourne brièvement du sujet de l'auto-surveillance pour étudier comment le phénomène de la mémorisation se manifeste dans les réseaux de neurones profonds. Les observations que nous ferons seront alors utilisées comme pièces justificatives pour les travaux présentés dans le Chapitre 3. Ce chapitre aborde la manière dont l'auto-surveillance peut être utilisée pour découvrir efficacement les régularités structurelles présentes dans un ensemble de données d'entraînement, estimer le degré de mémorisation de celui-ci par le modèle, et l'influence d'un échantillon d'entraînement sur les résultats pour un échantillon-test. Nous passons aussi en revue de récents travaux touchant à l'importance de mémoriser la ``longue traîne'' d'un jeu de données. Le Chapitre 4 fait la démonstration d'une combinaison d'objectifs de pré-entraînement AAS axés sur les caractéristiques des données en apprentissage par renforcement, de ce fait élevant l'efficacité d'échantillonnage à un niveau comparable à celui d'un humain. De plus, nous montrons que l'AAS ouvre la porte à de plus grands modèles, ce qui a été par le passé un défi à surmonter en apprentissage par renforcement profond. Finalement, le Chapitre 5 conclut l'ouvrage avec un bref survol des contributions scientifiques et propose quelque avenues pour des recherches poussées dans le futur., Self-Supervised Learning (SSL), or learning representations of data by exploiting inherent structure present in it without labels, has driven significant progress in machine learning over the past decade, and in computer vision in particular over the past two years. In this work, we explore applications of SSL towards two separate goals - first, as a tool for efficiently interpreting datasets and model decisions, and second, as a tool for pretraining in reinforcement learning (RL) to greatly advance sample efficiency in that setting. Chapter 1 introduces background material necessary to understand the remainder of this thesis. In particular, it provides an overview of Machine Learning, Deep Learning, Self-Supervised Representation Learning, and (Deep) Reinforcement Learning. Chapter 2 briefly detours away from this thesis' focus on self-supervision, to examine how the phenomena of memorization manifests in deep neural networks. These results are then used to partially justify work presented in Chapter 3, which examines how self-supervision can be used to efficiently uncover structural regularity in training datasets, and to estimate training memorization and the influence of training samples on test samples. Recent experimental work on understanding the importance of memorizing the long-tail of data is also revisited. Chapter 4 demonstrates how a combination of SSL pretraining objectives designed for the structure of data in RL can greatly improve sample efficiency to nearly human-level performance. Furthermore, it is shown that SSL enables the use of larger models, which has historically been a challenge in deep RL. Chapter 5 concludes by reviewing the contributions of this work, and discusses future directions.
- Published
- 2021
47. Memory Bandits for decision making in dynamical environments. Application to network optimization
- Author
-
Alami, Réda, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Université Paris-Saclay, Michèle Sebag, Odalric-Ambrym Maillard, Raphaël Féraud, and CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Machine Learning ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] ,Non-Stationary environment ,Multi-Armed bandits ,Apprentissage automatique ,Bandits manchots ,Reinforcement Learning ,Environnement non stationnaire ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
In this PhD thesis, we study the non-stationary multi-armed bandit problem where the non-stationarity behavior of the environment is characterized by several abrupt changes called "change-points". We propose Memory Bandits: a combination between an algorithm for the stochastic multi-armed bandit and the Bayesian Online Change-Point Detector (BOCPD). The analysis of the latter has always been an open problem in the statistical and sequential learning theory community. For this reason, we derive a variant of the Bayesian Online Change-point detector which is easier to mathematically analyze in term of false alarm rateand detection delay (which are the most common criteria for online change-point detection). Then, we introduce the decentralized exploration problem in the multi-armed bandit paradigm where a set of players collaborate to identify the best arm by asynchronously interacting with the same stochastic environment. We propose a first generic solution called decentralized elimination: which uses any best arm identification algorithm as a subroutine with the guar-antee that the algorithm ensures privacy, with a low communication cost. Finally, we perform an evaluation of the multi-armed bandit strategies in two different context of telecommunication networks. First, in LoRaWAN (Long Range Wide Area Network) context, we propose to use multi-armed bandit algorithms instead of the default algorithm ADR (Adaptive Data Rate) in order to minimize the energy consumption and the packet losses of end-devices. Then, in a IEEE 802.15.4-TSCH context, we perform an evaluation of 9 multi-armed bandit algorithms in order to select the ones that choose high-performance channels, using data collected through the FIT IoT-LAB platform. The performance evaluation suggests that our proposal can significantly improve the packet delivery ratio compared to the default TSCH operation, thereby increasing the reliability and the energy efficiency of the transmissions.; Dans cette thèse de doctorat, nous étudions le problème du bandit manchot non stationnaire où le comportement de non-stationnarité de l'environnement est caractérisé par plusieurs changements brusques appelés "points de changement". Nous proposons les bandits à mémoire : une combinaison entre un algorithme pour le bandit manchot stochastique et le détecteur Bayésien de point de changement. L'analyse de ce dernier a toujours été un problème ouvert dans la communauté de la théorie statistique et de l'apprentissage séquentiel. Pour cette raison, nous dérivons une variante du détecteur Bayésien de point de changement qui est plus facile à analyser mathématiquement en termes de taux de fausses alarmes et de délai de détection (qui sont les critères les plus courants pour la détection de point de changement). Ensuite, nous introduisons le problème d'exploration décentralisée dans le cadre du bandit manchot où un ensemble de joueurs collaborent pour identifier le meilleur bras en interagissant de manière asynchrone avec le même environnement stochastique. Nous proposons une première solution générique appelée élimination décentralisée qui utilise n'importe quel algorithme d'identification du meilleur bras comme sous-programme avec la garantie que l'algorithme assure la confidentialité, avec un faible coût de communication. Enfin, nous effectuons une évaluation des stratégies de bandit manchot dans deux contextes différents de réseaux de télécommunications. Tout d'abord, dans le contexte LoRaWAN (Long Range Wide Area Network), nous proposons d'utiliser des algorithmes de bandit manchot à la place de l'algorithme par défaut qui porte le nom d’ADR (Adaptive Data Rate) afin de minimiser la consommation d'énergie et les pertes de paquets des terminaux. Ensuite, dans le contexte IEEE 802.15.4-TSCH, nous effectuons une évaluation de 9 algorithmes de bandits manchot afin de sélectionner ceux qui choisissent les canaux les plus performants, en utilisant les données collectées via la plateforme FIT IoT-LAB. L'évaluation des performances suggère que notre proposition peut améliorer considérablement le taux de livraison des paquets par rapport à la procédure TSCH par défaut, augmentant ainsi la fiabilité et l'efficacité énergétique des transmissions.
- Published
- 2021
48. Apprentissage par renforcement profond efficace pour le contrôle, l'exploration et la sûreté
- Author
-
Flet-Berliac, Yannis, Scool (Scool), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), Université de Lille - Faculté des Sciences et Technologies, Philippe Preux, University of Lille, Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), and Université de Lille
- Subjects
Artificial intelligence ,Apprentissage profond ,Sûreté ,Méthode acteur-critique ,Reinforcement Learning ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Deep Learning ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Contrôle continu ,Machine learning ,[INFO.INFO-RB]Computer Science [cs]/Robotics [cs.RO] ,Continuous Control ,[INFO]Computer Science [cs] ,Safety - Abstract
One major challenge of reinforcement learning is to efficiently explore an environment in order to learn optimal policies through trial and error. To achieve this, the agent must be able to learn effectively from past experiences, enabling it to form an accurate picture of the benefit of certain actions over others. Beyond that, an obvious but central issue is that what is not known must be explored, and the necessity to explore in a safe way adds another layer of difficulty to the problem. These are the main issues that we address in this Ph.D. thesis. By deconstructing the actor-critic framework and developing alternative formulations of the underlying optimization problem using the notion of variance, we explore how deep reinforcement learning algorithms can more effectively solve continuous control problems, hard exploration environments and risk-sensitive tasks. The first part of the thesis focuses on the critic component of the actor-critic framework, also referred to as value function, and how to learn more efficiently to control agents in continuous control domains through distinct uses of the variance in the value function estimates. The second part of the thesis is concerned with the actor component of the actor-critic framework, also referred to as policy. We propose the introduction of a third element to the optimization problem that agents solve by introducing an adversary. The adversary is of the same nature as the RL agent but trained to suggest actions that mimic the actor or counteract the constraints of our problem. It is represented by some averaged policy distribution with which the actor must differentiate his behavior by maximizing its divergence with it, eventually encouraging the actor to explore more thoroughly in tasks where efficient exploration is a bottleneck, or to act more safely.; Un des défis majeurs de l'apprentissage par renforcement est d'explorer efficacement un environnement afin d'apprendre une politique optimale par une méthode à base d'essai-erreur. Pour y parvenir, l'agent doit être capable d'apprendre efficacement de ses expériences passées, ce qui lui permet d'estimer la performance de certaines actions par rapport à d'autres. En outre, une problématique évidente mais centrale est que ce qui n'est pas connu doit être exploré, et la nécessité d'explorer d'une manière sûre ajoute un autre niveau de difficulté au problème. Ce sont les principales questions que nous abordons dans cette thèse de doctorat. En déconstruisant la méthode acteur-critique et en développant des formulations alternatives du problème d'optimisation sous-jacent via la notion de variance, nous explorons comment les algorithmes d'apprentissage par renforcement profond peuvent résoudre plus efficacement les problèmes de contrôle continu, les environnements d'exploration difficiles et les tâches exposées au risque. La première partie de la thèse se concentre sur la composante du critique de l'approche acteur-critique, ou fonction de valeur, et sur la façon d'apprendre plus efficacement à contrôler les agents dans les domaines de contrôle continu par des utilisations distinctes de la variance dans les estimations de la fonction de valeur. La deuxième partie de la thèse s'intéresse à la composante acteur de l'approche acteur-critique, aussi appelée politique. Nous proposons l'introduction d'un troisième élément au problème d'optimisation que les agents résolvent, en introduisant un adversaire. L'adversaire est de même nature que l'agent RL mais il est entraîné à suggérer des actions qui imitent celles de l'acteur ou qui vont à l'encontre des contraintes de notre problème. Il est représenté par une certaine distribution de politique moyenne avec laquelle l'acteur doit différencier son comportement en maximisant sa divergence avec celle-ci, encourageant finalement l'acteur à mieux explorer dans les tâches où une exploration efficace constitue la difficulté majeure, ou à prendre des décisions de façon moins risquée.
- Published
- 2021
49. Des robots qui voient : apprentissage de comportements guidés par la vision
- Author
-
Pashevich, Alexander, Laboratoire Jean Kuntzmann (LJK), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), Université Grenoble Alpes [2020-....], and Cordelia Schmid
- Subjects
Apprentissage profond ,Apprentissage par renforcement ,Sim2real transfer ,Natural language processing ,Reinforcement learning ,[INFO.INFO-RB]Computer Science [cs]/Robotics [cs.RO] ,Deep learning ,Robotics ,Robotique ,Traitement automatique du langage naturel - Abstract
Recently, vision and learning made significant progress that could improve robot control policies for complex environments. In this thesis, we introduce novel methods for learning robot control that improve the state-of-the-art on challenging tasks. We also propose a novel approach for the task of learning control in dynamic environments guided by natural language.Data availability is one of the major challenges for learning-based methods in robotics. While collecting a dataset from real robots is expensive and limits scalability, simulators provide an attractive alternative. Policies learned in simulation, however, usually do not transfer well to real scenes due to the domain gap between real and synthetic data. We propose a method that enables task-independent policy learning for real robots using only synthetic data. We demonstrate that our approach achieves excellent results on a range of real-world manipulation tasks.Learning-based approaches can solve complex tasks directly from camera images but require non-trivial domain-specific knowledge for their supervision. This thesis introduces two novel methods for learning visually guided control policies given a limited amount of supervision. First, we propose a reinforcement learning approach that learns to combine skills using neither intermediate rewards nor complete task demonstrations. Second, we propose a new method to solve a task specified with a solution example employing a novel disassembly procedure. While using no real images for training, we demonstrate the versatility of our methods in challenging real-world settings including temporary occlusions and dynamic scene changes.Interaction and navigation defined by natural language instructions in dynamic environments pose significant challenges for learning-based methods. To handle long sequences of subtasks, we propose a novel method based on a multimodal transformer that encodes the full history of observations and actions. We also propose to leverage synthetic instructions as intermediate representations to improve understanding of complex human instructions.For all the contributions, we validate our approaches against strong baselines and show that they outperform previous state-of-the-art methods.; Récemment, la vision par ordinateur et l'apprentissage automatique ont fait des progrès significatifs qui pourraient améliorer le contrôle des robots dans les environnements complexes. Dans ce manuscrit, nous introduisons de nouvelles méthodes d'apprentissage de comportements des robots. Nous proposons également une nouvelle approche pour la tâche d'apprentissage du contrôle guidé par le langage naturel.La disponibilité des données reste l’un des défis principaux pour les méthodes d’apprentissage en robotique. Néanmoins, bien que la collecte d’un ensemble de données à partir de robots réels soit coûteuse et rarement extensible, les simulateurs offrent aujourd’hui une alternative attrayante. Le comportement appris en simulation, cependant, ne se transfère généralement pas adéquatement aux scènes réelles à cause de la difference principale entre les données réelles et synthétiques. Pour faire face à cette limitation, nous proposons dans cette thèse une méthode qui permet un apprentissage de comportements pour les robots réels en utilisant uniquement des données synthétiques. Nous démontrons que notre approche aboutit à d'excellents résultats sur une gamme de tâches de manipulation dans un milieu réel. Les approches d'apprentissage peuvent résoudre des tâches complexes directement à base des images, mais nécessitent des connaissances spécifiques au domaine pour leur supervision. Nous proposons deux méthodes d’apprentissage des comportements guidés par la vision compte tenu d’une supervision limitée. Premièrement, nous proposons une approche d'apprentissage par renforcement qui apprend à combiner des compétences primitives. Deuxièmement, nous proposons une nouvelle méthode pour résoudre des tâches définies avec un exemple de solution qui utilise une procédure innovante de désassemblage. Nous démontrons la polyvalence de nos méthodes dans des contextes réels complexes, y compris des occlusions et des changements dynamiques.L'interaction et la navigation définies par le langage naturel dans des environnements dynamiques posent des défis importants pour les méthodes d'apprentissage. Pour gérer une longue séquence de sous-tâches, nous proposons une nouvelle méthode qui garde l’historique complet des observations et des actions. Nous proposons également d'utiliser des instructions synthétiques pour améliorer la compréhension des instructions humaines complexes.Pour toutes nos contributions, nous avons comparé nos approches avec les techniques existantes et nous montrons que nos résultats sont significativement meilleurs que ceux de l'état de l'art.
- Published
- 2021
50. Apprendre à interagir, interagir pour apprendre, apprentissage par renforcement centré sur les actions
- Author
-
Seurin, Mathieu, Scool (Scool), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 (CRIStAL), Centrale Lille-Université de Lille-Centre National de la Recherche Scientifique (CNRS), Université de Lille, Université de Lille - Faculté des Sciences et Technologies, Olivier Pietquin, and Philippe Preux
- Subjects
Machine Learning ,Deep Learning ,Apprentissage par renforcement ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Apprentissage Automatique ,[INFO]Computer Science [cs] ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,Apprentissage machine ,[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] ,Reinforcement Learning ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
In this Ph.D. thesis, we study sequential decision making (a.k.a Reinforcement Learning or RL) in artificial intelligence, focusing on the notion of *action* and *interactivity*. In reinforcement learning, an agent receives information from its environment and acts. The goal is to maximize a constraint called ``the reward''. Planning (Anticipating long-term consequences and higher rewards) and Exploration (How to gather as much information as possible in a minimal time) are central to this topic.The term ``Reinforcement Learning'' comes from psychology, and ever since, Artificial Intelligence and Cognitive Science have borrowed from each other. Cognitive study inspired early AI pioneers, and computers' modularity influenced cognitivism. Then, Embodied Cognition took over, putting interaction with the world at the center of mental developments. We study reinforcement learning with a similar stance, putting actions at the heart of this thesis. Actions define the interface between the agent and its environment. In robotic control, the actions are the motor's forces. In a video game, actions are the controller's button. We call those differents forms textit{action space}Firstly, we propose an action space taxonomy and analyze challenges posed by each type. For example "How reinforcement learning algorithm stands when dealing with thousands of action ?'' or "Is it easy to detect and ignore useless actions or generalize to unseen ones ?''We then study how we can modify current algorithms to take into account action knowledge. The first setting considered is safe RL, where an agent acts under safety constraints. We show that when the environment prevents the agent from doing specific actions, taking into account this signal is essential to learn faster.Secondly, we propose an exploration algorithm nudging the agent to interact as much as possible with the environment.The third part of the manuscript tackles action abstractions (sequences of interactions representing more general goals). For example, Natural Language can convey multiple sub-task by describing what the agent must accomplish. We propose an algorithm reducing sample complexity when dealing with a high number of instructions in natural language.The last chapter is more general and formalizes how we can turn supervised setup into interactive ones. By reframing a speaker recognition task into a multi-turn game, we can increase the sample efficiency and reduces the number of words needed.; Dans cette thèse de doctorat, nous étudions l'apprentissage séquentiel (dit ``par renforcement'') en intelligence artificielle, plus particulièrement les notions d'actions et d'interactivité. En apprentissage par renforcement, un agent reçoit des informations sur son environnement et agit en conséquence. Le but étant de maximiser une quantité appelée récompense. La planification (quelles sont les conséquences à long terme des actions effectuées et quelle quantité de récompenses peux-t-on en tirer) et l'exploration (comment récupérer un maximum d'informations en un minimum de temps) sont au coeur de cette discipline.L'intelligence artificielle et les sciences cognitives ont grandi de concert depuis les années 50. L'étude de la cognition a nourri les pionniers de l'intelligence artificielle et le courant cognitiviste s'inspirait de la modularité d'un ordinateur pour expliquer le fonctionnement du cerveau. Depuis, le courant cognitiviste a laissé place à la cognition incarnée. Au lieu de considérer l'intelligence comme un ensemble de fonctions abstraites, les représentations mentales sont construites et guidées par les interactions avec le monde.Nous souhaitons analyser les algorithmes d'apprentissage par renforcement avec ce même regard, en replaçant les intéractions au centre de notre analyse. Les actions définissent l'interface entre l'agent apprennant et l'environnement: Pour le contrôle d'un robot, les actions correspondent aux forces exercées par les moteurs. Dans un jeu vidéo, elles correspondent aux différents boutons que l'on peut presser. On appelle ces différentes formes d'actions possibles: espace d'actions.Dans un premier temps, nous proposons une taxonomie des différents espaces d'actions et les problèmes qu'ils posent. Par exemple : "Que se passe-t-il lorsqu'un agent doit choisir parmi plusieurs milliers d'actions ?'' ou "Comment ignorer des actions inutiles ou généraliser à des actions jamais vues ?''Dans un deuxième temps, nous montrons qu'en intégrant des connaissances sur les actions, on peut améliorer la vitesse d'apprentissage. La première application considérée est l'apprentissage robuste, dans lequel la sécurité est tout aussi importante que la performance. Lorsque l'environnement nous empêche de faire certaines actions par sécurité, la prise en compte de cette information permet d'apprendre plus vite.Le deuxième cas porte sur l'exploration dans un environnement contenant multitudes d'objets à utiliser pour résoudre des problèmes type labyrinthe. Nous montrerons que pousser un agent à chercher les actions clefs qui intéragissent avec les objets permet une meilleure exploration que les autres méthodes de l'état de l'art.La troisième partie de ce manuscrit porte sur l'apprentissage multi-but, c'est à dire apprendre une multitude de séquences d’actions, chacune accomplissant une tâche différente. Nous nous focalisons sur l'apprentissage d'instructions en langage naturel. Le langage simplifie la définition d'une multitude de sous-tâches en décrivant simplement ce que l'agent doit accomplir. Nous proposons un algorithme permettant de réduire la complexité d'apprentissage lorsqu'un grand nombre de buts doit être accomplis.Enfin, la dernière partie porte sur la transformation de tâche non-interactive (supervisée) en tâche interactive. Rendre l'agent actif dans son apprentissage permet d'élargir les possibilités de l'apprentissage supervisé en lui permettant de choisir lui-même les informations intéressantes. Nous montrons qu'en changeant la définition d'une tâche de reconnaissance de locuteur, on réduit le temps d'apprentissage et le nombre de mots nécessaire à la reconnaissance.
- Published
- 2021
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.