Back to Search Start Over

Letting robots learn continuously in the real world through self-supervised policies and human-in-the-loop guided exploration

Authors :
Universitat Politècnica de Catalunya. Departament de Matemàtiques
University of Washington
Gupta, Abhishek
Alberich Carramiñana, Maria
Balsells i Pamies, Max
Universitat Politècnica de Catalunya. Departament de Matemàtiques
University of Washington
Gupta, Abhishek
Alberich Carramiñana, Maria
Balsells i Pamies, Max
Publication Year :
2023

Abstract

Els mètodes tradicionals que intenten resoldre tasques a la vida real amb robots mitjançant l'ús de la IA, tenen molts inconvenients. L'aprenentatge per imitació dona bons resultats a l'hora de resoldre tasques molt específiques, però necessita una gran quantitat de demostracions d'experts per poder superar el problema de propagació d'errors. Els mètodes centrats en l'aprenentatge per reforç també presenten un problema fonamental, necessiten una funció de recompensa curosament dissenyada, que pot ser arbitràriament complicada d'especificar, en especial quan tractem amb imatges, i ha de ser densa per a poder resoldre les tasques més complicades. En aquest treball, explorem com els robots poden aprendre en el món real mitjançant aprenentatge autosupervisat a través d'un procés d'anotacions retrospectives. En particular, per aconseguir-ho utilitzem opinions humanes en forma de comparacions binàries, per tal de guiar l'exploració. Aquest tipus d'anotacions es poden recollir asíncronament i de manera molt escalable mitjançant el crowdsourcing. També ensenyem com el nostre mètode és robust als errors en les anotacions i com en necessita molt menys que altres algoritmes. Finalment, ensenyem com podem modificar el nostre mètode perquè pugui ser executat contínuament, sense reinicis. En aquest estudi mostrem com el nostre algoritme supera a altres mètodes clàssics i com pot ser aplicat en el món real.<br />Los métodos tradicionales que tratan de resolver tareas en el mundo real con robots entrenados mediante IA, tienen muchos inconvenientes. El aprendizaje por imitación da buenos resultados a la hora de resolver tareas muy específicas, pero necesita gran cantidad de demostraciones de expertos para poder lidiar con la propagación de errores. Enfoques basados en aprendizaje por refuerzo también presentan un problema fundamental, necesitan una función de recompensa cuidadosamente diseñada, la cual es específica a una tarea en concreto, puede ser arbitrariamente difícil de especificar, especialmente cuando trabajamos con imágenes, y necesita ser densa para permitir resolver las tareas más complicadas. En este trabajo, exploramos como los robots pueden aprender en el mundo real usando aprendizaje autosupervisado a través de un proceso de anotaciones retrospectivas. En particular, para lograrlo usamos opiniones humanas, en forma de comparaciones binarias, para guiar la exploración. Este tipo de anotaciones se pueden recoger asíncronamente y de manera muy escalable usando crowdsourcing. También mostramos como nuestro método es robusto a los errores en las anotaciones y como necesita mucha menos supervisión humana que otros algoritmos. Finalmente, mostramos cómo podemos modificar nuestro algoritmo para que pueda ser ejecutado continuamente, sin reseteos. En este estudio, mostramos como nuestro algoritmo supera a otros métodos clásicos y como puede ser aplicado en la vida real.<br />Traditional methods that aim to solve tasks involving robots in the real world leveraging AI, suffer from many drawbacks: Behaviour Cloning shows great results at solving specific tasks, but it requires a considerably large amount of expert demonstrations to deal with compounding errors. Approaches based on Reinforcement Learning also present a fundamental problem, namely reward shaping, which is task-specific, can be non-trivial to specify, especially when dealing with images, and needs to be dense in order to allow us to solve hard tasks. In this work, we explore how robots can learn in the real world by using self-supervised learning via hindsight relabeling. In particular, to do so, we leverage human feedback, in the form of binary comparisons, to guide exploration. This type of feedback can be collected asynchronously and is easily scalable via crowd-sourcing. We also show that our method is robust to noisy labels and requires less feedback than other algorithms. Finally, we show how we can adapt our algorithm to make it run continuously without resets. In this work, we show how our algorithm outperforms all baselines in some simulation benchmarks and how it can also be used in the real world.<br />Outgoing

Details

Database :
OAIster
Notes :
application/pdf, English
Publication Type :
Electronic Resource
Accession number :
edsoai.on1409474190
Document Type :
Electronic Resource