1. 3D Visual Task and Motion Planning
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Carnegie Mellon University, Held, David, Rodríguez-Izquierdo Gallardo, Ángela, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Carnegie Mellon University, Held, David, and Rodríguez-Izquierdo Gallardo, Ángela
- Abstract
Les tasques de manipulació robòtica en entorns humans plantejen reptes que exigeixen capacitat de planificació. Mètodes tradicionals, basats en representacions simbòliques, assumeixen una descripció minuciosa de la tasca i l’entorn. Altres enfocaments més nous com l’aprenentatge per imitació i els Large Language Models (LLMs), tenen altres limitacions com la necessitat d’un gran volum de dades per poder escalar. En aquesta tesi, proposem un enfocament que combina les forces de l’aprenentatge a partir de demostracions i la capacitat de raonar en l’espai 3D. El nostre enfocament aprofita els autoencoders variacionals espacialment fonamentats per aprendre l’estructura lògica de les tasques i les precondicions de l’escena a partir de demostracions en 3D. Al generar múltiples opcions de col·locació i emprar planificació de moviment en l’espai de núvols de punts, garantim la viabilitat i adaptabilitat de les accions suggerides. A més, el nostre mètode incorpora l’algoritme A* per a una recerca eficient sobre les accions suggerides, millorant la precisió i robustesa de la planificació. Els nostres resultats experimentals demostren l’eficàcia del nostre enfocament, mostrant la seva capacitat per generalitzar de manera efectiva a diferents configuracions en tasques complexes de manipulació robòtica. En general, el nostre treball contribueix a avançar en l’estat de l’art en la planificació de tasques i moviments per a la manipulació robòtica en entorns del món real., La tareas de manipulación robótica en entornos humanos plantean desafíos que exigen capacidad de planificación. Métodos tradicionales, basados en representaciones simbólicas asumen una descripción minuciosa de la tarea y el entorno. Otros enfoques más nuevos como el aprendizaje por imitación y los Large Language Models (LLMs), tienen otras limitaciones como la necesidad de un gran volumen de datos para poder escalar. En esta tesis, proponemos un enfoque que combina las fortalezas de el aprendizaje a partir de demostraciones y la capacidad de razonar en el espacio 3D. Nuestro enfoque utiliza autoencoders variacionales fundamentados en 3D para aprender la estructura lógica de las tareas y las precondiciones de la escena a partir de demostraciones en 3D. Al generar múltiples opciones de colocación y emplear planificación de movimiento en el espacio de nubes de puntos, garantizamos la viabilidad y adaptabilidad de las acciones sugeridas. Además, nuestro método incorpora el algoritmo A* para una búsqueda eficiente sobre las acciones sugeridas, mejorando la precisión y robustez de la planificación. Nuestros resultados experimentales demuestran la eficacia de nuestro enfoque, mostrando su capacidad para generalizar de manera efectiva a diferentes configuraciones en tareas complejas de manipulación robótica. En general, nuestro trabajo contribuye a avanzar en el estado del arte en la planificación de tareas y movimientos para la manipulación robótica en entornos del mundo real., Robotic manipulation in real-world human environments poses challenges that demand sophisticated planning capabilities. Traditional methods, relying on symbolic representations, are constrained by the assumption of complete scene knowledge. On the other hand, newer approaches like imitation learning and large language models (LLMs) have limitations regarding a limited understanding of the space and the need for large datasets for training. In this thesis, we propose a novel approach that combines the strengths of 3D geometric reasoning and learning from demonstrations. Our approach leverages spatially grounded variational autoencoders to learn the logical structure of tasks and scene preconditions from 3D demonstrations. By generating multiple placement options and employing motion planning in point cloud space, we ensure the feasibility and adaptability of suggested actions. Furthermore, our method incorporates the A* algorithm for efficient search over the suggested actions, enhancing planning accuracy and robustness. Our experimental results demonstrate the efficacy of our approach, showcasing its ability to generalize effectively and achieve high success rates in complex robotic manipulation tasks. Overall, our work advances the state-of-the-art in task and motion planning for robotic manipulation in real-world environments., Outgoing
- Published
- 2024