Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Casas Pla, Josep Ramon, Royo Royo, Santiago, Lorente Corominas, Oscar, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Casas Pla, Josep Ramon, Royo Royo, Santiago, and Lorente Corominas, Oscar
Pedestrian detection algorithms have always revolved around RGB scene information, but relying solely on it can be dangerous in situations where conventional cameras don't capture reality properly. For this reason, in recent years, many researchers have studied other alternatives that complement these existing techniques, such as the use of ultrasonic sensors or radars, that provide more reliable information in those situations. Another approach is to use LIDAR sensors, which map reality into point clouds using pulses of light. However, there are few studies that propose pedestrian detection techniques using only the data provided by a LIDAR. In this thesis, we explore this approach through the design and implementation of a pedestrian detection system in 3D point clouds. To do so, we train the PointNet++ point cloud classification network in order to demonstrate that the 3D geometric information of a scene is essential for the neural network to learn properly. Specifically, to carry out supervised training we need to generate a pedestrian and non-pedestrian ground truth in point clouds, so we have designed a semi-automatic labeling system based on the detection in RGB images and the subsequent transfer of these labels to the 3D domain. As a result, we train PointNet++ and test its performance on an outdoor dataset, obtaining outstanding results of up to 99.4% of accuracy and 98.6% of recall. With these results we are firmly corroborating the hypothesis stated in the thesis that 3D geometric information is essential for a neural network to learn to detect pedestrians in outdoor scenes. Not only that, we also surpass the results provided by a conventional detector in RGB images: YOLO, which provides a 48% of recall in the same dataset, thus proving that geometric information should not be an alternative in these systems, but a must., Los algoritmos de detección de peatones basan sus principios en la información RGB de las escenas, lo que los convierte en sistemas poco fiables en condiciones atmosféricas desfavorables. Por este motivo, durante los últimos años se han estudiado alternativas que complementen este tipo de datos, desde el uso de sensores ultrasónicos y radares hasta los sensores LIDAR, que emiten pulsos de luz para mapear el entorno en forma de nubes de puntos tridimensionales. Algunos investigadores optan por combinar la información RGB proporcionada por las cámaras convencionales con la información geométrica que proporciona un LIDAR, pero hay muy pocos enfoques en que se explore únicamente la importancia de la información geométrica. Por este motivo, en esta tesis se presenta un sistema para detectar peatones en nubes de puntos 3D usando PointNet++ como clasificador en datasets de exteriores, con el objetivo de demostrar la relevancia que la información geométrica tiene en la percepción del entorno. Con tales fines, se diseña un sistema de etiquetaje en nubes de puntos semiautomático basado en la detección de peatones y no peatones en imágenes RGB y en la posterior transferencia de estas etiquetas al dominio 3D. Una vez generado este groundtruth de peatones y no peatones en nubes de puntos, lo usamos para entrenar a PointNet++, obteniendo unos resultados excelentes. La red neuronal proporciona una precisión y un recall de 99.4% y 98.6%, respectivamente, muy por encima del 48% de recall proporcionado por YOLO, un detector en imágenes RGB convencional, con los mismos datasets. De este modo, en esta tesis se prueba rotundamente que la información geométrica es un elemento esencial para comprender los elementos que nos rodean., L'exploració en el camp de la detecció de vianants en imatges RGB és un àmbit molt treballat desde fa anys, però dependre únicament de la informació fotomètrica d'una escena pot ser perillós en algunes situacions. Per aquest motiu, cada cop hi ha més interès en la detecció basada en altres tipus de dades: sensors ultrasònics, radars o els LIDAR, un tipus de sensor que fa un mapeig de la realitat en forma de núvols de punts mitjançant polsos de llum. La informació geomètrica que proporciona un núvol de punts pot ser molt útil en situacions on les imatges no són prou fiables (foscor, mal temps), i és per això que en aquesta tesi es presenta un sistema de detecció de vianants en núvols de punts 3D. Per demostrar la importància de la informació geomètrica a l'hora d'entendre el nostre entorn, es proposa entrenar PointNet++, una xarxa de classificació en núvols de punts, per tal de verificar la capacitat d'aquesta xarxa d'aprendre a diferenciar persones en datasets d'exteriors únicament a partir de la informació geomètrica. Amb aquest propòsit, es dissenya un sistema per generar un ground truth de vianants i no vianants a núvols de punts, mitjançant un etiquetatge semiautomàtic basat en la detecció en imatges RGB i la transferència d'aquestes deteccions als núvols de punts corresponents. D'aquesta manera, podem utilitzar un dataset lo suficientment extens i variat com perquè PointNet++ pugui aprendre d'ell. Un cop entrenada, la xarxa neuronal proporciona uns resultats excel·lents, arribant a una precisió i recall de fins a 99.4% i 98.6%, respectivament. Aquests valors superen totalment les deteccions de YOLO, un detector en imatges RGB convencional, provant així la hipòtesi definida a la tesi que la informació geomètrica és un element imprescindible per a reconèixer el nostre entorn.