Back to Search Start Over

Desenvolupament i implementació d'una eina d'anotació multimodal

Authors :
Subirana Pérez, Adrià
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Fernández Durán, Pau
Royo Royo, Santiago
Source :
UPCommons. Portal del coneixement obert de la UPC, Universitat Politècnica de Catalunya (UPC)
Publication Year :
2022
Publisher :
Universitat Politècnica de Catalunya, 2022.

Abstract

Hi ha un consens generalitzat en veure el vehicle autònom com el futur de l'automoció, el qual està mobilitzant grans inversions a tot el món. Aquest vehicle autònom necessitarà múltiples tipus de sensors per orientar-se i tenir un bon enteniment del seu entorn. Aquests sensors hauran de ser redundants i compensar-se els diferents defectes que pugui tenir cada un per ser útils en totes les condicions. La percepció multimodal de l'entorn és doncs un camp en expansió. La percepció, però, requereix d'un procés llarg i feixuc com l'anotació de conjunts d'imatge per poder entrenar xarxes neuronals. L'anotació d'un dataset multimodal, doncs, multiplica la feina pel nombre de modes d'imatge a anotar. En aquest projecte s'ha desenvolupat una eina d'anotació multimodal que pretén fer més eficient la feina d'etiquetar dades d'entrenament per a un prototip que enregistra imatges RGB, tèrmiques i núvols de punts a la vegada. La principal funcionalitat es basa en transportar anotacions entre modes de manera que es puguin anotar les dades d'entrenament de cada mode juntes, però es guardin per separat que és com es necessiten per poder fer l'entrenament. Més enllà de la funcionalitat bàsica, al projecte s'incorporen altres funcionalitats per a la millora de l'eficiència i l'experiència de l'usuari, fent l'etiquetatge més fàcil de fer i revisar. S'ha programat una interfície d'usuari capaç d'anotar en tots els modes d'imatge, i de transportar les anotacions entre elles fent servir la calibració prèvia dels modes d'imatge. El treball presenta diferents avantatges com la possibilitat de transportar entre els modes que es desitgi, la visualització de la fusió dels modes 2D amb el mode 3D, la còpia d’anotacions entre instants, la reproducció del dataset per la visualització i revisió general, la possibilitat de carregar la configuració i els pesos d’una xarxa neuronal preentrenada per a poder fer pseudo-labeling, i s'ha testejat en datasets reals capturats en tots els modes d'imatge. There is a general consensus that the autonomous vehicle is the future of the automotive industry, which is mobilising huge investments around the world. This autonomous vehicle will need multiple types of sensors to orient itself and have a good understanding of its environment. These sensors will have to be redundant and mutually compensate for each other's different shortcomings in order to be useful in all conditions. Perception, however, requires a long and tedious process such as the annotation of image datasets in order to train neural networks. The annotation of a multimodal dataset then multiplies the task by the number of image modes to be labelled. In this project, a multimodal annotation tool has been developed to make the task of labelling datasets more efficient for a prototype that records RGB, thermal and point cloud images at the same time. The main functionality is based on transporting labels between modes so that training data from each mode can be labelled together but stored separately as needed for training purposes. In addition to the basic functionality, the project incorporates other functionalities to improve efficiency and user experience, making tagging easier to do and review. A user interface has been programmed that is able to annotate in all image modes (3D, RGB and thermal), and to transport the annotations between them by making use of the pre-calibration of the image modes. The work presents different advantages such as the possibility of transporting labels between the desired modes, the visualisation of the fusion of the 2D modes with the 3D mode, the copy of labels between instants, the reproduction of the dataset for visualisation and general revision, the possibility of loading the configuration and weights of a pre-trained neural network in order to perform pseudo-labeling, and it has been tested on real datasets captured in all the image modes.

Details

Language :
Catalan; Valencian
Database :
OpenAIRE
Journal :
UPCommons. Portal del coneixement obert de la UPC, Universitat Politècnica de Catalunya (UPC)
Accession number :
edsair.dedup.wf.001..c4d91e2eb7e5d364ac8931564cf20639