La informació geomètrica 3D és essencial per percebre l’entorn des d’un vehicle autònom (VA) o assistit. Per això, estan equipats amb sensors calibrats. Podem trobar sensors LiDAR que proporcionen aquesta informació 3D, encara que són relativament costosos. Depenent de les condicions operatives del VA, els sistemes estereoscòpics també poden ser suficients per obtenir informació 3D, i són sistemes més barats i fàcils d’instal·lar. Tot i així, assegurar un correcte manteniment i calibratge d’aquest tipus de sensors no és trivial. En conseqüència, hi ha un interès creixent a fer una estimació monocular de la profunditat (EMP) per obtenir informació 3D. L’EMP permet que l’aparença visual i el 3D es corresponguin a nivell de píxel sense un calibratge addicional. Un conjunt de càmeres individuals amb capacitat d’EMP seria una solució barata per a la percepció des d’un VA, relativament fàcil d’integrar i mantenir. Els millors models EMP es basen en xarxes neuronals convolucionals entrenades de manera supervisada. En conseqüència, l’objectiu general d’aquesta tesi doctoral és estudiar mètodes per millorar la precisió d’aquests models en diferents circumstàncies pràctiques que trobem en l’entrenament. Més concretament, aquesta tesi aborda les diferents qüestions que es descriuen a continuació. A l’inici d’aquesta tesi, una línia de treball prometedora per entrenar models d’EMP consistia a utilitzar la supervisió semàntica basada en imatges i la supervisió de profunditat basada en LiDAR. Se suposava que les mateixes dades d’entrenament tenien tots dos tipus de supervisió associada, és a dir, meta-informació de profunditat i semàntica. No obstant això, a la pràctica, era més comú trobar conjunts de dades amb només supervisió de profunditat o només semàntica. Per tant, el nostre primer treball va ser investigar si podíem entrenar models d’EMP aprofitant informació de profunditat i semàntica provinent de conjunts de dades diferents i heterogenis. Demostrem que això és possible, i superem els resultats d’avantguarda a l’EMP d’aquell moment. Per això, vam proposar un nou protocol d’entrenament per als models EMP. Aquesta investigació també va deixar clar que la supervisió basada en LiDAR és la que dóna lloc a models més precisos d’EMP. Tot i això, seria més barat i escalable si poguéssim entrenar aquests models a partir de seqüències monoculars. Això és molt més complex ja que requereix utilitzar els principis que permeten inferir estructura a partir del moviment (SfM en anglès), generant així auto-supervisió. No obstant això, molts problemes pràctics disminueixen la utilitat d’aquest tipus d’auto-supervisió. Per alleujar aquests problemes entrenem models d’EMP mitjançant la supervisió d’imatges virtuals amb informació de profunditat associada i auto-supervisió via SfM de seqüències monoculars reals. Anomenem la nostra proposta com MonoDEVSNet . MonoDEVSNet va superar la precisió d’altres models d’avantguarda també entrenats en seqüències monoculars i, fins i tot, estèreo. Finalment, atès que l’EMP s’aplica per obtenir 3D que serà utilitzat en tasques posteriors de percepció, també abordem la qüestió de si les mètriques estàndard per a l’avaluació de models EMP són realment un bon indicador per a aquestes tasques futures. Utilitzant la detecció d’objectes en núvols de punts 3D com a exemple de percepció, arribem a la conclusió que, de fet, les mètriques d’avaluació d’EMP donen lloc a una classificació de mètodes que reflecteix relativament els resultats esperables en detecció 3D d’objectes. La información geométrica 3D es esencial para percibir el entorno desde un vehículo autónomo (VA) o asistido. Para ello, están equipados con sensores calibrados. Podemos encontrar sensores LiDAR que proporcionan esa información 3D, aunque son relativamente costosos. Dependiendo de las condiciones operativas del VA, los sistemas estereoscópicos también pueden ser suficientes para obtener información 3D, siendo sistemas más baratos y fáciles de instalar. Sin embargo, asegurar un correcto mantenimiento y calibración de este tipo de sensores no es trivial. En consecuencia, existe un interés creciente en realizar una estimación monocular de la profundidad (EMP) para obtener información 3D. La EMP permite que la apariencia visual y el 3D se correspondan a nivel de píxel sin una calibración adicional. Un conjunto de cámaras individuales con capacidad de EMP sería una solución barata para la percepción desde un VA, relativamente fácil de integrar y mantener. Los mejores modelos de EMP se basan en redes neuronales convolucionales entrenadas de manera supervisada. En consecuencia, el objetivo general de esta tesis doctoral es estudiar métodos para mejorar la precisión de esos modelos en diferentes circunstancias prácticas que encontramos al realizar su entrenamiento. Más concretamente, esta tesis aborda las diferentes cuestiones que se describen a continuación. Al inicio de esta tesis, una línea de trabajo prometedora para entrenar modelos de EMP consistía en utilizar la supervisión semántica basada en imágenes y supervisión de profundidad basada en LiDAR. Se suponía que los mismos datos de entrenamiento tenían ambos tipos de supervisión asociada, es decir, metainformación de profundidad y semántica. Sin embargo, en la práctica, era más común encontrar conjuntos de datos con solo supervisión de profundidad o solo semántica. Por lo tanto, nuestro primer trabajo fue investigar si podíamos entrenar modelos de EMP aprovechando información de profundidad y semántica proveniente de conjuntos de datos distintos y heterogéneos. Demostramos que esto es posible, y superamos los resultados de vanguardia en EMP de aquel momento. Para ello, propusimos un nuevo protocolo de entrenamiento para los modelos EMP. Esta investigación también dejó claro que la supervisión basada en LiDAR es la que da lugar a modelos de EMP más precisos. Sin embargo, sería más barato y escalable si pudiéramos entrenar esos modelos a partir de secuencias monoculares. Esto es mucho más complejo ya que requiere utilizar los principios que permiten inferir estructura a partir del movimiento (SfM en inglés), generando así autosupervisión. Sin embargo, numerosos problemas prácticos disminuyen la utilidad de este tipo de autosupervisión. Para aliviar estos problemas, entrenamos modelos de EMP mediante supervisión de imágenes virtuales con información de profundidad asociada y autosupervisión vía SfM de secuencias monoculares reales. A nuestra propuesta la llamamos MonoDEVSNet . MonoDEVSNet superó la precisión de otros modelos de vanguardia también entrenados en secuencias monoculares e incluso estéreo. Finalmente, dado que la EMP se aplica para obtener 3D que será utilizado en tareas posteriores de percepción, también abordamos la cuestión de si las métricas estándar para la evaluación de modelos EMP son realmente un buen indicador para esas futuras tareas. Utilizando la detección de objetos en nubes de puntos 3D como ejemplo de percepción, llegamos a la conclusión de que, de hecho, las métricas de evaluación EMP dan lugar a una clasificación de métodos que refleja relativamente bien los resultados esperables en detección 3D de objetos. 3D geometric information is essential for on-board perception in autonomous driving and driver assistance. Autonomous vehicles (AVs) are equipped with calibrated sensor suites. As part of these suites, we can find LiDARs, which are expensive active sensors in charge of providing the 3D geometric information. Depending on the operational conditions for the AV, calibrated stereo rigs may be also sufficient for obtaining 3D geometric information, being these rigs less expensive and easier to install than LiDARs. However, ensuring a proper maintenance and calibration of these types of sensors is not trivial. Accordingly, there is an increasing interest on performing monocular depth estimation (MDE) to obtain 3D geometric information on-board. MDE is very appealing since it allows for appearance and depth being on direct pixelwise correspondence without further calibration. Moreover, a set of single cameras with MDE capabilities would still be a cheap solution for on-board perception, relatively easy to integrate and maintain in an AV. Best MDE models are based on Convolutional Neural Networks (CNNs) trained in a supervised manner, i.e., assuming pixelwise ground truth (GT). Accordingly, the overall goal of this PhD is to study methods for improving CNN-based MDE accuracy under different training settings. More specifically, this PhD addresses different research questions that are described below. When we started to work in this PhD, state-of-the-art methods for MDE were already based on CNNs. In fact, a promising line of work consisted in using image-based semantic supervision (i.e., pixel-level class labels) while training CNNs for MDE using LiDAR-based supervision (i.e., depth). It was common practice to assume that the same raw training data are complemented by both types of supervision, i.e., with depth and semantic labels. However, in practice, it was more common to find heterogeneous datasets with either only depth supervision or only semantic supervision. Therefore, our first work was to research if we could train CNNs for MDE by leveraging depth and semantic information from heterogeneous datasets. We show that this is indeed possible, and we surpassed the state-of-the-art results on MDE at the time we did this research. To achieve our results, we proposed a particular CNN architecture and a new training protocol. After this research, it was clear that the upper-bound setting to train CNN-based MDE models consists in using LiDAR data as supervision. However, in would be cheaper and more scalable if we would be able to train such models from monocular sequences. Obviously, this is far more challenging, but worth to research. Training MDE models using monocular sequences is possible by relying on structure-from-motion (SfM) principles to generate self-supervision. Nevertheless, problems of camouflaged objects, visibility changes, static-camera intervals, textureless areas, and scale ambiguity, diminish the usefulness of such self-supervision. To alleviate these problems, we perform MDE by virtual-world supervision and real-world SfM self-supervision. We call our proposal MonoDEVSNet. We compensate the SfM self-supervision limitations by leveraging virtual-world images with accurate semantic and depth supervision, as well as addressing the virtual-to-real domain gap. MonoDEVSNet outperformed previous MDE CNNs trained on monocular and even stereo sequences. We have publicly released MonoDEVSNet at . Finally, since MDE is performed to produce 3D information for being used in downstream tasks related to on-board perception. We also address the question of whether the standard metrics for MDE assessment are a good indicator for future MDE-based driving-related perception tasks. By using 3D object detection on point clouds as proxy of on-board perception, we conclude that, indeed, MDE evaluation metrics give rise to a ranking of methods which reflects relatively well the 3D object detection results we may expect. Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica