Este trabajo de fin de máster presenta un análisis exhaustivo y minucioso del estado del arte actual en la generación de descripciones de images, comúmente denominado subtitulado de imágenes naturales (Natural Image Captioning (NIC)), con especial atención al subtitulado de imágenes médicas (Medical Image Captioning (MIC)), específicamente en la generación automática de informes radiológicos. El trabajo revisa de forma intensiva la literatura existente los métodos que se utilizan en Natural Image Captioning (NIC) y Medical Image Captioning (MIC), con especial atención a estudiar los métodos de NIC que sirven de base para los de MIC. Además, en este trabajo se identifican los avances en ambos campos, discutiendo los retos y limitaciones, y explorando potenciales direcciones de investigación. La tesis subraya la importancia del subtitulado de imágenes, que combina los métodos de visión por computador (Computer Vision (CV)) y procesamiento de lenguaje natural (Natural Language Processing (NLP)) para generar descripciones de imágenes significativas y legibles para los humanos. Además, destaca el potencial de la inteligencia artificial (Artificial Intelligence (AI)) en medicina, en particular en el campo de la radiología, y su capacidad para influir en la atención sanitaria mediante la generación automática de informes, promoviendo la precisión, la fiabilidad, la repetibilidad y la comunicación eficaz entre los profesionales sanitarios. La tesis explora las cuestiones fundamentales que se abordan en el subtitulado de imágenes y los diversos métodos desarrollados en el campo de la MIC, incluidos los enfoques basados en la recuperación, en plantillas, en redes neuronales profundas, en la atención y en los híbridos. Además, este trabajo identifica a los métodos de localización de enfermedades para la generación de informes como un área crítica de investigación en este campo, donde los modelos destinados a la práctica clínica deberían tender a converger. Estos enfoques proporcionan una alternativa más explicable e interpretable a la naturaleza común de caja negra (black-box) de los métodos de aprendizaje profundo (Deep Learning (DL)). De hecho, estudios recientes sugieren que los nuevos modelos de este campo deberían ser capaces de emparejar informes de texto con visualizaciones interactivas y considerar el historial del paciente, mejorando aún más el objetivo de la AI en medicina: proveer de atención personalizada a cada paciente. A través de una metodología propuesta, la tesis realiza una revisión del estado del arte en los métodos empleados en NIC y MIC, enumerando y describiendo los conjuntos de datos disponibles para MIC, así como analizando los métodos de evaluación existentes para comparar los modelos desarrollados de NIC y MIC. Las publicaciones encontradas se analizan y discuten en profundidad, resaltando las limitaciones y posibles implicaciones en la práctica clínica real. La tesis concluye identificando futuras direcciones de investigación, como la integración de la comprensión temporal de las imágenes, la interpretación de varias modalidades radiológicas y la integración de la información del historial del paciente en el proceso de aprendizaje del modelo. También se hace hincapié en la necesidad de disponer de conjuntos de datos diversos, multimodales, multicentros y representativos para mejorar la calidad de los informes generados y estar más cerca de lograr una inteligencia artificial médica general (General Medical Artificial Intelligence (GMAI)). En general, esta tesis contribuye a la comprensión de las aplicaciones en el campo de la radiología, específicamente en la generación automática de informes. Se revisa a fondo la literatura para proporcionar una visión de las relaciones, los avances, desafíos y mejoras potenciales, en NIC y MIC. ABSTRACT This Master’s thesis presents a comprehensive analysis of the current state of the art in Natural Image Captioning (NIC), with a special focus on Medical Image Captioning (MIC) and its application in automatic radiology report generation. The work reviews existing literature for NIC and MIC methods, exhaustively studying NIC methods that serve as foundations for MIC, identifying advancements in both fields, discussing challenges and limitations, and exploring potential research directions. The thesis highlights the importance of image captioning, which combines Computer Vision (CV) and Natural Language Processing (NLP) to generate meaningful and human-readable descriptions of images. It emphasizes the potential of Artificial Intelligence (AI) in medicine, particularly in the field of radiology, and its ability to impact healthcare through automated report generation, promoting accuracy, reliability, repeatability, and effective communication among healthcare professionals. The thesis explores the fundamental questions addressed in image captioning and the various methods developed in the field of MIC, including retrieval-based, template based, neural network-based, attention-based, and hybrid approaches. Additionally, this thesis identifies disease localization methods for report generation as a critical area, where models intended for clinical practice should tend to converge. These approaches provide a more explainable and interpretable alternative to the common black-box nature of Deep Learning (DL) methods. In fact, recent studies suggest that novel models in the field should be able to pair text reports with interactive visualizations and consider the patient’s history, further enhancing the patient-centric objective of AI in medicine. Through a proposed methodology, the thesis conducts a state-of-the-art review in NIC and MIC, enumerating and describing available datasets for MIC as well as analyzing existing evaluation methods to compare NIC and MIC developed models. The publications found are thoroughly analyzed and discussed, highlighting limitations and potential implications in real clinical practice. The thesis concludes by identifying future research directions, such as the integration of temporal understanding of images, the interpretation of various radiology modalities, and the integration of patient history information in the model’s learning process. The need for diverse, multi-modal, multi-centric, and representative datasets is also emphasized to enhance the quality of generated reports and be closer on achieving a General Medical Artificial Intelligence (GMAI). Overall, this thesis contributes to the understanding of AI applications in the radiology field, specifically in automated report generation. It thoroughly reviews the literature to provide insights into the advancements, challenges, and potential improvements, in NIC and MIC.