Back to Search Start Over

Descripción de imágenes utilizando modelos pre-entrenados GPT-2

Authors :
García Gilabert, Javier
Source :
RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia, instname
Publication Year :
2022
Publisher :
Universitat Politècnica de València, 2022.

Abstract

[EN] The objective of Image captioning is to describe the content of an image in natural language. Due to the success of various deep learning architectures, this challenge that combines picture and language processing has aroused a lot of attention in recent years. The key goal for this end grade project is to create more accurate neural machine models for image captioning. Several neural network-based models are built based on the CLIP neural network, which offers similar embeddings given an image and a descriptive caption. This, in conjunction with GPT-2, a pre-trained language model, is used to propose various deep learning designs. The MSCOCO dataset, which consists of complex everyday scenes with natural language descriptions, will be used to compare different architectures.<br />[ES] El objetivo de la descripción de imágenes es generar el contenido de una imagen en lenguaje natural. Debido al éxito de varias arquitecturas de aprendizaje profundo, este desafío que combina el procesamiento de imágenes y lenguaje ha despertado mucha atención en los últimos años. El objetivo clave de este proyecto de grado es crear modelos de máquinas neuronales más precisos para los subtítulos de imágenes. Se pueden construir varios modelos basados en redes neuronales sobre la base de la red neuronal CLIP, que ofrece similares representaciones vectoriales de una imagen y su descripción. Esto, junto con GPT-2, un modelo de lenguaje pre-entrenado, se utiliza para varias aplicaciones de aprendizaje profundo. Se utilizará el conjunto de datos de MSCOCO, que consta de escenas cotidianas complejas con descripciones en lenguaje natural, para comparar diferentes arquitecturas.<br />[CA] L’objectiu del subtitulat d’imatges és descriure el contingut d’una imatge en llenguatge natural. A causa de l’èxit de diverses arquitectures d’aprenentatge profund, aquest repte que combina el processament d’imatges i el llenguatge ha despertat molta atenció en els darrers anys. L’objectiu principal d’aquest projecte de fi de grau és crear models basats en xarxes neuronals més precisos per subtitular imatges. S’han desenvolupat diversos models basats en xarxes neuronals a partir de la xarxa neuronal CLIP, que ofereix representacions similars atesa una imatge i la seva descripció. Això, juntament amb GPT-2, un model de llenguatge, s’utilitza per proposar diversos dissenys de xarxes neuronals. El conjunt de dades MSCOCO, que consisteix en escenes quotidianes complexes amb descripcions en llenguatge natural, es farà servir per comparar diferents arquitectures.

Details

Language :
English
Database :
OpenAIRE
Journal :
RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia, instname
Accession number :
edsair.dedup.wf.001..42eec0643d388e7a12e6ea47a1aa32cd