Back to Search
Start Over
Generació automàtica de diàlegs de còmic
- Source :
- Dipòsit Digital de Documents de la UAB, Universitat Autònoma de Barcelona
- Publication Year :
- 2022
-
Abstract
- En els últims anys, els models de generació de llenguatge han estat millorant a un ritme accelerat. Aquestes millores han arribat també als models multimodals que treballen amb text i imatges, amb els quals se solen dur a terme tasques de descriure imatges o respondre preguntes sobre elles. En aquest projecte, però, s'han fet servir models d'aquest tipus amb l'objectiu últim de generar diàlegs de còmic. Per a aconseguir-ho, s'ha fet servir la base de dades proporcionada a COMICS. Primer s'ha plantejat la tasca de predir el següent diàleg d'entre un conjunt de candidats (Text cloze) donat un context de 3 panells i avaluar l'eficàcia d'aquests models comparant-los amb els resultats assolits a COMICS. Llavors, s'ha entrenat el millor d'aquests models per a la generació de diàlegs. Els resultats quantitatius mostren que els models de Text cloze superen al model hi-LSTM de COMICS. A més, es proposa un model generatiu en aquesta tasca el qual és capaç de generar següents diàlegs amb una adequació al context limitada, tot i obtenir uns valors baixos a les mètriques i contenir errors induïts per la qualitat de la base de dades. Recently, language generation models have improved at an accelerated pace. Along with them, multimodal models that work with text and images have also improved. These models are usually used to perform tasks such as image captioning or visual question answering. However, in this project, we are using these models to generate comic dialogues. To do this, we used the dataset provided in COMICS. First, we proposed predicting the following dialogue from a set of candidates given the 3 previous panels as a context (Text cloze) as the first task and evaluating the effectiveness of these models by comparing them with the results achieved in COMICS. Then, we trained another based on the previous one for generating dialogues. The quantitative results show that the Text cloze models outperform the hi-LSTM model used in COMICS. In addition, we propose a generative model in this task, which is able to generate subsequent dialogues that fit the context to a certain extent, despite obtaining low values in the metrics and containing errors induced by the quality of the text transcriptions. En los últimos años, los modelos de generación de lenguaje han mejorado a un ritmo acelerado. Estas mejoras han llegado también a los modelos multimodales que trabajan con texto e imágenes, con los que suelen llevarse a cabo tareas de describir imágenes o responder a preguntas sobre ellas. Sin embargo, en este proyecto se han utilizado modelos de este tipo con el objetivo último de generar diálogos de cómic. Para ello, se ha utilizado la base de datos proporcionada en COMICS. Primero se ha planteado la tarea de predecir el siguiente diálogo a partir de un conjunto de candidatos (Text cloze) dado un contexto de 3 paneles y evaluar la eficacia de estos modelos comparándolos con los resultados alcanzados en COMICS. Entonces, se ha entrenado el mejor de estos modelos para la generación de diálogos. Los resultados cuantitativos muestran que los modelos de Text cloze superan al modelo hi-LSTM de COMICS. Además, se propone un modelo generativo en esta tarea que es capaz de generar siguientes diálogos con una adecuación al contexto limitada, a pesar de obtener unos valores bajos en las métricas y contener errores inducidos por la calidad de la base de datos.
Details
- Language :
- Catalan; Valencian
- Database :
- OpenAIRE
- Journal :
- Dipòsit Digital de Documents de la UAB, Universitat Autònoma de Barcelona
- Accession number :
- edsair.dedup.wf.001..f5f7e30e5455c4e41fd5c039e7569eb5