Back to Search
Start Over
Creación de un corpus de artículos de prensa y generación automática de resúmenes
- Source :
- RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia, instname
- Publication Year :
- 2019
- Publisher :
- Universitat Politècnica de València, 2019.
-
Abstract
- [ES] La generación automática de resúmenes es un campo muy atractivo y vigente dentro del área del procesamiento del lenguaje natural. Por esta razón, en este trabajo, se han decidido analizar y comparar distintas técnicas para la generación automática de resúmenes tanto basadas en redes neuronales como basadas en algoritmos clásicos. Para la evaluación de estas técnicas, se utilizan métricas sintácticas usadas en la mayoría de estudios de este campo y métricas semánticas propuestas en este mismo trabajo. Mediante este estudio, se podrán observar las diferencias que existen entre las dos evaluaciones comentadas anteriormente y la mejora que aporta la medida semántica propuesta. Para la utilización de aproximaciones de resumen basadas en redes neuronales y para la evaluación de todos los sistemas, se requiere un corpus de documentos y resúmenes. Por este motivo, mediante un proceso de crawling, se ha elaborado un corpus de noticias que provienen de distintos sitios web de prensa digital y para los idiomas de castellano y catalán. Finalmente, el trabajo contiene un extenso análisis de los resultados experimentales obtenidos en los corpus. En este, se podrán observar las diferencias que existen entre las noticias que contienen ambos corpus utilizando para ello distintas medidas. Además, se compararán los corpus generados con otros corpus que forman parte del estado del arte.<br />[CA] La generació automàtica de resums és un camp molt atractiu i vigent dins de l’àrea del processament del llenguatge natural. Per aquesta raó, en aquest treball, s’ha decidit analitzar i comparar distintes tècniques per a la generació automàtica de resums, tant basades en xarxes neuronals com basades en algoritmes clàssics. Per a l’avaluació d’aquestes tècniques es fan servir mètriques sintàctiques utilitzades en la major part d’estudis d’aquest camp i mètriques semàntiques propostes en aquest treball. Mitjançant aquest estudi, es podran observar les diferències que existeixen entre les dues avaluacions comentades anteriorment i la millora que aporta la mesura semàntica proposta. Per a l’ús d’aproximacions de resum basades en xarxes neuronals i per a l’avaluació de tots els sistemes, es requereix un corpus de documents i resums. Per aquest motiu, mitjançant un procés de crawling, s’ha elaborat un corpus de notícies que provenen de distints llocs web de premsa digital i per als idiomes de castellà i català. Finalment, el treball conté un extens anàlisi dels resultats experimentals obtinguts en el corpus. En aquest es podran observar les diferències que existeixen entre les notícies que contenen ambdós corpus emprant distintes mesures. A més, es compararan els corpus generats amb altres corpus que formen part del estat de l’art.<br />[EN] Automatic summary generation is a current and very attractive field in the area of natural language processing. For this reason, in this work, it has been decided to analyse and compare different techniques for automatic abstract generation both based on neural net-work and based on classical algorithms. For the evaluation of these techniques, syntactic metrics used in most studies of this field and semantic metrics proposed in this work have been used. Through this study, differences between the two evaluations discussed above can be seen. Moreover, improvements introduces by the semantic measure proposal are also presented. For the use of summary approaches based on neural networks and for the evaluation of all systems, a corpus of documents and summaries is required. For this reason, through a crawling process, a corpus of news that come from different digital press websites has been prepared in both Spanish and Catalan languages. Finally, the work contains an extensive analysis of the experimental results obtained with the corpus. In it, the existing differences between the news contained in both corpus can be observed. At the same time, a comparison of the different measures has been included. In addition, the generated corpus will be compared with other corpus that take part of the state of the art.
- Subjects :
- Neural Networks
Grado en Ingeniería Informática-Grau en Enginyeria Informàtica
Xarxes neuronals
News Corpus Creation
Corpus d’articles de premsa
Automatic summarization
Crawling
Embeddings
Resumen automático
Corpus de artículos de prensa
Resum automàtic
Redes Neuronales
LENGUAJES Y SISTEMAS INFORMATICOS
Subjects
Details
- Language :
- Spanish; Castilian
- Database :
- OpenAIRE
- Journal :
- RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia, instname
- Accession number :
- edsair.dedup.wf.001..1437edd7e7decceeaf4d13510c33e3c0