Back to Search Start Over

Análisis visual de métricas similitud de textos

Authors :
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Vázquez Alcocer, Pere Pau
Coves Beneyto, Vicente
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Vázquez Alcocer, Pere Pau
Coves Beneyto, Vicente
Publication Year :
2021

Abstract

Hoy en día se envían más de cien mil correos cada minuto [1] y se publican en torno a 1,8 millones de artículos académicos [2]. Entre todo este caos, para poder analizar y extraer conclusiones se necesita encontrar orden, a través de técnicas eficientes y capaces de procesar esta cantidad masiva de documentos, para poder realizar búsquedas, comparaciones y recomendaciones pertinentes. Para ello en este Trabajo de Fin de Grado se establece como objetivo el analizar visualmente las métricas de similitud de textos existentes, sobre todo pensado para documentos extensos, pues la mayor parte de investigación es a nivel de palabra o unas pocas frases. El formato de representación de los documentos será el embedding, que es un vector de números decimales en un rango de -x a x, e indica con que intensidad el documento presenta una característica en concreto.<br />Nowadays more than one hundred thousand emails are sent every minute [1] and around 1.8 million academic papers. With all this chaos, in order to analyse and extract conclusions, one must find order through the use of efficient techniques, capable of ingesting a massive number of documents, to then perform searches, comparisons and relevant recommendations. In this bachelor's thesis the aim is to visually analyse the existing text similarity metrics, with focus on extensive documents, since there is little research on this, and most academic papers study similarity at a word or sentence level. The format in which the documents will be represented is the embedding, which is a list of decimal numbers, within a range from -x to x, that indicates the intensity for a given characteristic within the document.

Details

Database :
OAIster
Notes :
application/pdf, Spanish
Publication Type :
Electronic Resource
Accession number :
edsoai.on1280132727
Document Type :
Electronic Resource