Back to Search Start Over

Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos

Authors :
Mendonça, Leandro Rezende Carneiro de
Cruz Junior, Gelson da
Cruz Junior , Gelson da
Soares Alcalá , Symone Gomes
Oliveira , Marco Antonio Assfalk de
Soares , Fabrízzio Alphonsus Alves de Melo Nunes
Campos , Sérgio Vale Aguiar
Source :
Biblioteca Digital de Teses e Dissertações da UFG, Universidade Federal de Goiás (UFG), instacron:UFG
Publication Year :
2020
Publisher :
Universidade Federal de Goiás, 2020.

Abstract

Como resultado da crescente produção de dados textuais não estruturados, surgiram técnicas para representar palavras e documentos no espaço vetorial para extração de conhecimento. O Ministério Público brasileiro recebe inúmeras solicitações textuais não estruturadas enviadas por cidadãos com necessidades diversas - violência doméstica contra a mulher, solicitações de internações em unidades de terapia intensiva, entre outras. O tempo gasto na classificação, detecção de similaridades e distribuição para a promotoria competente é essencial para otimização dos recursos públicos. Assim, foi adotado um modelo neural associado ao algoritmo Simulated Annealing (SA), um clássico algoritmo de otimização global com baixa complexidade computacional, de modo a reduzir o tempo de treinamento diário e a proporcionar uma visualização gráfica mais amigável de dados multidimensionais, apoiando o processo de decisão judicial. A analogia física do algoritmo SA associado à representação contínua de documentos no espaço vetorial contribui para a visualização amigável de um conjunto de dados de alta dimensão, mantendo uma acurácia comparável a outros modelos neurais profundos e a outros algoritmos de otimização, como Covariance Matrix Adaptation Evolution Strategy (CMA-ES) e Bayesian Optimization (BO). As a result of the growing production of unstructured textual data, techniques for representing words and documents in the vector space have emerged recently. The Brazilian Public Ministry has received several textual requests that are send by citizens with different needs, such as those involved in cases of domestic violence against women, others requesting intensive care unit admissions, and more. The time spent in classifying, detecting similar requests and distributing them is essential to optimize and save public resources. Therefore, we adopted the neural model with the Simulated Annealing (SA), a classic global optimization algorithm with low computational complexity, because of the need to reduce the daily training time, providing a more friendly graphic visualization of data in high dimensions, supporting the judicial decision process. The physical analogy of the SA meta-heuristic associated with the continuous representation of documents in the vector space contribute greatly to the friendly visualization of a high-dimensional dataset, maintaining a comparable score with other deep models and optimization algorithms, such as Covariance Matrix Adaptation Evolution Strategy (CMA-ES) and Bayesian Optimization (BO). Outro

Details

Language :
Portuguese
Database :
OpenAIRE
Journal :
Biblioteca Digital de Teses e Dissertações da UFG, Universidade Federal de Goiás (UFG), instacron:UFG
Accession number :
edsair.od......3056..c57d1277e70f8e08f47c770e0d4dfb0c