Back to Search
Start Over
Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
- Source :
- Biblioteca Digital de Teses e Dissertações da UFG, Universidade Federal de Goiás (UFG), instacron:UFG
- Publication Year :
- 2020
- Publisher :
- Universidade Federal de Goiás, 2020.
-
Abstract
- Como resultado da crescente produção de dados textuais não estruturados, surgiram técnicas para representar palavras e documentos no espaço vetorial para extração de conhecimento. O Ministério Público brasileiro recebe inúmeras solicitações textuais não estruturadas enviadas por cidadãos com necessidades diversas - violência doméstica contra a mulher, solicitações de internações em unidades de terapia intensiva, entre outras. O tempo gasto na classificação, detecção de similaridades e distribuição para a promotoria competente é essencial para otimização dos recursos públicos. Assim, foi adotado um modelo neural associado ao algoritmo Simulated Annealing (SA), um clássico algoritmo de otimização global com baixa complexidade computacional, de modo a reduzir o tempo de treinamento diário e a proporcionar uma visualização gráfica mais amigável de dados multidimensionais, apoiando o processo de decisão judicial. A analogia física do algoritmo SA associado à representação contínua de documentos no espaço vetorial contribui para a visualização amigável de um conjunto de dados de alta dimensão, mantendo uma acurácia comparável a outros modelos neurais profundos e a outros algoritmos de otimização, como Covariance Matrix Adaptation Evolution Strategy (CMA-ES) e Bayesian Optimization (BO). As a result of the growing production of unstructured textual data, techniques for representing words and documents in the vector space have emerged recently. The Brazilian Public Ministry has received several textual requests that are send by citizens with different needs, such as those involved in cases of domestic violence against women, others requesting intensive care unit admissions, and more. The time spent in classifying, detecting similar requests and distributing them is essential to optimize and save public resources. Therefore, we adopted the neural model with the Simulated Annealing (SA), a classic global optimization algorithm with low computational complexity, because of the need to reduce the daily training time, providing a more friendly graphic visualization of data in high dimensions, supporting the judicial decision process. The physical analogy of the SA meta-heuristic associated with the continuous representation of documents in the vector space contribute greatly to the friendly visualization of a high-dimensional dataset, maintaining a comparable score with other deep models and optimization algorithms, such as Covariance Matrix Adaptation Evolution Strategy (CMA-ES) and Bayesian Optimization (BO). Outro
- Subjects :
- Document representation
Optimization
Redes neurais
ENGENHARIAS
Vector representation
Aprendizado de máquina
Text analysis
Otimização
Neural network
Simulated annealing
Processamento de linguagem natural
Recozimento simulado
Representação de documento
Representação vetorial
Machine learning
Análise de texto
Natural language process
Subjects
Details
- Language :
- Portuguese
- Database :
- OpenAIRE
- Journal :
- Biblioteca Digital de Teses e Dissertações da UFG, Universidade Federal de Goiás (UFG), instacron:UFG
- Accession number :
- edsair.od......3056..c57d1277e70f8e08f47c770e0d4dfb0c