Back to Search Start Over

Uso de gazetteers focados para geoparsing

Authors :
Bruno Rabello Monteiro
Clodoveu Augusto Davis Junior
Frederico Torres Fonseca
Jugurta Lisboa Filho
Cláudio de Souza Baptista
Mirella Moura Moro
Source :
Repositório Institucional da UFMG, Universidade Federal de Minas Gerais (UFMG), instacron:UFMG
Publication Year :
2021
Publisher :
Universidade Federal de Minas Gerais, 2021.

Abstract

Geoparsing is the geographic information retrieval task that deals with the recognition of references to places contained in texts. Besides geoparsing, two other tasks are used to solve the Geographic Scope Resolution Problem (GSRP), the reference resolution and the grounding references tasks. The GSRP aims to determine the geographic scope of documents, i.e., the locations or regions relevant, considering the document content. Several works that deal with the GSRP or with its tasks focus mainly on the solution method itself. Also, each work test the algorithm using different datasets and external knowledge sources, such as a gazetteer. This thesis proposes a methodology to evaluate the gazetteers instead of the algorithm. Our approach varies gazetteer size and coverage, delimiting it geographically, while keeping the dataset and algorithms fixed. We show that focused gazetteers can increase precision (with low recall loss) in geoparsing compared to generalist gazetteers. We also show that focused gazetteers considerably reduce the number of ambiguous candidates to each toponym found on geoparsing. Geoparsing é a tarefa de recuperação de informação geográfica que lida com o reconhecimento das referências a lugares contidas nos textos. Além do geoparsing, duas outras tarefas são usadas para resolver o Problema de Resolução de Escopo Geográfico (PREG), as tarefas de resolução das referências e determinação das referências. O PREG visa determinar o escopo geográfico de documentos, ou seja, os locais ou regiões relevantes, considerando o conteúdo do documento. Vários trabalhos que tratam do PREG ou de suas tarefas focam principalmente o método de solução em si. Além disso, cada trabalho testa o algoritmo usando diferentes conjuntos de dados e fontes de conhecimento externas, como os gazetteers. Esta tese propõe uma metodologia para avaliar os gazetteers ao invés dos algoritmos. A abordagem varia o tamanho e a cobertura dos gazetteers, delimitando-os geograficamente, enquanto mantém o conjunto de dados e os algoritmos fixos. Gazetteers focados podem aumentar a precisão (com baixa perda de recall) na tarefa de geoparsing em comparação com os gazetteers generalistas. Além disso, os gazetteers focados reduzem consideravelmente o número de candidatos ambíguos para cada topônimo encontrado no geoparsing.

Details

Language :
English
Database :
OpenAIRE
Journal :
Repositório Institucional da UFMG, Universidade Federal de Minas Gerais (UFMG), instacron:UFMG
Accession number :
edsair.od......3056..d6f06efd5a5362e49fe98e92058fa421