Back to Search Start Over

Um processo incremental e orientado à consulta para resolução de entidades em sistemas de integração de dados

Authors :
AZEVÊDO, Priscilla Kelly Machado Vieira
SALGADO, Ana Carolina
LÓSCIO, Bernadette Farias
Source :
Repositório Institucional da UFPE, Universidade Federal de Pernambuco (UFPE), instacron:UFPE
Publication Year :
2017
Publisher :
Universidade Federal de Pernambuco, 2017.

Abstract

A Resolução de Entidades (RE) é o problema de identificar grupos de tuplas (registros ou instâncias), em uma única ou múltiplas fontes de dados, que representam a mesma entidade do mundo real. Esta é uma etapa crucial do processo de integração de dados, que muitas vezes necessita integrar dados em tempo de consulta (online). Esta tarefa torna-se ainda mais onerosa quando são consideradas fontes dinâmicas e com grandes volumes de dados. Além disso, tais características, tornam o processo de RE mais desafiador, uma vez que a maioria das técnicas de RE (tradicional), processa todas as tuplas de uma única vez, ao invés de processar apenas as tuplas importantes para o usuário. Portanto, novas soluções são necessárias para contornar este problema. Neste trabalho é proposto um processo incremental e orientado à consulta para RE. O processo é considerado incremental porque a cada iteração um conjunto de novas tuplas é processado e adicionado às demais tuplas processadas previamente. O termo orientado à consulta é proveniente do fato do processo proposto ser aplicado apenas sobre resultados de consultas. As contribuições deste trabalho são: especificação, implementação e avaliação do processo proposto. O processo foi avaliado com diferentes algoritmos e sobre diferentes fontes de dados. Foram utilizadas medidas de qualidade e desempenho do processo. Observou-se que o processo proposto tem qualidade muito similar aos processos tradicionais de RE, contudo tem um desempenho melhor. The Entity Resolution (ER) is the problem of identifying groups of tuples (records or instances) from single or multiple data sources which represent the same real-world entities. ER is an essential step in data integration tasks, and it often demands to obtain results at query-time (online). Especially in settings containing dynamic data sources with large volumes of data, the ER process can be still more challenging. However, most traditional ER techniques process all tuples at once, instead of considering tuples based on a query. This lead to a need for solutions to get around this problem. This work proposes a query-driven incremental process for ER. In this case, incremental means that in each iteration phase, the currently processed tuples will increase the set of previous tuples. The term query-driven means that the process in each iteration considers only tuples regarding the query result. The contributions of this work are the specification, development, and evaluation of the proposed process. Regarding the evaluation, we have used it in existing algorithms on different data sources. We conclude that the use of previous results in ER tasks turns the process more efficient than comparing all pairs of tuples at query-time, without reducing the quality of results.

Details

Language :
Portuguese
Database :
OpenAIRE
Journal :
Repositório Institucional da UFPE, Universidade Federal de Pernambuco (UFPE), instacron:UFPE
Accession number :
edsair.od......3056..c9766b1a0b744b51eea18766b6d4b706