1. Inference of topics with Latent Dirichlet Allocation for Open Government Data
- Author
-
Nádia Felix Felipe da Silva, Núbia Rosa da Silva, Kátia Kelvis Cassiano, and Douglas Farias Cordeiro
- Subjects
Mineração de dados ,Museology ,Inferência de tópicos ,Cultural projects ,020207 software engineering ,02 engineering and technology ,Library and Information Sciences ,Bibliography. Library science. Information resources ,Projetos culturais ,020204 information systems ,open government data ,0202 electrical engineering, electronic engineering, information engineering ,Topic inference ,Data mining ,dados abertos governamentais ,Information Systems - Abstract
RESUMO Os dados abertos governamentais podem ser vistos como uma importante iniciativa de órgãos e instituições da sociedade civil, voltados à promoção da transparência e permitindo, além disso, sua reutilização como insumo no desenvolvimento de projetos de inovação. Entretanto, é comum que determinados conjuntos de dados demandem a aplicação de tratamentos específicos, para que os mesmos possam ser utilizados de forma mais eficaz, como é o caso da necessidade de classificação destes dados através de Mineração de Dados. Neste cenário, este trabalho apresenta uma proposta de inferência de tópicos automática utilizando o método Latent Dirichlet Allocation para a classificação de projetos culturais em áreas temáticas, por meio da identificação da similaridade entre seus dados. Os resultados apresentados demonstram a viabilidade da abordagem no contexto de dados abertos governamentais. ABSTRACT Open government data can be considered as an important initiative of institutions of civil society, promoting transparency and allowing its reuse as an input in the development of innovation projects. However, it is common for certain databases to require the application of specific treatments, so that the data can be used more efficiently, such as the case of classification using Data Mining. In this scenario, this paper presents an automatic topic inference proposal using the Latent Dirichlet Allocation method to classify cultural projects in their thematic areas, by identifying the similarity in their data. The results demonstrate the feasibility of the approach in the context of open government data.
- Published
- 2021