1. Automatic discovery of scientific subfields based on co-authorship : the case of computer science
- Author
-
Merli, Gustavo de Jesus, 1996, Wainer, Jacques, 1958, Santanchè, André, Mena-Chalco, Jesús Pascual, Universidade Estadual de Campinas. Instituto de Computação, Programa de Pós-Graduação em Ciência da Computação, and UNIVERSIDADE ESTADUAL DE CAMPINAS
- Subjects
Visualização da informação ,Information visualization ,Algoritmos em grafos ,Machine learning ,Aprendizado de máquina ,Graph algorithms - Abstract
Orientador: Jacques Wainer Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Este trabalho tem como objetivo achar subáreas da computação. Para isso foi necessária uma extração dos dados do conjunto de publicações do DBLP, e então transformá-los em um grafo de revistas, sendo o número de autores comuns entre cada revista o fator principal para o cálculo do peso da aresta. Em seguida, 3 algoritmos de clusterização foram implementados: Agrupamento Hierárquico, algoritmo de clusterização recursivo e o terceiro sendo um método fazendo o Embedding do grafo para um espaço de dimensão específica e então clusterizando para esse espaço usando um dos algoritmos clássicos. A análise dos resultados foi feita a partir de um algoritmo de rotulação das comunidades, onde as palavras mais comuns dos títulos das revistas eram levados em consideração. Com isso, foi possível clusterizar subáreas da computação sem usar os nomes das revistas mas usando-as para verificar a qualidade dos resultados como uma variável latente Abstract: This work has the objective to find computer subareas. For this, it was necessary the data extraction from DBLP publication set, then transform them into a graph of venues, beeing the amount of authors in common between two venues the main factor to calculate the edge weight. After this, 3 clusterization algorithms were implemented: hierarchical clustering, recursive clustering and the third applying Embedding to the graph transforming it into a low dimensional space and then clustering this space using one of the classic clustering algorithms. The results were analysed from a community labeling algorithm, that discovers the most common words from the venues titles. With this, it was possible to clusterize computer subareas without using the venues names but using them to verify the quality like a latent variable Mestrado Ciência da Computação Mestre em Ciência da Computação CAPES 001
- Published
- 2022