Back to Search Start Over

Biblioteca para la evaluación sistemática de algoritmos de clustering

Authors :
Díaz Honrubia, Antonio Jesús
Heras Calvo, Daniel
Díaz Honrubia, Antonio Jesús
Heras Calvo, Daniel
Publication Year :
2023

Abstract

Los algoritmos de agrupamiento, conocidos como algoritmos de clustering, son técnicas englobadas dentro del Aprendizaje no Supervisado, cuyo objetivo es crear conjuntos con propiedades comunes, a la vez que separarlos del resto de conjuntos con los que no comparten estas similitudes. Son utilizados en numerosos ámbitos del mundo real, como en la biología computacional para clasificar animales y plantas, la medicina para identificar enfermedades o el marketing para identificar personas con hábitos de compras similares. Los resultados obtenidos mediante las técnicas de clustering dependen de varios componentes principales. Estos son el conjunto de datos, el algoritmo y su configuración, y las medidas de similitud utilizadas. Seleccionar estos componentes adecuadamente es fundamental para realizar un agrupamiento óptimo. Sin embargo, la evaluación de los resultados obtenidos no es trivial, debido a que, a diferencia de otros problemas, como los de clasificación o regresión, no usan un etiquetado de partida que pueda servir para comparar los resultados obtenidos. Esto no quiere decir que no existan métodos que midan estos resultados. Se han propuesto muchas medidas de calidad, también conocidas como métricas, para evaluar los agrupamientos, basándose en las premisas de que los clusters deben tener la mínima distancia entre los elementos del mismo grupo y la máxima separación entre los elementos de diferentes grupos. Aun así, estas métricas no utilizan los mismos cálculos matemáticos y en ocasiones obtienen resultados contradictorios. Si se selecciona una de estas de forma arbitraria, se corre el peligro de obtener resultados inesperados o inválidos. Existen bibliotecas, como Nbclust de R, que ofrecen la posibilidad de evaluar varias métricas para determinar cómo de bueno es el algoritmo y su configuración. No obstante, están limitadas únicamente a ciertos algoritmos e hiperparámetros. Por este motivo, la intención de este Trabajo de Fin de Grado es desarrollar una bibli

Details

Database :
OAIster
Notes :
application/pdf, Spanish
Publication Type :
Electronic Resource
Accession number :
edsoai.on1394144825
Document Type :
Electronic Resource