Back to Search Start Over

Benchmarking in cluster analysis - insights into theory and application

Authors :
Dangl, Rainer
Publication Year :
2021

Abstract

Die Dissertation behandelt das Thema Benchmarking in der Clusteranalyse aus zwei Perspektiven. Einerseits wurde eine Benchmarkingstudie zu einer konkreten Fragestellung durchgeführt, und zwar ob stabilitätsorientierte Validierung von Clusteringmodellen einen entscheidenden Vorteil im Vergleich zu einfacher Validierung bietet und wenn ja, ob die Art und Weise des Ziehens der Resampling-Datensätze aus dem Gesamtdatensatz eine Rolle spielt. Diese Fragestellungen wurden im Zusammenhang mit interner und externer Modellvalidierung untersucht. Ergebnisse der Studie zeigen, dass resampling-basierte externe Validierung tendentiell bessere Resultate liefert. Erkenntnisse aus der Durchführung der Studie zogen Überlegungen zu grundlegenden Konzepten zur Durchführung von Benchmarkingstudien nach sich. Es wurde daher ein struktureller Rahmen zur Implementation von Benchmarking in R generell erstellt und weiters ein R Paket und eine Webapplikation zu einem spezifischen Teilaspekt des Benchmarkings, der Erzeugung von künstlichen Daten.<br />The doctoral thesis covers the topic of benchmarking in cluster analysis from two perspectives. On the one hand, a benchmarking study was conducted on a specific issue, namely whether stability-oriented validation of clustering models offers a decisive advantage over simple validation and, if so, whether the way of extracting the resampling data sets from the overall data set plays a role. These questions were investigated in the context of internal and external model validation. Findings from the study show that resampling-based external validation tends to yield better results. Lessons learned from the implementation of the study led to considerations on basic concepts for the implementation of benchmarking studies. Therefore, a structural framework for the implementation of benchmarking in R in general was established and furthermore an R package and a web application for a specific aspect of benchmarking, the generation of artificial data, was developed.

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.doi...........a618cdef4cc4df1b1cee778d94956493
Full Text :
https://doi.org/10.25365/thesis.70218