Institutional Money, Ausgabe 2

k-Means-Clusteranalyse Der k-Means-Algorithmus ist besonders für große Datenmengen geeignet. D ie k-Means-Clusteranalyse ist eine der einfachsten und gängigsten Ver- fahren zur Clusteranalyse. Es handelt sich dabei um ein partitionierendes Ver- fahren, das besonders für große Daten- mengen geeignet ist. Das k-Means-Ver- fahren zielt darauf ab, die Datenpunkte so auf die k-Cluster zu verteilen, dass die Summe der Entfernungen von jedem Punkt zum jeweiligen Cluster Centroid minimiert wird. Vereinfacht ausgedrückt, gruppiert die k-Means-Clusteranalys ähn- liche Datenpunkte und ermöglicht es auf diese Weise, zugrunde liegende Muster zu erkennen. Das k-Means-Verfahren be- ziehungsweise der k-means-Algorithmus funktionieren im Detail wie folgt: 1) Anzahl der Cluster definieren: Um die Gruppen respektive Cluster zu finden, muss zunächst die Anzahl der Cluster definiert werden. Die Anzahl der Cluster ist das „k“ in k-Means. Im folgen- den Beispiel wurde k = 3 gewählt. 2) Clustermittelpunkte zufällig festlegen: Im zweiten Schritt werden die initialen Clusterzentralpunkte, die soge- nannten Centroids, festgelegt. Das ge- schieht in der Regel zufällig. Für das Bei- spiel werden drei Cluster ausgewählt, somit werden drei Centroids zufällig positioniert. Jeder Centroid repräsentiert nun einen Cluster, wie die Grafik „Zufällig positionierte Centroids“ zeigt. 3) Punkte den Clustern zuordnen: Nun wird die Distanz vom ersten Punkt zu jedem der Cluster Centroids gemes- sen. Anschließend wird der Punkt dann dem jeweiligen Cluster zugeordnet, der am nächsten ist. Dies wird nun für alle weiteren Punkte wiederholt. Anschlie- ßend sind dann alle Punkte initial einem Cluster zugeordnet. 4) Mittelwert jedes Clusters be- rechnen plus Centroids-Verlegung : Im vierten Schritt wird von jedem Cluster der Mittelwert berechnet. Diese Mittel- werte sind die neuen Centroids der Clus- ter. Die Cluster Centroids werden also in die Clustermittelpunkte verlegt. 5) Punkte den neuen Clustern zu- ordnen: Da nun die Centroids an einem anderen Punkt liegen können, wird gleich wie in Punkt 3) wieder jedem Punkt der Cluster zugeordnet, der ihm am nächs- ten ist. 6) Nun werden Schritt 4) und 5) so lange wiederholt, bis sich die Cluster- aufteilung nicht mehr ändert. Es gilt: Wenn sich die Cluster in einer Iteration nicht mehr verändern, ist das Verfahren zu Ende (siehe Grafik „k-Means-Algorith- mus“) . In diesem Verfahren liegt also eine Repräsentation der k-Cluster durch ihre Schwerpunkte vor, wodurch das Ver- fahren auch seinen Namen erhalten hat: k-Means-Methode. Dieses nicht hierar- chische Verfahren ermöglicht es – im Un- terschied zu hierarchischen Verfahren –, dass sich die Zuordnungen der Objekte zu den Clustern im Lauf des Prozesses ändern können. Die Clusterzuordnungen sind also nicht endgültig. Ein Nachteil des Verfahrens ist darin begründet, dass die Clusterlösung von der Reihenfolge der Objekte in der Start- partition (erste Clusterlösung) abhängt. Es ist daher ratsam, mit unterschiedli- chen Startpartitionen zu arbeiten, bei denen sich die Reihenfolgen der Cluster und der Objekte in den Clustern unter- scheiden. Jene Lösung, die durch unter- schiedliche Startpartitionen am öftesten bestätigt wird, sollte schließlich gewählt werden. Optimale Clusteranzahl Die Zahl der Cluster muss beim k- Means-Verfahren vor Beginn festgelegt werden und wird daher nicht durch das Clusterverfahren bestimmt. Aber was ist nun die optimale Anzahl von Clustern beim k-Means-Verfahren? Hierfür gibt es mit der Ellbogenmethode (Elbow Method) einen gängigen Weg, um die geeignete Anzahl der Cluster zu bestimmen. Elbow Method Mit jedem neuen Cluster wird die Ge- samtvariation in jedem Cluster kleiner und kleiner. Im Extremfall, wenn es gleich viele Cluster wie Punkte gibt, ist das Ergebnis null. In den meisten Fällen wird die Verkleinerung der Gesamtvariation ab einem bestimmten Punkt kleiner. Die- ser Punkt wird dann als optimale Cluster- anzahl verwendet. 2. Zuordnung der Punkte zu dem Clusterschwerpunkt, der am nächsten liegt 2 und 3 werden so lange durchgeführt, bis der Cluster sich nicht mehr verändert 4. Zuordnung der Punkte zu dem Clusterschwerpunkt, der am nächsten liegt Zufällig positionierte Centroids Zentralpunkte fürs Erste zufällig gewählt k-Means-Algorithmus Iteratives Verfahren bis zur finalen Datenpunktezuteilung in die einzelnen Cluster Die drei andersfarbigen Punktwolken symbolisieren jeweils einen Cluster. Der k-Means-Algorithmus setzt sich dabei aus den dargestellten wiederholt durchzuführenden Schritten zusammen. Quelle: Studie 98 N o . 2/2025 | institutional-money.com THEORIE & PRAXIS | Portfolioallokation

Institutional Money, Ausgabe 2 | 2025