Clusteranalyse

Inhalt

Die Clusteranalyse ist eine gängige Methode zum Zusammenstellen von kleineren Gruppen (Cluster) aus einem großen Datensatz. Ähnlich der Diskriminanzanalyse wird die Clusteranalyse auch dazu verwendet, Beobachtungen in Gruppen zu klassifizieren. Die Diskriminanzanalyse dagegen erfordert das Wissen über die Gruppenzugehörigkeit für die Fälle, die zum Ableiten der Klassifizierungsregel verwendet werden. Die Clusteranalyse ist eine primitivere Technik, da sie keine Annahmen in Bezug auf die Anzahl von Gruppen oder die Gruppenzugehörigkeit macht.

Ziele

  • Klassifizierung
    Die Clusteranalyse bietet eine Möglichkeit, potenzielle Beziehungen zu entdecken und eine systematische Struktur in einer großen Anzahl von Variablen und Beobachtungen zu erstellen.

Hierarchische Clusteranalyse

Die hierarchische Clusteranalyse ist die primäre Statistikmethode zum Suchen relativ homogener Cluster von Fällen, die auf gemessenen Merkmalen basieren. Es beginnt mit jedem Fall als einem separaten Cluster. Dann werden nacheinander die Cluster kombiniert, wobei die Anzahl der Cluster mit jedem Schritt reduziert wird, bis nur noch ein Cluster übrig bleibt. Die Methode des Clusterings verwendet die Unähnlichkeiten bzw. Distanzen zwischen Objekten, um die Cluster zu bilden.

 

Beobachtungen klassifizieren

Die hierarchische Clusteranalyse ist am besten für kleine Stichproben geeignet ist. Wenn die Stichprobe(n) groß ist/sind, ist der Algorithmus möglicherweise sehr langsam bei der Lösungsfindung. Im Allgemeinen sollte ein Benutzer die K-Means-Clusteranalyse in Betracht ziehen, wenn der Stichprobenumfang größer als 200 ist.

 

Variablen klassifizieren

Die hierarchische Clusteranalyse ist nur eine Möglichkeit zu beobachten, wie homogene Variablengruppen gebildet werden. Beachten Sie, dass die K-Means-Clusteranalyse nur die Klassifizierung von Beobachtungen unterstützt.

 

Clustermethode auswählen

Anzahl der Cluster

Es gibt keinen bestimmten Weg, um die Anzahl der Cluster für Ihre Analyse festzulegen. Vielleicht müssen Sie das Dendrogramm sowie die Merkmale der Cluster näher betrachten und dann die Anzahl inkrementell anpassen, um eine gute Clusterlösung zu erhalten.

Variablen standardisieren

Wenn die Variablen in verschiedenen Skalierungen gemessen werden, haben Sie drei Möglichkeiten, um Variablen zu standardisieren. Dies führt dazu, dass alle Variablen mit etwa gleich großen Anteilen zu der Distanzmessung beitragen, auch wenn Sie Informationen zur Streuung in den Variablen verlieren können.

Distanzmessungen

  • Euklidische Distanz:
    Die euklidische Distanz ist die gängigste Messungsmethode. Sie ist die geometrische Distanz im multidimensionalen Raum. Sie eignet sich nur für stetige Variablen.
  • Quadrierte euklidische Distanz:
    Die quadrierte euklidische Distanz legt den Schwerpunkt mehr auf Objekte, die weiter voneinander entfernt sind.
  • City-Block-Distanz:
    Sowohl die City-Block- als auch die euklidische Distanz sind Spezialfälle der Minkowski-Metrik. Während die euklidische Distanz der Länge des kürzesten Wegs zwischen zwei Punkten entspricht, ist die City-Block-Distanz die Summe der Distanzen entlang jeder Dimension:
Hinweise: Sowohl die euklidische als auch die quadrierte euklidische Distanz reagieren sensibel auf standardisierte Daten. Wenn Sie Daten während der Analyse standardisieren möchten, sollte die City-Block-Distanz verwendet werden.
  • Kosinus-Distanz
    Der Kosinus des Winkels zwischen den zwei Vektoren der Werte
  • Pearson-Korrelationsdistanz
    Die Differenz zwischen 1 und dem Kosinus-Koeffizienten von zwei Beobachtungen Der Kosinus-Koeffizient ist der Kosinus des Winkels zwischen zwei Vektoren.
  • Jaccard-Distanz
    Die Differenz zwischen 1 und dem Jaccard-Koeffizienten von zwei Beobachtungen Für binäre Daten ist der Jaccard-Koeffizient gleich dem Größenverhältnis der Überschneidung und Gesamtmenge von zwei Beobachtungen.

Clustermethode

  • Nächster Nachbar
    Bei dieser Methode wird angenommen, dass der Abstand zwischen zwei Clustern dem Abstand zwischen den Objekten ihrer nächsten Nachbarschaft entspricht. Diese Methode wird empfohlen, wenn gezeichnete Cluster gestreckt werden.
  • Weitesten entfernter Nachbar
    Bei dieser Methode entspricht der Abstand zwischen zwei Clustern der maximalen Distanz zwischen zwei Objekten in verschiedenen Clustern. Wenn die gezeichneten Cluster eindeutige "Klumpen" (nicht gestreckte Ketten) bilden, ist die Methode geeignet.
  • Gruppendurchschnitt:
    Bei dieser Methode entspricht der Abstand zwischen zwei Clustern dem durchschnittlichen Abstand zwischen allen Objektpaaren in den verschiedenen Clustern. Diese Methode wird normalerweise empfohlen, da sie ein höheres Maß an Informationen einbindet.
  • Zentroid
    Der Cluster, der zusammengefügt werden soll, ist derjenige mit der kleinsten Summe der Distanzen zwischen dem Zentroid für alle Variablen. Der Zentroid eines Clusters ist der Durchschnittspunkt im multidimensionalen Raum.
  • Median
    Diese Methode ist identisch mit der Zentroidmethode, außer dass sie ungewichtet ist. Sie sollte nicht verwendet werden, wenn Clustergrößen sich auffällig unterscheiden.
Hinweis: Wenn die Zentroid- und Medianmethode ausgewählt sind, wird die quadrierte euklidische Distanz bevorzugt verwendet.
  • Ward
    Für jeden Cluster werden die Mittelwerte für alle Variablen berechnet. Dann wird für jeden Fall die quadrierte euklidische Distanz zu den Clustermittelwerten berechnet. Diese Distanzen werden für all die Fälle aufsummiert. Der Cluster, der zusammengefügt werden soll, ist derjenige, der die Summe am wenigstens ansteigen lässt. Das heißt, diese Methode minimiert den Anstieg der Gesamtsumme der quadrierten Distanzen innerhalb der Cluster. Diese Methode neigt dazu, kleinere Cluster zu erzeugen.

K-Means-Clusteranalyse

Die K-Means-Clusteranalyse wird verwendet, um Beobachtungen durch eine K Anzahl von Clustern zu klassifizieren. Die Idee ist, die Distanz zwischen den Daten und dem entsprechenden Clusterzentroid zu minimieren. Die K-Means-Analyse basiert auf einem der einfachsten Alogorithmen zum Lösen von Clusterproblemen und ist daher viel schneller als die hierarchische Clusteranalyse.

Üblicherweise sollte ein Benutzer die K-Means-Analyse in Betracht ziehen, wenn der Stichprobenumfang größer als 100 ist. Beachten Sie jedoch, dass die K-Means-Clusteranalyse davon ausgeht, dass der Benutzer den Zentroid der Beobachtungen bereits kennt oder zumindest die Anzahl der zu clusternden Gruppen.

Clustermethode auswählen

Der erste Schritt bei der K-Means-Clustermethode ist das Suchen nach den Clusterzentren. Führen Sie die hierarchische Clusteranalyse mit einem kleinen Stichprobenumfang aus, um ein sinnvolles Clusterzentrum für den Anfang zu erhalten. Alternativ können Sie die Anzahl der Cluster festlegen und dann Origin automatisch gut getrennte Werte als erstes Clusterzentrum verwenden lassen. Beachten Sie, dass die automatische Erkennung Ausreißern gegenüber sensibel ist. Daher sollten Sie sicherstellen, die Daten vor der Analyse zu überprüfen.

Umgang mit fehlenden Werten

Wenn es fehlende Werte unter den Schulungsdaten/im Gruppenbereich gibt, wird der gesamte Fall (ganze Zeile) aus der Analyse ausgeschlossen.

 

Themen, die in diesem Abschnitt behandelt werden: