Inhalt |
Die Clusteranalyse ist eine gängige Methode zum Zusammenstellen von kleineren Gruppen (Cluster) aus einem großen Datensatz. Ähnlich der Diskriminanzanalyse wird die Clusteranalyse auch dazu verwendet, Beobachtungen in Gruppen zu klassifizieren. Die Diskriminanzanalyse dagegen erfordert das Wissen über die Gruppenzugehörigkeit für die Fälle, die zum Ableiten der Klassifizierungsregel verwendet werden. Die Clusteranalyse ist eine primitivere Technik, da sie keine Annahmen in Bezug auf die Anzahl von Gruppen oder die Gruppenzugehörigkeit macht.
Die hierarchische Clusteranalyse ist die primäre Statistikmethode zum Suchen relativ homogener Cluster von Fällen, die auf gemessenen Merkmalen basieren. Es beginnt mit jedem Fall als einem separaten Cluster. Dann werden nacheinander die Cluster kombiniert, wobei die Anzahl der Cluster mit jedem Schritt reduziert wird, bis nur noch ein Cluster übrig bleibt. Die Methode des Clusterings verwendet die Unähnlichkeiten bzw. Distanzen zwischen Objekten, um die Cluster zu bilden.
Die hierarchische Clusteranalyse ist am besten für kleine Stichproben geeignet ist. Wenn die Stichprobe(n) groß ist/sind, ist der Algorithmus möglicherweise sehr langsam bei der Lösungsfindung. Im Allgemeinen sollte ein Benutzer die K-Means-Clusteranalyse in Betracht ziehen, wenn der Stichprobenumfang größer als 200 ist.
Die hierarchische Clusteranalyse ist nur eine Möglichkeit zu beobachten, wie homogene Variablengruppen gebildet werden. Beachten Sie, dass die K-Means-Clusteranalyse nur die Klassifizierung von Beobachtungen unterstützt.
Es gibt keinen bestimmten Weg, um die Anzahl der Cluster für Ihre Analyse festzulegen. Vielleicht müssen Sie das Dendrogramm sowie die Merkmale der Cluster näher betrachten und dann die Anzahl inkrementell anpassen, um eine gute Clusterlösung zu erhalten.
Wenn die Variablen in verschiedenen Skalierungen gemessen werden, haben Sie drei Möglichkeiten, um Variablen zu standardisieren. Dies führt dazu, dass alle Variablen mit etwa gleich großen Anteilen zu der Distanzmessung beitragen, auch wenn Sie Informationen zur Streuung in den Variablen verlieren können.
Hinweise: Sowohl die euklidische als auch die quadrierte euklidische Distanz reagieren sensibel auf standardisierte Daten. Wenn Sie Daten während der Analyse standardisieren möchten, sollte die City-Block-Distanz verwendet werden. |
Hinweis: Wenn die Zentroid- und Medianmethode ausgewählt sind, wird die quadrierte euklidische Distanz bevorzugt verwendet. |
Die K-Means-Clusteranalyse wird verwendet, um Beobachtungen durch eine K Anzahl von Clustern zu klassifizieren. Die Idee ist, die Distanz zwischen den Daten und dem entsprechenden Clusterzentroid zu minimieren. Die K-Means-Analyse basiert auf einem der einfachsten Alogorithmen zum Lösen von Clusterproblemen und ist daher viel schneller als die hierarchische Clusteranalyse.
Üblicherweise sollte ein Benutzer die K-Means-Analyse in Betracht ziehen, wenn der Stichprobenumfang größer als 100 ist. Beachten Sie jedoch, dass die K-Means-Clusteranalyse davon ausgeht, dass der Benutzer den Zentroid der Beobachtungen bereits kennt oder zumindest die Anzahl der zu clusternden Gruppen.
Der erste Schritt bei der K-Means-Clustermethode ist das Suchen nach den Clusterzentren. Führen Sie die hierarchische Clusteranalyse mit einem kleinen Stichprobenumfang aus, um ein sinnvolles Clusterzentrum für den Anfang zu erhalten. Alternativ können Sie die Anzahl der Cluster festlegen und dann Origin automatisch gut getrennte Werte als erstes Clusterzentrum verwenden lassen. Beachten Sie, dass die automatische Erkennung Ausreißern gegenüber sensibel ist. Daher sollten Sie sicherstellen, die Daten vor der Analyse zu überprüfen.
Wenn es fehlende Werte unter den Schulungsdaten/im Gruppenbereich gibt, wird der gesamte Fall (ganze Zeile) aus der Analyse ausgeschlossen.
Themen, die in diesem Abschnitt behandelt werden:
|