Clusteranalyse

Zusammenfassung

Wir führen eine Clusteranalyse für die Durchschnittstemperaturen in Städten der USA über einen Zeitraum von drei Jahren durch.

Hierbei beginnen wir mit einer hierarchischen Clusteranalyse mit zufällig ausgewählten Daten, um die beste Methode zum Clustern zu finden. Die K-Means-Analyse, eine schnelle Clustermethode, wird dann für den gesamten ursprünglichen Datensatz durchgeführt.

Origin-Version mind. erforderlich: Origin 2020

Hierarchische Clusteranalyse

  1. Öffnen Sie ein neues Projekt oder eine neue Arbeitsmappe. Importieren Sie die Datendatei \Samples\Graphing\US Mean Temperature.dat.
  2. Markieren Sie die Spalten D bis O.
  3. Wählen Sie Statistik: Multivariate Analyse: Hierarchische Clusteranalyse, um den Dialog zu öffnen.
  4. Klicken Sie auf der Registerkarte Eingabe auf die dreieckige Schaltfläche Button Select Data Right Triangle.png neben Variablen und klicken Sie dann auf Spalten wählen im Kontextmenü.
    Cluster ex2 hcluster dialog1.png
  5. Klicken Sie im unteren Bedienfeld des Dialogfelds Spaltenbrowser auf die Schaltfläche .... Legen Sie den Datenbereich auf 1 bis 100 fest. Klicken Sie auf OK.
    Cluster ex2 col browser.png
  6. Klicken Sie auf die Registerkarte Einstellungen und stellen Sie sicher, dass Cluster auf Beobachtungen gesetzt ist und Anzahl der Cluster auf 1. Wählen Sie für die Cluster-Methode die Option Entferntester Nachbar und klicken Sie dann auf OK.
    Hcluster ex2 dialog1.png
  7. Wechseln Sie zum Blatt Cluster 1. Nach der Untersuchung des sich ergebenden Dendrogramms werden die Daten in 5 Gruppen geclustert.
    Dendrogram2.PNG
  8. Klicken Sie auf das Schlosssymbol in dem Dendrogramm oder Ergebnisbaum und dann auf Parameter ändern im Kontextmenü.
  9. Setzen Sie auf der Registerkarte Einstellungen die Anzahl der Cluster auf 5 und aktivieren Sie dann das Kontrollkästchen Clusterzentrum im Zweig Eigenschaften. Klicken Sie auf OK.
    Cluster ex2 hcluster dialog.png
    Cluster ex2 hcluster dialog01.png
  10. In dem sich ergebenden Dendrogramm ist deutlich zu sehen, wie die Beobachtungen geclustert sind. Beachten Sie, dass Sie doppelt auf das eingebettete Dendrogramm im Berichtsblatt klicken können, um das Dendrogramm in seinem eigenen Fenster zu öffnen. Von hier aus können Sie das Dendrogramm benutzerdefiniert anpassen -- beispielsweise Textbeschriftungen, Pfeile etc. hinzufügen --und dann auf die Schaltfläche Schließen Button close embedded.png in der oberen rechten Ecke des Diagrammfensters klicken, um die Änderungen im eingebetteten Diagramm im Berichtsblatt zu übernehmen.
    Hcluster ex2 dendrogram.png
  11. Um sich auf einen bestimmten Unterbaum zu konzentrieren, klicken Sie auf einen Knoten, um ihn auszuwählen. Klicken Sie dann mit der rechten Maustaste auf ihn und wählen Sie Zweig in neuem Fenster duplizieren. Der ausgewählte Unterbaum wird in einem neuen Diagrammfenster geöffnet.
    Dendrogram zoom1.PNG
Beachten Sie, dass Sie seit Origin 2019b auf der Registerkarte Diagramm des Dialogs hcluster eine Option für die Anzeige von Ähnlichkeit auf der Y-Achse Ihres Dendrogramms finden können (Distanz ist noch immer die Standardauswahl).

Originaldaten mit der K-Means-Clusteranalyse analysieren

  1. Klicken Sie mit der rechten Maustaste auf Clusterzentrum und wählen Sie Eine Kopie als neues Blatt erstellen im Kontextmenü. Das neu erstellte Blatt Clusterzentrum wird als Anfängliche Clusterzentren in der K-Means-Clusteranalyse verwendet.
    Cluster ex2 cluster center.png
  2. Wechseln Sie zum Arbeitsblatt mit den Quelldaten (US Mean Temperature) und markieren Sie Col(D) bis Col(O). Wählen Sie Statistik: Multivariate Analyse: K-Means-Clusteranalyse.
  3. Aktivieren Sie das Kontrollkästchen Anfängliche Clusterzentren festlegen auf der Registerkarte Optionen. Klicken Sie auf die interaktive Schaltfläche Button Select Data Interactive.png neben Anfängliche Clusterzentren. Der Dialog wird minimiert.
  4. Wechseln Sie zu Clusterzentrum und markieren Sie Col(D) bis Col(O). Klicken Sie auf die Schaltfläche im minimierten Dialog, um den Dialog wiederherzustellen.
  5. Wählen Sie auf der Registerkarte Diagramm die Option Gruppendiagramm. Klicken Sie auf die interaktive Schaltfläche Button Select Data Interactive.png neben X-Bereich. Der Dialog wird minimiert. Wechseln Sie zurück zum Quellarbeitsblatt US Mean Temperature und markieren Sie die Spalte Col(B):Longtitude. Klicken Sie auf die Schaltfläche im minimierten Dialogfeld, um es wiederherzustellen.
  6. Klicken Sie auf die dreieckige Schaltfläche Button Select Data Right Triangle.png neben Y-Bereich und wählen Sie dann C(Y), Latitude. Klicken Sie auf OK.
    Kmeans ex2 dialog.png
  7. Aktivieren Sie das Arbeitsblatt K-Means Plot Data1. Sie können sehen, dass die Daten in 5 Gruppen geclustert wurden, entsprechend den Breitengraden der Städte.
    Group graph.png

Anwender können auch das Ausgabeziel der Spalte Clusterzugehörigkeit auswählen, z. B. direkt neben den Eingabedaten, für mögliche weitere Operationen.

Cluster Membership.png