クラスター分析

サマリー

アメリカの都市の過去3年分の平均気温データを使ってクラスター分析をしてみましょう。

まずはランダムに選択したデータを使い、階層的クラスター分析を行って、それを元に最適なクラスター分けを見つけたいと思います。 そのあと、分析の速いクラスター法である、K-means法クラスター分析を全体のデータに行います。

必要なOriginのバージョン: Origin 2020以降

階層的クラスター分析

  1. 新規プロジェクト、または、新規ワークブックを作成します。\Samples\Graphing\US Mean Temperature.datファイルをインポートします。
  2. D列からO列を選択します。
  3. 統計: 多変量解析: 階層的クラスター分析を選択してダイアログを開きます。
  4. 変数の隣にある三角形のボタンButton Select Data Right Triangle.pngをクリックし、コンテキストメニュー内にある列の選択を選びます。
    Cluster ex2 hcluster dialog1.png
  5. 列ブラウザダイアログの下部パネルで ... ボタンをクリックします。 データ範囲を1 から 100にします。 OKをクリックします。
    Cluster ex2 col browser.png
  6. 設定タブをクリックし、クラスター観測値に設定され、クラスターの数になっていることを確認します。 クラスター方法最長距離を選び、OKをクリックします。
    Hcluster ex2 dialog1.png
  7. Cluster 1のシートに移動します。結果の樹形図を考慮して、全体を5グループに分けることにします。
    Dendrogram2.PNG
  8. 樹形図についているカギのアイコンをクリックし、パラメータを変更をコンテキストメニューから選びます。
  9. クラスターの数にし、タブ内にあるクラスター中心のチェックを付けます。OKをクリックします。
    Cluster ex2 hcluster dialog.png
    Cluster ex2 hcluster dialog01.png
  10. 結果の樹形図ではどのように観測値がクラスター分けされているかよくわかります。レポートシート内の樹形図をダブルクリックするとグラフウィンドウとして開くことができます。ここで、樹形図にテキストラベルや矢印の追加といった編集を加えることができ、グラフウィンドウの右上にある閉じるボタンButton close embedded.pngをクリックするとレポートシートの埋め込みグラフに戻せます。
    Hcluster ex2 dendrogram.png
  11. 樹形図の一部分を抜き取ってみたい場合、クリックしてその部分を選択し、右クリックして新しいウィンドウにブランチを複製を選択します。これにより、枝分かれした部分のみが新しいグラフウィンドウに表示されます。
    Dendrogram zoom1.PNG
Origin 2019b以降、hclusterダイアログのプロットタブに、樹形図のY軸に類似性を表示するためのラジオボタンが表示されます(デフォルトは距離です)。

元のデータをK-means法クラスターで分析する

  1. Cluster1ワークシートのクラスター中心を右クリックし、コンテキストメニューから新しいシートとしてコピーを作成を選びます。新しく作成されたクラスター中心シートを初期のクラスター中心としてK-means法クラスター分析を行います。
    Cluster ex2 cluster center.png
  2. 元のデータ(US Mean Temperatureワークシート)に戻り、列Dから列Oを選択します。メニューから統計:多変量解析:K-means法クラスター分析を選びます。
  3. オプションタブの初期のクラスター中心を指定するにチェックを付けます。 初期のクラスター中心の隣にある、ワークシートから選択するButton Select Data Interactive.pngのボタンを押します。これにより、ダイアログが小さくなります。
  4. クラスター中心シートに行き、列Dから列Oを選択します。 小さくなったダイアログにあるボタンをクリックしてダイアログを元に戻します。
  5. プロットタブ内でグループグラフを選択します。入力データブランチ内のX範囲の隣にある、ワークシートから選択するButton Select Data Interactive.pngのボタンを押します。これにより、ダイアログが小さくなります。元のワークシートUS Mean Temperatureに戻り、列(B):Longtitudeを選択します。 小さくなったダイアログにあるボタンをクリックして元に戻します。
  6. Y範囲の隣にある三角形ボタンButton Select Data Right Triangle.pngを選び、C(Y):Latitudeを選びます。 OKをクリックします。
    Kmeans ex2 dialog.png
  7. K-Means Plot Data1のワークシートをアクティブにします。 観測データは各都市の緯度に対応した5つのクラスターにまとめられたことが分かります。
    Group graph.png

必要に応じて、さらなる操作を行うために、クラスタメンバーシップ列の出力先を入力データの隣などにすることもできます。

Cluster Membership.png