主成分分析の結果を解釈するには

内容

  1. 1 主成分分析結果シート
    1. 1.1 記述統計
    2. 1.2 相関行列
    3. 1.3 相関/共分散行列の固有値
    4. 1.4 抽出された固有値
    5. 1.5 スクリープロット
    6. 1.6 ローディングプロット
    7. 1.7 スコアプロット
    8. 1.8 バイプロット
  2. 2 スコアデータ

主成分分析結果シート

記述統計

記述統計表はその変数に欠損値があるか確認し、実際にいくつの事例が主成分に使用されているのか知る事ができます。

そこに一つの変数内でいくつかの欠損値があるならば、その行全体を削除することが一般的に行われます。これがリストワイズで除外と呼ばれる手法です。もし2つ以上の変数で欠損値がある場合、ペアワイズで除外するのが一般的に一番良いといわれています。

平均と標準偏差の確認で一変量/分散のグループ間の差異を見つけることもできます。平均や標準偏差が大きく異なる場合、変数が異なるスケールで計測されている可能性があるので、注意が必要です。このような場合は相関行列を分析に使用することをお勧めします。

相関行列

この表は変数間の関係を明らかにします。PCAは多量の関連する元データセット内の変数の中から、少量の独立した主成分を作ることを目的としています。一般的に大きい値はより有用なので、低い値を分析から除外する方を検討してください。

相関/共分散行列の固有値

固有値 相関/共分散行列の固有値これは全体のばらつきを各主成分に基づきながら分割したものを表しています。
割合 分散の割合は各固有値で説明されています。
累積 分散の累積割合は現在とそれ以前の主成分に基づいて計算されます。通常、i番目の要素が元の90%以上の情報を保持していた場合、要素iはそのまま残すことが進められます。
Note:もしダイアログ内の分析ラジオボックスで共分散行列を選んだ場合、各主成分間の固有値が等しいかテストするバーレット検定の結果が表に3列追加されます。

抽出された固有値

主成分変数は元の変数と線形の組み合わせ(X1,...,Xk,...,Xm)になるように定義されています。抽出された固有値の表は下記の式の係数を表しています。

Yk = Ck1X1 + Ck2X2 + ...+ CkmXm (1)


ここで

  • Ykは主成分kのk番目の主成分です。
  • C'sは表の中の係数です。

スクリープロット

スクリープロットは視覚的に主成分の的確な数を判断するのに適しています。スクリープロットは固有値対要素番号でグラフが書かれています。適当な主成分の数を決めるスクリープロットの”曲がり角”を見つけます。要素数は残りの固有値が比較的小さく、ほぼ同じ大きさになることのポイントとして使用されます。

ローディングプロット

ローディングプロットは元の値とサブスペースの次元の関係性を示しています。変数間の関係を読み取るのに使用されます。

スコアプロット

スコアプロットはデータをサブスペースに投影するものです。観測値間の関係を読み取るのに使用されます。

バイプロット

バイプロットはローディングとスコアの両方のプロットを選択された要素に関して平行に表示しているものです。

スコアデータ

このワークシートは各要素に関する主成分スコアを表示しています。