2Dカーネル密度


2Dカーネル密度グラフは、確率分布関数のノンパラメトリックな手法のカーネル密度推定をベースにした、散布図の平滑化色濃度表現です。密度推定の目的は、データの有限標本をとり、データ点がない場所を含むあらゆる場所で、根底にある確率分布関数を推定することです。カーネル密度推定では、各データポイントの寄与は、単一ポイントから周辺の範囲に平滑化されます。この平滑化密度グラフは、散布図の平均傾向を表示します。

2Dカーネル密度グラフの作成

2D密度推定グラフを作図するには、

  1. 1つのY列を選択します。
  2. 2Dカーネル密度グラフのダイアログを開くには、メニューから作図 > 等高線図:2Dカーネル密度を選択します。
  3. plot_kde2 ダイアログで、手法X/Yのグリッド点数表示するポイント数プロットタイプ を選択します。
  4. OKをクリックして、2D密度推定グラフを作図します。
    2D-Kernel.png

plot_kde2ダイアログ

2D Kernel Density dialog.png

入力データ

入力データを指定します。

設定

帯域幅の手法
2Dカーネル密度グラフの帯域幅計算手法を指定します。
  • 2変数のカーネル密度推定
  • 経験則
密度の手法
XYグリッドを定義するカーネル密度の計算手法を指定します。
  • 正確な推定
Ks2densityの式に従って密度値を計算するオプションを選択します。大きいデータセットの場合、正確な計算には大規模な計算が必要になる可能性があります。
  • ビン化概算
このオプションを選択して、密度値の概算を計算します。サンプルが大きいときに推奨されるオプションです。
表示するポイント数
下からN個の密度ポイントを密度グラフに重ねます。
密度点の補間
計算方法を指定して、密度画像に重ねるポイントを決定します(詳細は以下のアルゴリズムを参照してください)。通常、元データの数が大きい(50000以上など)場合、このオプションを選択して処理速度を上げることをお勧めします。
X/Yのグリッド点数
密度推定のための等間隔なグリッド点の数を指定します。
表示するポイント数
全てのチェックボックスが選択されていないときに、下からN個の密度ポイントを密度グラフに重ねます。デフォルトで選択される全てのチェックボックスが選択されていると、全てのポイントが表示されます。
グリッド範囲
当座のステップとして、X/Yデータからグリッドされた値の行列が生成され、カーネル密度プロットが行列値から作成されます。デフォルトでは、グリッド範囲は行列の最小および最大X/Y値です。手動で値を入力する場合には、自動のチェックを外します。
  • X最小
  • X最大
  • Y最小
  • Y最大
プロットタイプ
プロットタイプを指定してください。
  • 等高線
密度行列を使用して等高線図を作成
  • イメージ
密度行列を使用してイメージプロットを作成

密度推定データ

グラフのために計算されたデータを保存する場所を設定します。

表示データ

表示する散布図のデータを保存する場所を指定します。表示するポイント数が0出ないときに使用できます。

アルゴリズム

カーネル密度推定は、散乱した点の密度を推定するノンパラメトリック手法です。密度推定の目的は、既存の散布点から、データが観測されない場所を含むあらゆる場所で基礎となる確率密度関数を推定することです。カーネル関数は、データムを中心に作成されます。これにより、カーネルがデータムに関して対称になります。カーネル密度推定により、データポイントの寄与が平滑化され、データポイントの密度の全体像が得られます。

Density grids.png

密度計算方法

XYグリッドを定義するカーネル密度の計算手法を指定します。

正確な推定

密度の値は、以下の式に基づいて計算されます。

f(x,y,\text{vX},\text{vY},w_x,w_y) = \frac{1}{n} \sum_{i=1}^{n} \frac{1}{ 2\pi w_x w_y }  \exp \left(-\frac{(x-\text{vX}_i)^2}{2w_x ^2} - \frac{(y-\text{vY}_i)^2}{2w_y^2} \right)

ここで、n はベクトルvX または vY の用ぞの数で、\text{vX}_i はベクトルvXのi番目 の要素、\text{vY}_i は、ベクトルvYのi番目 の要素です。w_xw_y は、最適な帯域幅の値です。

ビン化概算

2Dカーネル密度の正確な推定値の近似により密度計算を高速化します。

最初の2Dビン化が(x、y)ポイントで実行され、ビンカウントの行列を取得します。 次に、2D高速フーリエ変換を使用して、各グリッドの密度値を計算するための離散畳み込みを実行します。

密度値の4乗根は、密度スケールをカラースケールにマッピングするために計算されます

帯域幅の手法

2変数のカーネル密度推定

線形拡散プロセスに基づいて帯域幅を計算します。

経験則

wx およびwy の推定は、単純に以下のようにして計算されます。

w_x = \frac{\sigma_x}{2n^{1/6}}
w_y = \frac{\sigma_y}{2n^{1/6}}

ここで、n は、ベクトルvXまたはvYの大きさで、\sigma_x\sigma_y はそれぞれデータセットvX、vYのサンプル標準偏差です。


密度点の補間

計算方法を指定して、密度画像に重ねるポイントを決定します。

このオプションを選択すると、ポイントのカーネル密度は、定義されたXYグリッドの密度行列での補間により計算されます。元データが大きい場合は、このオプションを選択すると処理速度が大幅に向上します。

このオプションを選択しない場合、密度の値は、正確な推定手法によって計算されます。