アルゴリズム(ROC Curve)

ここでは、次の表記が使われます。

x_i\,\! : ケース i に対する結果スコアをテスト

n_{TP}\,\! : 真の正の判定数

n_{FN}\,\! : 偽の負の判定数

n_{TN}\,\! : 真の負の判定数

n_{FP}\,\! : 偽の正の判定数

n_{-}\,\!: 負の実際の状態を持つケースの数

n_{+}\,\!: 正の実際の状態を持つケースの数

n_{-=j}\,\!: 結果が~に等しい負のケースの数

n_{+>j}\,\!: : 結果が~より大きい正のケースの数

n_{+=j}\,\!: : 結果が~に等しい正のケースの数

n_{-<j}\,\!: : 結果が~より小さい負のケースの数


ROC値

1- 特異性 (X): 1-\frac{n_{TN}}{n_{TN}+n_{FP}}\,\!

敏感度 (Y):\frac{n_{TP}}{n_{TP}+n_{FN}}\,\!

ROC曲線以下の面積

x\,\!を検定結果変数の状態値とします。x_{-}\,\!は、 x\,\!値が負の実際の状態値で、 x_{+}\,\!は値が正の実際の状態値です。そして、ROC曲線以下の"true"面積のノンパラメトリック近似性、\theta \,\! は下記のようになります。

 A_Z=\frac 1{n_{+}n_{-}}\sum_{j=1}^{n_{-}}\sum _{i=1}^{n_{+}}\Psi (x_{+},x_{-})

ここでn_{+}\,\!は、 D\,\!+のサンプルサイズ、 n_{+}\,\!!は、 D\,\!-のサンプルサイズで、以下のようになります。

\Psi (x_{+},x_{-})=\,\! 
\begin{cases} 
  1,  & \mbox{if }x_{+}>x_{-} \\
  0.5, & \mbox{if }x_{+}=x_{-} \\
  0, & \mbox{if }x_{+}<x_{-} 
\end{cases}

A_z\,\!は、ROC曲線以下の観測された面積で、このROC曲線は、連続したポイントを台形法などにより直線で接続したものです。

A_z\,\!を計算する別の方法は、以下のようになります。

A_Z=\frac 1{n_{+}+n_{-}}\sum \left\{ n_{-=j}n_{+>j}+\frac{n_{-=j}n_{+=j}}2\right\}

ROC曲線以下の面積のSE

A_z\,\!の標準偏差は、次の式で計算できます。

SE(A_Z)=\sqrt{\frac{A_Z(1-A_Z)+(n_{+}-1)(Q_1-A_Z^2)+(n_{-}-1)(Q_2-A_Z^2)}{n_{+}n_{-}}} \,\!

ここで

Q_{1=\frac 1{n_{-}n_{+}^2}}\sum n\__{=j}[n_{+>j}^2+n_{+>j}n_{+=j}+\frac{n_{+>j}^2}3] \,\!

および

Q_{2=\frac 1{n_{-}^2n_{+}}}\sum n_{+=j}[n_{->j}^2+n_{->j}n_{-=j}+\frac{n_{-=j}^2}3] \,\!

ROC曲線以下の面積の漸近の信頼区間

ROC曲線以下の真の面積に対する2方向の漸近の信頼区間c\%=(100-\alpha )\%\,\!

A_Z\pm SE(A_Z)\,\!

帰無仮説における漸近のP値は、 \theta=0.5\ \,\!であるのに対し、 対立仮説は \theta \neq 0.5\ \,\!

A_z\,\!は、  \theta=0.5\ \,\!であるような帰無仮説において漸近的に標準なので、  \theta=0.5\ \,\!であるような帰無仮説の漸近のP値を計算できます。それに対し、対立仮説は \theta \neq 0.5\ \,\!

P\left( \left| Z\right| >\left| \frac{A_Z-0.5}{SD(A_Z)|_{\theta =0.5}}\right| \right) =2P\left( Z>\left| \frac{A_Z-0.5}{SD(A_Z)\mid _{\theta =0.5}}\right| \right)

ノンパラメトリックな場合において、

SD(A_Z)|_{\theta =0.5}=\sqrt{\frac{\theta (1-\theta )+(n_{+}-1)(Q_1-\theta ^2)+(n_{-}-1)(Q_2-\theta ^2)}{n_{+}n_{-}}}|_{\theta =0.5}\,\!

=\sqrt{\frac{0.5(1-0.5)+(n_{+}-1)(\frac 13-0.5^2)+(n_{-}-1)(\frac 13-0.5^2)}{n_{+}n_{-}}}

最適なカットポイント値

カットポイント値は、これら2つの量の等価性の最大化(SpEqualSe)によって定義されます。これは、ROC曲線のmin(abs(1-x-y))です。