外れ値を検出する

統計的に、他のデータと比べて数値として離れている値を外れ値といいます。Originは外れ値を探してテストするツールと手法を提供します。

繰り返し計測されるデータセットに外れ値があるか判断する場合には、Grubbs検定やDixon's Q検定のようなツールも提供していますし、Q-Qプロットを通じて大まかに視覚化する事も可能です。

回帰から外れ値を検出するには、正規残差を使う事ができます。

データポイントが外れ値であることを統計的に判別したら、「プロット操作・オブジェクト作成」ツールバーの領域マスクツールボタンRegional Mask Tool.pngを使ってポイントをマスクすることができます。


Grubbs検定

繰り返し計測されたデータが列にリストされている場合、外れ値の有無を検出するにはGrubbs検定を使います。

  1. メニューから統計:記述統計:Grubbs検定と操作し、grubbsダイアログを開きます。
  2. 入力データ範囲を設定し、有意水準と他の設定を指定してOKをクリックします。

Grubbs Test.png

または

  1. コマンドウィンドウを開きます。
  2. Xファンクションからgrubbs を直接呼び出します。

結果はコマンドウィンドウ結果ログの両方に出力します。また、外れ値のグラフをダイアログで選択した場合、作図データを含むワークシートも出力されます。

ox 疑わしいポイントの値
index 疑わしいポイントの行インデックス
gstat 疑わしいポイントから計算されたg値
critical 指定された有意水準の棄却限界g値
pval 検定のためのp値
sig sig=1 は外れ値がある事を意味し、 sig=0 は外れ値が無いことを意味します。
conclusion 統計結果に基づき、結果の一文を掲載します。
rd 外れ値のグラフオプションが選択されていた時、そのデータを入力したワークシートの範囲を示します。
rt レポート表を出力するワークシート範囲を示します。

DixonのQ検定

繰り返し計測されたシリーズが列にリストされている(標本サイズが3から10)場合、外れ値の有無を検出するにはDixonのQ検定を使います。

  1. メニューから統計:記述統計:DixonのQ検定と操作し、qtestグを開きます。
  2. 入力データ範囲と有意水準の設定を指定してOKをクリックします。

Dixons Q Test.png

または

  1. コマンドウィンドウを開きます。
  2. Xファンクションから qtestを直接呼び出します。

結果はコマンドウィンドウ結果ログの両方に出力されます。

ox 疑わしいポイントの値
index 疑わしいポイントの行インデックス
qstat 疑わしいポイントから計算されたQ値
critical 指定された有意水準の棄却限界Q値
sig sig=1 は外れ値がある事を意味し、 sig=0 は外れ値が無いことを意味します。
conclusion 統計結果に基づき、結果の一文を掲載します。
rd 外れ値のグラフオプションが選択されていた時、そのデータを入力したワークシートの範囲を示します。
rt レポート表を出力するワークシート範囲を示します。

外れ値を残差プロットから検出する

回帰(線形、多項式、非線形)を実行して、正規化した残差を使って、どのデータポイントが外れ値なのかを判別します。

次の簡単なチュートリアルは残差プロットから外れ値を検出する方法を示します。

  1. 新しいワークブックを開き、Samples\Curve Fitting\Outlier.datファイルを開きます。
  2. 2番目の列をクリックして選択し、メニューから「作図:シンボル図:散布図」を選択して散布図を作成します。
  3. グラフをアクティブにしたうえでメニューから解析:フィット:線形フィットと操作して、線形フィットダイアログを開きます。以前に「線形フィット」ダイアログを使ったことがある場合、サブメニューが開きますので、「>>ダイアログを開く」サブメニューを選択します。
  4. ダイアログ内のフィットオプションツリーノードを開き、図上値によるフィットのチェックボックスにチェックを付けます。
  5. 残差解析』ツリーノードを開き、『正規化』チェックボックスにチェックを付けます。
  6. ダイアログの一番上にある「再計算」ドロップダウンリストを「自動」にし、ダイアログの一番下にあるOKボタンをクリックします。ダイアログが閉じ、データに線形回帰が実行されます。
  7. データワークブックの「FitLinearCurves1」結果シートを選択し、右方向にスクロールして、「標準化残差」列を表示します。ここで、このデータの6行目の値は-2.54889なので、これが外れ値であるとわかります。

    DetectOutlier 001.png
  8. グラフをアクティブにして、「プロット操作・オブジェクト作成」ツールバーの領域マスクツールのボタンをマウスで数秒押します。フライアウトメニューの最初の項目現プロットを対象にマスクを付加するサブメニューを選択します。

    MaskToolbar.png

  9. 上記のサブメニューでグラフの6番目のデータポイントをクリックして、マスクします。これにより線形フィットでの入力データが変わり、自動更新機能が働きます。このマスクしたデータを除外して線形フィットが再度実行されます。グラフ内のフィット曲線と貼り付けたパラメータが自動的に更新されます。結果のグラフは、次のようになります。

    OutlierRemovalGraph.jpg