\r\n\r\n
外れ値とは、データ中の大多数の値よりも著しく高い、あるいは低い値のことである。Excelを使ってデータを分析する場合、外れ値があると結果が歪んでしまうことがあります。例えば、データセットの平均が本当にあなたの値を反映しているかもしれません。エクセルには、外れ値を管理するのに便利な関数がいくつかありますので、見てみましょう。
下図では、Eric2に割り当てられた値とRyan173に割り当てられた値で、外れ値を簡単に見つけることができます。 このようなデータセットでは、外れ値を手動で見つけて処理することは非常に簡単です。
これは、より大規模なデータセットでは当てはまりません。外れ値を識別し、統計計算から取り除くことができることが重要であり、本稿ではこのアプローチについて説明する。
データセットから外れ値を見つけるには、以下の手順で行う。
下図のデータセットの右側にあるセル領域は、これらの値を格納するために使用されます。
さっそく始めてみましょう。
データを四分位で分けた場合、それぞれのデータの集合を四分位と呼びます。この範囲の数値のうち、下位25%が第1四分位、次の25%が第2四分位、といった具合になる。外れ値の定義として最も広く使われているのは、第1四分位値より1.5低い四分位範囲(IQR)、第3四分位値より1.5高い四分位範囲のデータポイントなので、まずこのステップを踏んでいます。この値を求めるには、まず四分位がどうなっているかを知る必要がある。
Excelには、四分位を計算するための四分位関数があります。
=QUARTILE(array, quart)配列は、計算対象となる値の範囲です。四分位は、返される四分位の数を示す数値である(例:第一四分位は1、第二四分位は2、...)。
注)Excel2010では、四分位関数の改良版として、株式会社四分位とQuartile.EXC関数がMicrosoft社からリリースされています。複数のバージョンのExcelで作業する場合、QUARTILEはより下位互換性があります。
例のテーブルに戻ろう。
第一四分位を計算するには、セルF2に以下の計算式を使用します。
=QUARTILE(B2:B14,1)数式を入力する際、Excelにはquartパラメータに関するオプションのリストが表示されます。
第3四分位を計算するには、セルF3に前の四分位と同様の数式を入力しますが、1ではなく3を使って計算します。
=QUARTILE(B2:B14,3)これで、四分位点のデータポイントがセルに表示されました。
四分位範囲(IQR)は、データ中の値の中央50%であり、第1四分位と第3四分位の差として計算される。
セルF4の簡単な計算式を使って、第3四分位値から第1四分位値を引くことにする。
=F3-F2四分位間隔が表示されているのが確認できるようになりました。
下限値と上限値は、使用するデータ範囲の最小値と最大値である。これらの境界より小さい値や大きい値は、異常値である。
セルF5の下限値は、IQR値に1.5を乗じ、Q1データポイントから差し引くことで算出することにする。
=F2-(1.5*F4)注:この式の括弧は、掛け算の部分が引き算の部分より先に計算されるので不要ですが、式を読みやすくするために付けました。
セルF6の上限値を計算するために、再びIQRを1.5倍し、今度はそれをQ3のデータポイントに加える。
=F3+(1.5*F4)さて、すべての基本データの設定が終わったので、次は、下限値以下、上限値以上の異常なデータポイントを特定する。
この論理テストをOR関数で行い、この条件を満たす値を表示するために、セルC2に次の数式を入力します。
=OR(B2<$F$5,B2>$F$6)この値をC3-C14細胞で再現したところ、真の値は異常値を示しており、ご覧のように、このデータには2つの異常値がありました。
4次関数を使って、IQRを計算し、最も広く使われている異常値の定義を使ってみよう。しかし、一連の値の平均を計算し、外れ値を無視する場合、より速く、より簡単な関数があります。この手法では、以前のように外れ値を特定することはできませんが、外れ値成分と思われるものに柔軟に対応できるようになります。
必要な関数はTRIMMEANと呼ばれるもので、その構文は以下の通りです。
=TRIMMEAN(array, percent)Array は、平均を求める値の範囲である。パーセントは、データセットの上部と下部から除外するデータポイントの割合です(パーセントまたは小数値のいずれかを入力できます)。
平均値を計算し、20%の異常値を除外するために、例のセルD3に以下の数式を入力します。
=TRIMMEAN(B2:B14, 20%)ここでは、外れ値を処理するための2種類の関数を紹介します。特定のレポートニーズに基づいてそれらを識別したい、あるいは平均値などの計算からそれらを除外したいなど、Excelにはニーズに合った関数があります。