\r\n\r\n

平均値、中央値とモードの違い

平均値、中央値、最頻値は、記述統計学で濃度の傾向を測るために使われる主な指標である。全く別のものであり、データの集計にも使い分ける...。

平均値 vs 中央値 vs 最頻値

平均値、中央値、最頻値は、記述統計学で濃度の傾向を測るために使われる主な指標である。両者は全く別物で、データの集計方法にも違いがあります。

ザ・ミドル

算術平均は、データ値の合計をデータ値の個数で割ったもの、すなわち

 

データが標本空間のものであれば、標本平均()と呼ばれ、標本の記述統計量となる。標本の記述的尺度として最もよく用いられるが、頑健な統計量とはいえない。外れ値や振動***に対して非常に敏感である。

例えば、ある都市の市民の平均所得を考えてみましょう。すべてのデータ値を足し合わせてから割るので、超富裕層の収入が平均値に大きく影響することがあります。したがって、平均値は必ずしもデータをうまく表現しているとは言えない。

また、交流信号の場合、素子に流れる電流はプラス方向からマイナス方向へ、またはその逆へと周期的に変化する。素子に流れる電流の1周期平均を取ると0となり、素子に電流が流れていないことになるが、これは明らかに誤りである。したがって、この場合、算術平均はよくありません。

算術平均は、データが均等に分布している場合に有効な指標となる。正規分布の場合、平均は最頻値および中央値に等しい。二乗平均誤差を考慮すると残差が最も小さく、データセットを表すのに単一の数値が必要な場合、最も優れた記述指標となる。

の中央値

すべてのデータ値を昇順に並べた後の真ん中のデータ点の値を、データセットの中央値と定義する。中央値は第2四分位値、第5十分位値、第50パーセンタイル値です。

-オブザベーション(データポイント)の数が奇数の場合、中央値は順序付きリストの真ん中のオブザベーションになります。

-オブザベーション(データ点)が偶数の場合,中央値は順序付きリストの2つの中間オブザベーションの平均である.

中央値は,オブザベーションを2つのグループ,つまり,中央値より上の値を持つ1つのグループ(50%)と中央値より下の値を持つもう1つのグループ(50%)に分割する.中央値は、もっぱら歪んだ分布に用いられ、算術平均値よりもデータを代表しやすい。

モード

最頻値は、集合の中で最も頻繁に発生するオブザベーションの数です。データ集合の最頻値は、データ集合の中の各要素の頻度を数えることによって計算されます。

-複数回現れる値がない場合、そのデータセットにはパターンがない。

-さもなければ、最大頻度で発生する値は、データセットのパターンとなる。

1つの集合には複数のパターンが存在しうる。したがって、パターンはデータ集合に関する唯一の統計情報ではない。一様分布では、最頻値は1つです。離散確率分布における最頻値は、確率質量関数が最高点に達する点である。以上の説明から、大域的な極大値がモードであると言える。

次のデータセットに3つの指標を適用することを考えてみましょう。

データ:{1, 1, 2, 3, 5, 5, 6, 8, 8, 9, 9, 10, 10, 14, 14, 15, 15, 15}とする。

平均値 = (1+1+2+3+5+5+6+8+8+9+9+9+10+10+14+14+15+15+15)/25 = 8.12

中央値=9(13番目の要素)

モード=9(周波数9=5)

平均値、中央値、最頻値の違いは何ですか?

-算術平均は、値(観測値)の合計を観測値数で割ったものです。ロバストな統計量ではなく、対象となる分布の正規分布の性質に大きく依存する。一つの異常値が平均値を大きく変化させ、相対的に誤解を招くような値を与えてしまうことがある。この概念は、幾何平均、調和平均、加重平均などに拡張することができる。

-中央値は、観測値の集合の中間の値であり、外れ値の影響を比較的受けにくい。高度に歪んだ場合の要約統計量として、良い推定値を与えている。

-最頻値は、データセットの中で最も一般的な観測値である。分布が正偏差であれば、最頻値は中央値より左にあり、負偏差であれば、最頻値は中央値より右にある。

-正の偏差の場合、平均は中央値より右側にあり、負の偏差の場合、平均は中央値より左側にある。

-正規分布では、平均値、最頻値、中央値は等しくなります。

  • 2020-10-24 00:24 に公開
  • 閲覧 ( 22 )
  • 分類:科学

あなたが興味を持っているかもしれない記事

匿名者
匿名者

0 件の投稿

作家リスト

  1. admin 0 投稿
  2. 匿名者 0 投稿

おすすめ