\r\n\r\n

ちゅうしんせいこうと分散の違い

記述統計学や推測統計学では、データセットをその中心傾向、分散、歪度(データセットの分布の相対的な形状を決定する3つの最も重要な属性)に対応するいくつかの指標で記述します...

集中度合いの推移と断片化

記述統計学や推測統計学では、データセットの分布の相対的な形を決定する3つの最も重要な属性である、中心傾向、分散、歪度に対応するいくつかの指標でデータセットを記述する。

中心的なトレンドは何でしょうか?

中心傾向とは、値の分布の中心を指し、その位置を示すものである。平均値、最頻値、中央値は、データセットの傾向を表すのに最もよく使われる指標である。データセットが対称的であれば、データセットの中央値と平均値は一致する。

データセットがある場合、すべてのデータ値の合計を取り、データ数で割って平均を計算する。例えば、10人の体重(kg)を測定すると、70、62、65、72、80、70、63、72、77、79となり、10人の平均体重(kg)は次のように算出される。重さの和は70+62+65+72+80+70+63+72+77+79=710。平均=(和)/(データ数)=710/10=71(kg)です。外れ値(通常の傾向から外れたデータ点)は、平均値に影響を与える傾向があることが理解できる。したがって、外れ値がある場合、平均値だけではデータセットの中心を正しく把握することはできない。

中央値とは、データセットのちょうど真ん中にあるデータポイントのことです。中央値を算出する方法として、データ点を昇順に並べ、その中央にデータ点を配置する方法があります。例えば、1回ソートすると、前のデータセットは、62, 63, 65, 70, 72, 77, 79, 80のようになる。 したがって、(70 + 72)/2 = 71が真ん中になる。このことから、中央値はデータセットになくてもよいことがわかる。中央値は、外れ値の影響を受けない。したがって、外れ値がある場合、中央値はより良い中心傾向の指標となる。

モードとは、データセットの中で最も頻繁に出現する値である。前の例では、値70と72は両方とも2回出現するので、両方のモードである。これは、分布によっては最頻値が複数存在することを示している。モードが1つしかない場合、データセットはシングルピークドと呼ばれ、その場合、データセットはバイモーダルとなる。

地方分権とは?

分散とは、分布の中心に対するデータの広がり量のことです。分散の尺度として最もよく使われるのは、範囲と標準偏差です。

最大値から最小値を引いたものが範囲となります。先ほどの例では、最大値が80、最小値が62なので、80-62=18の範囲となりますが、この距離では分散を十分に把握することはできません。

標準偏差を算出するためには、まずデータ値の平均値からの偏差を算出する。その偏差の二乗平均平方根を標準偏差という。先の例では、平均値からの偏差は、(70-71)=-1、(62-71)=-9、(65-71)=-6、(72-71)=1、(80-71)=9となりますで、(70-71)=1、(63-71)=8、(72-71)=1、(77-71)=6、(79-71)=8。偏差の二乗和は(-1)2 + (-9)2 + (-6)2+12+92+(-1)2+(-8)2+12+62+82=366 標準偏差は √(366/10)=6.05 (kg)である。データセットに大きな偏差がない限り、このことから、ほとんどのデータは71±6.05の区間内にあると結論づけることができる。

集中トレンドと分散の違いは? - 集中トレンドは、値の分布の中心を指し、特定する - 分散は、データセットの中心を中心に広がったデータの量を指す。
  • 2020-10-29 18:49 に公開
  • 閲覧 ( 23 )
  • 分類:科学

あなたが興味を持っているかもしれない記事

匿名者
匿名者

0 件の投稿

作家リスト

  1. admin 0 投稿
  2. 匿名者 0 投稿

おすすめ