集中趨勢與分散
在描述性和推斷統計學中,用幾個指標來描述一個數據集,它對應於它的中心趨勢、離散度和偏斜度:這三個最重要的屬性決定了數據集分佈的相對形狀。
什麼是中心趨勢?
中心傾向是指並定位價值分佈的中心。平均值、模式和中位數是描述數據集中趨勢最常用的指標。如果一個數據集是對稱的,那麼數據集的中值和平均值都是一致的。
給定一個數據集,取所有數據值之和,然後除以數據數,計算出平均值。例如,10個人的體重(千克)被測量為70、62、65、72、80、70、63、72、77和79。然後十個人的平均體重(公斤)可以計算如下。權重之和為70+62+65+72+80+70+63+72+77+79=710。平均值=(總和)/(數據數量)=710/10=71(千克)。據瞭解,異常值(偏離正常趨勢的數據點)往往會影響平均值。因此,在存在異常值的情況下,僅憑平均值不能給出關於數據集中心的正確圖像。
中值是在數據集的正中間找到的數據點。計算中值的一種方法是按升序排列數據點,然後將數據點定位在中間。例如,如果一次排序,先前的數據集如下所示:62、63、65、70、70、72、72、77、79、80。因此,(70+72)/2=71處於中間位置。由此可以看出,中位數不必在數據集中。中位數不受異常值的影響。因此,在存在異常值的情況下,中位數可以更好地衡量中央趨勢。
模式是數據集中出現頻率最高的值。在前面的例子中,值70和72都出現兩次,因此,兩者都是模式。這表明,在某些分佈中,存在一個以上的模態值。如果只有一種模式,則稱數據集是單峰的,在這種情況下,數據集是雙峰的。
什麼是分散?
分散度是關於分佈中心的數據的擴散量。範圍和標準差是最常用的分散度測量方法。
範圍就是最高值減去最低值。在前面的示例中,最大值為80,最小值為62,因此範圍為80-62=18。但是距離並不能提供關於色散的足夠圖像。
為了計算標準差,首先計算數據值與平均值的偏差。偏差的均方根稱為標準差。在前面的示例中,與平均值的偏差分別為(70–71)=-1,(62–71)=-9,(65–71)=-6,(72–71)=1,(80–71)=9,(70–71)=1,(63–71)=8,(72–71)=1,(77–71)=6和(79–71)=8。偏差平方和為(-1)2+(-9)2+(-6)2+12+92+(-1)2+(-8)2+12+62+82=366。標準偏差為√(366/10)=6.05(千克)。除非數據集有很大的偏差,否則可以由此得出結論,大部分數據在71±6.05的區間內,在這個特定的例子中確實如此。
集中趨勢和分散有什麼區別?•中心趨勢是指並確定值分佈的中心•分散是指關於數據集中心的數據擴散量。 |