集中趋势与分散
在描述性和推断统计学中,用几个指标来描述一个数据集,它对应于它的中心趋势、离散度和偏斜度:这三个最重要的属性决定了数据集分布的相对形状。
什么是中心趋势?
中心倾向是指并定位价值分布的中心。平均值、模式和中位数是描述数据集中趋势最常用的指标。如果一个数据集是对称的,那么数据集的中值和平均值都是一致的。
给定一个数据集,取所有数据值之和,然后除以数据数,计算出平均值。例如,10个人的体重(千克)被测量为70、62、65、72、80、70、63、72、77和79。然后十个人的平均体重(公斤)可以计算如下。权重之和为70+62+65+72+80+70+63+72+77+79=710。平均值=(总和)/(数据数量)=710/10=71(千克)。据了解,异常值(偏离正常趋势的数据点)往往会影响平均值。因此,在存在异常值的情况下,仅凭平均值不能给出关于数据集中心的正确图像。
中值是在数据集的正中间找到的数据点。计算中值的一种方法是按升序排列数据点,然后将数据点定位在中间。例如,如果一次排序,先前的数据集如下所示:62、63、65、70、70、72、72、77、79、80。因此,(70+72)/2=71处于中间位置。由此可以看出,中位数不必在数据集中。中位数不受异常值的影响。因此,在存在异常值的情况下,中位数可以更好地衡量中央趋势。
模式是数据集中出现频率最高的值。在前面的例子中,值70和72都出现两次,因此,两者都是模式。这表明,在某些分布中,存在一个以上的模态值。如果只有一种模式,则称数据集是单峰的,在这种情况下,数据集是双峰的。
什么是分散?
分散度是关于分布中心的数据的扩散量。范围和标准差是最常用的分散度测量方法。
范围就是最高值减去最低值。在前面的示例中,最大值为80,最小值为62,因此范围为80-62=18。但是距离并不能提供关于色散的足够图像。
为了计算标准差,首先计算数据值与平均值的偏差。偏差的均方根称为标准差。在前面的示例中,与平均值的偏差分别为(70–71)=-1,(62–71)=-9,(65–71)=-6,(72–71)=1,(80–71)=9,(70–71)=1,(63–71)=8,(72–71)=1,(77–71)=6和(79–71)=8。偏差平方和为(-1)2+(-9)2+(-6)2+12+92+(-1)2+(-8)2+12+62+82=366。标准偏差为√(366/10)=6.05(千克)。除非数据集有很大的偏差,否则可以由此得出结论,大部分数据在71±6.05的区间内,在这个特定的例子中确实如此。
集中趋势和分散有什么区别?•中心趋势是指并确定值分布的中心•分散是指关于数据集中心的数据扩散量。 |