平均值vs中值vs模式
平均數、中位數和模式是描述性統計中用來衡量集中趨勢的主要指標。它們完全不同,用於彙總數據的情況也不同。
中庸
算術平均數是數據值的總和除以數據值的個數,即。
If the data is from a sample space it is called a sample mean (), which is a descriptive statistic of the sample. Although it is the most commonly used descriptive measure for a sample, it is not a robust statistic. It is very sensitive to the outliers and oscillati***.
例如,考慮一個特定城市市民的平均收入。由於所有的數據值都被相加,然後再除以,一個非常富有的人的收入會顯著影響平均值。因此,平均值並不總是很好地表示數據。
另外,在交流信號的情況下,通過元件的電流週期性地從正方向變化到負方向,反之亦然。如果我們取單個週期內通過元件的平均電流,它將給出0,這意味著沒有電流通過元件,這顯然是不正確的。因此,在這種情況下,算術平均是不好的。
當數據分佈均勻時,算術平均值是一個很好的指標。對於正態分佈,平均值等於模態和中值。當考慮均方根誤差時,它的殘差最小;因此,當需要用單個數字表示數據集時,它是最好的描述性度量。
中值的
將所有數據值按升序排列後的中間數據點的值定義為數據集的中值。中位數是第2個四分位數、第5個十分位數和第50個百分位數。
•如果觀測值(數據點)的數量為奇數,則中值為位於有序列表中間的觀測值。
•如果觀測值(數據點)為偶數,則中值為有序列表中兩個中間觀測值的平均值。
中值將觀察結果分為兩組,即一組(50%)的值高於中值,另一組(50%)的值低於中值。中位數專門用於偏態分佈,並且比算術平均值更能代表數據。
模式
模態是一組觀測值中出現最多的一個數。通過計算數據集中每個元素的頻率來計算數據集的模式。
•如果沒有值出現不止一次,則數據集沒有模式。
•否則,以最大頻率出現的任何值都是數據集的一種模式。
一個集合中可以存在多個模式;因此,模式不是數據集的唯一統計信息。在均勻分佈中,有一種模式。離散概率分佈的模式是概率質量函數達到其最高點的點。從上述解釋來看,我們可以說,全局極大值是模式。
考慮對以下數據集應用所有三個度量。
數據:{1,1,2,3,5,5,5,5,6,8,8,9,9,9,9,10,10,10,14,14,15,15,15}
平均值=(1+1+2+3+5+5+5+5+6+6+8+8+9+9+9+9+10+10+10+14+14+15+15+15)/25=8.12
中值=9(第13個元素)
模式=9(頻率9=5)
平均值、中位數和模態有什麼區別?
•算術平均值是值(觀測值)除以觀測值數量的總和。它不是一個穩健的統計,並且嚴重依賴於所考慮的分佈中的正態分佈性質。一個單獨的離群值可能導致平均值的顯著變化,給出相對誤導的值。這個概念可以推廣到幾何平均、調和平均、加權平均等。
•中值是觀測值集的中間值,受異常值的影響相對較小。作為高度傾斜情況下的彙總統計量,它可以給出一個很好的估計。
•模式是數據集中最常見的觀測值。如果分佈為正偏態,則模式位於中值左側;如果為負偏態,則模式位於中值右側。
•如果正偏差,則平均值位於中值右側;如果負偏差,則平均值位於中值左側。
•在正態分佈中,平均值、模式和中位數均相等。