在统计学中,离群点是指与样本中其他数据点有明显差异的数据点。通常情况下,数据集中的离群点可以提醒统计学家注意实验的异常或测量的错误,这可能会导致他们从数据集中省略离群点。如果他们确实从数据集中省略了异常值,那么从研究中得出的结论可能会发生重大变化。正因为如此,知道如何计算和评估离群值对于确保正确理解统计数据非常重要。...
步骤
- 1学会如何识别潜在的离群值。在决定是否从一个给定的数据集中省略离群值之前,首先,显然,我们必须识别数据集的潜在离群值。一般来说,离群值是指与数据集中其他数值所表达的趋势差别很大的数据点,换句话说,它们位于其他数值之外。通常在数据表或(特别是)图表上很容易发现这一点。如果数据集被直观地表达在图表上,离群点将 "远离 "其他数值。例如,如果一个数据集中的大多数点形成一条直线,那么离群值将不能被合理地理解为符合这条线。让我们考虑一个数据集,它代表了一个房间里12个不同物体的温度。如果其中11个物体的温度在华氏70度(摄氏21度)以内,但第12个物体,即烤箱,其温度为华氏300度(摄氏150度),粗略的检查可以告诉你,烤箱可能是一个离群值。
- 2将所有数据点从低到高排列。在计算数据集中的离群值时,第一步是找到数据集的中位数(中间值)。如果数据集中的数值按照从低到高的顺序排列,这项任务就会大大简化。因此,在继续之前,请以这种方式对你的数据集中的值进行排序。让我们继续上面的例子。下面是我们的数据集,代表一个房间里几个物体的温度。{71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}.如果我们将数据集中的数值从低到高排序,我们的新数值集是。{69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
- 3计算数据集的中位数。数据集的中位数是指一半的数据位于上面,一半的数据位于下面的数据点--本质上,它是数据集中的 "中间 "点。如果数据集包含奇数的点,这很容易找到--中位数是指其上方和下方的点数量相同的点。然而,如果有偶数个点,那么,由于没有单一的中间点,应该对两个中间点进行平均以找到中位数。请注意,在计算离群值时,中位数通常被指定为变量Q2---这是因为它位于Q1和Q3之间,即下四分位数和上四分位数,我们将在后面定义。不要被点数为偶数的数据集所迷惑---两个中间点的平均值往往是一个没有出现在数据集本身的数字---这是好的。然而,如果中间的两个点是同一个数字,显然,平均数也将是这个数字,这也是可以的。在我们的例子中,我们有12个点。中间的两个项是第6和第7点,分别是70和71。因此,我们的数据集的中位数是这两个点的平均值:((70+71)/2),=70.5。
- 4计算下四分位数。这个点,我们将把变量Q1分配给它,是25%(或四分之一)的观察值所处的数据点。换句话说,这是你的数据集中低于中位数的点的中间点。如果有偶数的值低于中位数,你必须再次平均两个中间值来找到Q1,就像你可能要做的那样,找到中位数本身。这意味着,为了找到下四分位数,我们需要对底部6个点中的两个中间点进行平均。底层6个点中的第3和第4点都等于70。因此,它们的平均值是((70+70)/2),=70。70将是我们Q1的数值
- 5计算出上四分位数。这个点被指定为变量Q3,是25%的数据位于其上方的数据点。找到Q3与找到Q1几乎相同,只是在这种情况下,要考虑到中位数以上的点,而不是中位数以下的点。继续上面的例子,中位数以上6个点中的两个中间点是71和72。对这两个点进行平均,可以得到((71+72)/2),=71.5。71.5将是我们第三季度的数值。
- 6找出四分位数范围。现在我们已经定义了Q1和Q3,我们需要计算这两个变量之间的距离。从Q1到Q3的距离是通过从Q3减去Q1而得到的。你得到的四分位数范围的值对于确定数据集中非离群点的边界至关重要。在我们的例子中,我们的Q1和Q3的值分别是70和71.5。为了找到四分位数范围,我们要减去Q3-Q1:71.5-70=1.5。注意,即使Q1、Q3或两者都是负数,这也是可行的。例如,如果我们的Q1值是-70,我们的四分位数范围将是71.5-(-70)=141.5,这是正确的。
- 7找到数据集的 "内部栅栏"。通过评估异常值是否落在一组被称为 "内部围栏 "和 "外部围栏 "的数字边界内来识别。落在数据集内部围栏之外的点被归类为小离群点,而落在外部围栏之外的点则被归类为大离群点。要找到你的数据集的内部栅栏,首先,用四分位数范围乘以1.5。然后,把这个结果加到Q3,再从Q1中减去。在我们的例子中,四分位数范围是(71.5-70),或1.5。用这个数字乘以1.5,得到2.25。我们把这个数字加到Q3,再从Q1中减去,就可以找到内围栏的边界,如下所示:71.5+2.25=73.7570-2.25=67.75因此,我们内围栏的边界是67.75和73.75。在我们的数据集中,只有烤箱的温度--300度--位于这个范围之外,因此可能是一个温和的离群值。然而,我们还没有确定这个温度是否是一个主要的离群点,所以在这之前,我们不要得出任何结论。
- 8找到数据集的 "外围栏"。这与内围栏的方法相同,只是四分位数范围要乘以3,而不是1.5。在我们的例子中,将上述四分位数范围乘以3,得到(1.5*3),或4.5。我们以同样的方式找到外围栏的边界:71.5+4.5=7670-4.5=65.5我们外围栏的边界是65.5和76.任何位于外围栏之外的数据点都被认为是主要的离群值。在这个例子中,烤箱的温度是300度,远远超出了外部围栏,所以它绝对是一个主要的离群值。
- 9使用定性评估来确定是否要 "抛出 "异常值。使用上述方法,可以确定某些点是小的离群点、大的离群点,还是根本就不是离群点。然而,不要搞错了--将一个点确定为离群点只是标志着它是一个可以从数据集中省略的候选点,而不是一个必须被省略的点。一个离群点与数据集中的其他点不同的原因,对于决定是否省略离群点至关重要。一般来说,可以归因于某种错误的离群点--例如测量、记录或实验设计的错误--会被省略掉。另一方面,那些不能归因于错误的离群值,如果揭示了新的信息或没有预测到的趋势,通常不会被省略。另一个要考虑的标准是离群值是否对数据集的平均值(平均数)产生了明显的影响,使其出现倾斜或误导。如果你打算从你的数据集的平均值得出结论,这一点尤其重要。让我们评估一下我们的例子。在我们的例子中,由于烤箱极不可能通过某种不可预见的自然力量达到300度的温度,我们可以近乎肯定地得出结论:烤箱被意外地打开了,导致了异常的高温读数。另外,如果我们不省略离群点,我们的数据集的平均值是(69+69+70+70+70+71+71+72+73+300)/12=89.67度,而如果我们省略离群点,平均值是(69+69+70+70+70+71+71+72+73)/11=70。55.由于离群值可以归因于人为错误,而且说这个房间的平均温度接近90度是不准确的,我们应该选择省略我们的离群值。
- 10了解(有时)保留异常值的重要性。虽然有些异常值应该从数据集中省略,因为它们是错误造成的,并且/或者以不准确或误导的方式歪曲结果,但有些异常值应该被保留。例如,如果一个异常值似乎是真正获得的(也就是说,不是错误的结果)和/或对被测量的现象提供了一些新的见解,它们就不应该被轻易地遗漏。科学实验在处理异常值时是特别敏感的情况--省略一个错误的异常值可能意味着省略了标志着一些新趋势或新发现的信息。例如,假设我们正在设计一种新的药物来增加鱼场中鱼的大小。我们将使用我们的旧数据集({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}),只是,这次,每个点将代表一条鱼从出生起就被不同的实验药物治疗后的质量(以克为单位)。换句话说,第一种药物使一条鱼的质量为71克,第二种药物使另一条鱼的质量为70克,以此类推。在这种情况下,300克仍然是一个很大的离群值,但是我们不应该省略它,因为假设它不是由于错误造成的,它代表了我们实验中的一个重大成功。产生300克鱼的药物比其他所有药物的效果都好,所以这一点实际上是我们数据集中最重要的一点,而不是最少的一点。
- 当发现异常值时,在将其从数据集中舍弃之前,要试图解释它们的存在;它们可能指向测量错误或分布中的异常情况。
-
发表于 2022-03-11 15:07
- 阅读 ( 86 )
- 分类:教育