什么是四分位间距规则?(the interquartile range rule?)

四分位范围规则在检测异常值时很有用。异常值是数据集整体模式之外的单个值。这个定义有些模糊和主观,因此在确定数据点是否真的是异常值时,有一个规则可以应用是很有帮助的,这就是四分位范围规则的作用。...

四分位范围规则在检测异常值时很有用。异常值是数据集整体模式之外的单个值。这个定义有些模糊和主观,因此在确定数据点是否真的是异常值时,有一个规则可以应用是很有帮助的,这就是四分位范围规则的作用。

The interquartile range (IQR) is the difference of the first and third quartiles.

什么是四分位区间(the interquartile range)?

任何一组数据都可以用五个数字的摘要来描述。这五个数字为您提供了查找模式和异常值所需的信息,包括(按升序排列):

  • 数据集的最小值或最小值
  • 第一个四分位Q1,表示所有数据列表中四分之一的路径
  • 数据集的中位数,表示整个数据列表的中点
  • 第三个四分位Q3,代表所有数据列表中四分之三的路径
  • 数据集的最大值或最高值。

这五个数字告诉一个人更多关于他们的数据,而不是一次看所有的数字,或者至少让这更容易。例如,范围(从最大值中减去最小值)是数据在集合中分布情况的一个指标(注:范围对异常值高度敏感,如果异常值也是最小值或最大值,则范围将无法准确表示数据集合的宽度)。

否则很难推断出射程。四分位间距与范围相似,但对异常值不太敏感。四分位范围的计算方法与范围的计算方法大致相同。要找到它,只需从第三个四分位数中减去第一个四分位数:

IQR = Q3 – Q1.

四分位范围显示了数据是如何围绕中位数分布的。它对异常值的敏感度低于范围,因此更有用。

使用四分位规则查找异常值

虽然四分位范围通常不受它们的影响,但它可以用来检测异常值。这是通过以下步骤完成的:

  1. 计算数据的四分位范围。
  2. 将四分位数范围(IQR)乘以1.5(用于识别异常值的常数)。
  3. 在第三个四分位数上加1.5倍(IQR)。任何大于此值的数字都是可疑的异常值。
  4. 从第一个四分位数中减去1.5 x(IQR)。任何小于此值的数字都是可疑的异常值。

请记住,四分位规则只是一条经验法则,通常适用,但并不适用于所有情况。一般来说,您应该始终通过研究生成的异常值来跟踪异常值分析,看看它们是否有意义。应在整个数据集的上下文中检查通过四分位法获得的任何潜在异常值。

四分位规则示例问题

请参见四分位数范围规则的示例。假设您有以下数据集:1、3、4、6、7、7、8、8、10、12、17。该数据集的五位数汇总为最小值=1,第一个四分位数=4,中位数=7,第三个四分位数=10,最大值=17。您可以查看数据并自动地说17是一个异常值,但四分位间距规则怎么说?

如果要计算此数据的四分位范围,您会发现:

Q3 – Q1 = 10 – 4 = 6

现在把你的答案乘以1.5,得到1.5x6=9。比第一个四分位数小九分位数是4-9=-5。没有数据比这少。比第三个四分位数多9个是10+9=19。没有比这更大的数据。尽管最大值比最近的数据点多5个,但四分位数范围规则表明,它可能不应被视为该数据集的异常值。

  • 发表于 2021-10-08 03:17
  • 阅读 ( 557 )
  • 分类:数学

你可能感兴趣的文章

如何(以及为什么)在excel中使用outliers函数

... 计算第1和第3个四分位数(我们将稍微讨论一下它们是什么)。 评估四分位范围(我们还将进一步解释这些)。 返回数据范围的上限和下限。 使用这些边界来标识外围数据点。 下图中数据集右侧的单元格区域将用于存储这些...

  • 发布于 2021-04-04 02:15
  • 阅读 ( 734 )

五分位数

什么是五分位数(quintiles)? 五分位数是一个数据集的统计值,代表给定人口的20%,因此第一个五分位数代表数据中最低的五分之一(1%到20%);第二个五分位数代表第二个五分位数(21%到40%),依此类推。 五分位数用于为给...

  • 发布于 2021-06-11 02:16
  • 阅读 ( 832 )

法国数字(Nombre)

... 学习80到99 标准法语中没有“八十”这个词,*相反,80是四分,字面意思是四个二十(想想“四分”)。81是四分之一,82是四分之二,依此类推,一直到89.80四分之一,81是四分之一,82是四分之一,82是四分之二,依此类推,...

  • 发布于 2021-09-08 14:45
  • 阅读 ( 130 )

什么是第一和第三个四分位数?(the first and third quartiles?)

...2=15。因此,第三个四分位数Q3=15。 总结 - 四分位区间(interquartile range) vs. 五号(five number) 四分位数有助于我们更全面地了解整个数据集。第一个四分位数和第三个四分位数为我们提供了有关数据内部结构的信息。数据的中间部...

  • 发布于 2021-09-21 10:01
  • 阅读 ( 249 )

什么是内部和外部围栏?(inner and outer fences?)

数据集的一个重要特征是确定它是否包含任何异常值。异常值在我们的数据集中被直观地认为是与大多数其他数据有很大差异的值。当然,对异常值的这种理解是不明确的。要被视为异常值,该值与其余数据的偏差应该有多大...

  • 发布于 2021-09-24 12:25
  • 阅读 ( 409 )

什么是中轴?(the midhinge?)

在一组数据中,一个重要特征是位置或位置的度量。最常见的这种测量是第一和第三个四分位数。这些分别表示我们数据集的下25%和上25%。另一个与第一和第三个四分位数密切相关的位置测量由中间铰链给出。 在了解如何计...

  • 发布于 2021-10-07 07:54
  • 阅读 ( 217 )

什么是最大值和最小值?(the maximum and minimum?)

最小值是数据集中的最小值。最大值是数据集中的最大值。了解更多关于这些统计数据如何不那么琐碎的信息。 出身背景 一组定量数据具有许多特征。统计学的目标之一是用有意义的值描述这些特征,并提供数据摘要,而...

  • 发布于 2021-10-07 18:46
  • 阅读 ( 425 )

统计学中百分位数的定义及计算方法

...经常用于理解考试分数和生物特征测量。 百分位数是什么意思 不应将百分位数与百分比混淆。后者用于表示一个整体的分数,而百分位数是指低于该值的数据集中某个百分比的数据。实际上,两者之间存在着显著的差异。例...

  • 发布于 2021-10-07 19:10
  • 阅读 ( 1180 )

理解统计学中的四分位区间

...使用四分位范围而不是测量数据集分布的范围的主要优点是四分位范围对异常值不敏感。为了了解这一点,我们将看一个例子。 根据上述数据集,四分位数范围为3.5,范围为9–2=7,标准偏差为2.34。如果我们将最高值9替换为极...

  • 发布于 2021-10-09 19:54
  • 阅读 ( 436 )

如何统计中确定的异常值?(outliers determined in statistics?)

...定的测量方法,它将为我们提供一个客观的标准,来衡量什么是异常值。 四分位区间 四分位范围是我们可以用来确定极值是否确实是异常值的范围。四分位数范围基于数据集五位数汇总的一部分,即第一个四分位数和第三...

  • 发布于 2021-10-20 16:45
  • 阅读 ( 529 )