如何统计中确定的异常值?(outliers determined in statistics?)

离群值是与一组数据中的大多数数据差异很大的数据值。这些值不在数据中呈现的总体趋势范围内。仔细检查一组数据以查找异常值会带来一些困难。虽然很容易看出(可能是通过使用stemplot)某些值与其余数据不同,但要将该值视为异常值,其差异有多大?我们将研究一种特定的测量方法,它将为我们提供一个客观的标准,来衡量什么是异常值。...

离群值是与一组数据中的大多数数据差异很大的数据值。这些值不在数据中呈现的总体趋势范围内。仔细检查一组数据以查找异常值会带来一些困难。虽然很容易看出(可能是通过使用stemplot)某些值与其余数据不同,但要将该值视为异常值,其差异有多大?我们将研究一种特定的测量方法,它将为我们提供一个客观的标准,来衡量什么是异常值。

female student thinking at desk female student thinking at desk

四分位区间

四分位范围是我们可以用来确定极值是否确实是异常值的范围。四分位数范围基于数据集五位数汇总的一部分,即第一个四分位数和第三个四分位数。四分位范围的计算涉及一次算术运算。我们要做的就是从第三个四分位数中减去第一个四分位数。由此产生的差异告诉我们数据的中间部分是如何分布的。

确定异常值

将四分位数范围(IQR)乘以1.5,将为我们提供一种确定某个值是否为异常值的方法。如果我们从第一个四分位数减去1.5 x IQR,任何小于该数字的数据值都被视为异常值。类似地,如果我们将1.5 x IQR添加到第三个四分位数,则任何大于该数字的数据值都被视为异常值。

强异常值

一些异常值显示了与数据集其余部分的极端偏差。在这些情况下,我们可以采取上面的步骤,只更改IQR乘以的数字,并定义某种类型的异常值。如果我们从第一个四分位数减去3.0 x IQR,任何低于该数字的点都称为强异常值。同样,将3.0 x IQR添加到第三个四分位数后,我们可以通过查看大于该数字的点来定义强异常值。

弱异常值

除了强异常值,还有另一类异常值。如果数据值是异常值,但不是强异常值,则我们称该值为弱异常值。我们将通过探索几个示例来了解这些概念。

例1

首先,假设我们有数据集{1,2,2,3,3,4,5,5,9}。数字9看起来肯定是一个异常值。它远大于集合其余部分的任何其他值。为了客观地确定9是否为异常值,我们使用上述方法。第一个四分位数是2,第三个四分位数是5,这意味着四分位数范围是3。我们将四分位数范围乘以1.5,得到4.5,然后将这个数字加到第三个四分位数上。结果9.5大于我们的任何数据值。因此,不存在异常值。

例2

现在我们看的是和以前一样的数据集,除了最大值是10而不是9:{1,2,2,3,3,4,5,5,10}。第一个四分位数、第三个四分位数和四分位数之间的范围与示例1相同。当我们把1.5 x IQR=4.5加到第三个四分位数时,总和是9.5。由于10大于9.5,因此被视为异常值。

10是强异常值还是弱异常值?为此,我们需要考虑3 x IQR=9。当我们把9加到第三个四分位数时,我们得到的总数是14。由于10不大于14,因此它不是强异常值。因此,我们得出结论,10是一个弱异常值。

识别异常值的原因

我们总是需要留意异常值。有时它们是由错误引起的。其他时候,异常值表示存在以前未知的现象。我们需要认真检查异常值的另一个原因是所有对异常值敏感的描述性统计数据。配对数据的平均值、标准差和相关系数只是这些统计类型中的一小部分。

  • 发表于 2021-10-20 16:45
  • 阅读 ( 526 )
  • 分类:数学

你可能感兴趣的文章

中值的(median)和平均值(average (mean))的区别

...re for a sample, it is not a robust statistic. It is very sensitive to the outliers and oscillati***. 例如,考虑一个特定城市市民的平均收入。由于所有的数据值都被相加,然后再除以,一个非常富有的人的收入会显著影响平均值。因此,平均值并不...

  • 发布于 2020-11-03 10:03
  • 阅读 ( 483 )

如何在excel中进行基础数据分析

...的结果。因此,我们不使用stats函数,而是使用go to Excel statistics外接程序:数据分析工具包。 ...

  • 发布于 2021-03-12 01:13
  • 阅读 ( 470 )

如何(以及为什么)在excel中使用outliers函数

离群值是一个明显高于或低于数据中大多数值的值。当使用Excel分析数据时,异常值会使结果产生偏差。例如,数据集的平均值可能真正反映了您的值。Excel提供了一些有用的函数来帮助管理异常值,让我们来看看。 一个简单的...

  • 发布于 2021-04-04 02:15
  • 阅读 ( 732 )

计算机如何确定硬盘温度?

...ent with a colleague about : “How do software programs (i.e. hwmonitor) determine the temperature of the hard drive?” I said that there must be a thermometer inside the HDD and the data (via SMART) is passed as regular info to the soft which wants that info . He said : “No. There is no ther...

  • 发布于 2021-04-11 19:14
  • 阅读 ( 188 )

离群者:创造你穿过的最高科技的裤子

Outlier是一家总部位于纽约的公司,为现代都市人生产非常漂亮的裤子:它们像睡衣一样舒适,防水,防臭,而且很帅— 这一切都归功于瑞士织物炼金术士Schoeller Technologies创造的一些非常酷的技术。周五在纽约举行的PSFK会议上...

  • 发布于 2021-04-21 20:04
  • 阅读 ( 181 )

统计显著性(statistical significance)和现实意义(practical significance)的区别

介绍 统计显著性是指抽样误差影响均值差异的可能性较小。统计显著性来自所使用的数据和分析师对结果的信心。换句话说,统计显著性反映了偶然获得观测数据的低概率。 为了确定统计显著性,使用显著性水平。P值是被计...

  • 发布于 2021-06-24 15:04
  • 阅读 ( 1160 )

参数(parameter)和统计的(statistic)的区别

...个群体。我们用统计学来近似这些值。   什么是统计的(statistic)? 统计量是一个参数的估计值。统计是以样本为基础的。它是从人群中抽取的样本计算出来的。 抽样是一种收集有关人口的信息或数据的方法,而不是实际计算或...

  • 发布于 2021-06-25 04:27
  • 阅读 ( 379 )

参数(parameter)和统计的(statistic)的区别

...收的数据,而不包括整个人口。参数(parameter) vs. 统计的(statistic)参数和统计的区别在于,参数是一个用于汇总整个总体数据的值,而统计是一个用于汇总整个总体子集样本数据的值。比较参数参数统计的定义参数是人口的描述性...

  • 发布于 2021-07-10 06:18
  • 阅读 ( 840 )

什么是统计中的相关性?(correlation in statistics?)

有时数字数据成对出现。也许有一位古生物学家测量了同一恐龙物种的五块化石中股骨(腿骨)和肱骨(肱骨)的长度。从臂长的角度考虑手臂长度可能是有意义的,并且计算诸如平均值或标准偏差之类的东西。但是,如果研...

  • 发布于 2021-09-08 10:41
  • 阅读 ( 319 )

参数(a parameter)和统计数字(a statistic)的区别

在一些学科中,目标是研究一大群个体。这些群体可以是多种多样的鸟类,也可以是美国大学新生,也可以是世界各地的汽车。当不可能或甚至不可能对感兴趣群体中的每一位成员进行研究时,所有这些研究都会使用统计数据...

  • 发布于 2021-09-23 18:54
  • 阅读 ( 250 )
vwxnjjxos
vwxnjjxos

0 篇文章

相关推荐