统计稳健性

在统计学中,稳健性或稳健性一词是指根据研究希望实现的统计分析的特定条件,统计模型、测试和程序的强度。如果满足研究的这些条件,可以通过数学证明来验证模型的正确性。...

在统计学中,稳健性或稳健性一词是指根据研究希望实现的统计分析的特定条件,统计模型、测试和程序的强度。如果满足研究的这些条件,可以通过数学证明来验证模型的正确性。

Paper stripe folded into a peak chart

许多模型都基于在处理真实数据时不存在的理想情况,因此,即使不完全满足条件,模型也可能提供正确的结果。

因此,稳健统计是指当数据来自广泛的概率分布时产生良好性能的任何统计,这些概率分布在很大程度上不受给定数据集中离群值或与模型假设的小偏差的影响。换句话说,稳健的统计数据能够抵抗结果中的错误。

观察一个普遍持有的稳健统计程序的一种方法是,只需看t程序,它使用假设检验来确定最准确的统计预测。

观察t程序

对于鲁棒性的一个例子,我们将考虑T过程,其中包括具有未知人口标准偏差的总体均值的置信区间,以及关于人口均值的假设检验。

t程序的使用假设如下:

  • 我们正在处理的数据集是一个简单的人口随机样本。
  • 我们从中取样的人口是正态分布的。

在实际例子中,统计学家很少有正态分布的总体,因此问题变成了“我们的t程序有多稳健?”

一般来说,我们有一个简单随机样本的条件比我们从一个正态分布总体中抽样的条件更重要;这是因为中心极限定理确保了近似正态的抽样分布——样本量越大,样本均值的抽样分布越接近正态。

t程序如何作为稳健统计数据发挥作用

因此,t-过程的稳健性取决于样本大小和样本分布。这方面的考虑包括:

  • 如果样本量很大,这意味着我们有40个或更多的观测值,那么即使分布是倾斜的,也可以使用t程序。
  • 如果样本量在15到40之间,那么我们可以对任何形状的分布使用t-过程,除非存在异常值或高度偏态。
  • 如果样本量小于15,那么我们可以对没有异常值、单峰且几乎对称的数据使用t过程。

在大多数情况下,稳健性是通过数理统计中的技术工作建立起来的,幸运的是,我们不一定需要进行这些高级数学计算来正确利用它们;我们只需要了解具体统计方法的稳健性的总体指导原则。

T-程序作为稳健统计数据发挥作用,因为它们通常通过将样本大小分解为应用程序的基础,根据这些模型产生良好的性能。

  • 发表于 2021-09-25 14:58
  • 阅读 ( 253 )
  • 分类:数学

你可能感兴趣的文章

职业聚光灯:我作为数据科学家的工作

...来。可悲的是,即使是与此相关的统计方法,如敏感性和稳健性分析,也被遗忘了,因为“算法”在许多数据科学课程中占据主导地位。图片改编自尼莫(皮克斯湾)。

  • 发布于 2021-05-19 11:27
  • 阅读 ( 245 )

意思是(mean)和中值的(median)的区别

平均数(或平均数)和中位数是统计术语,在理解一组统计分数的中心趋势方面具有某种相似的作用。虽然平均值传统上是衡量样本中点的常用方法,但它的缺点是,与样本的其他部分相比,任何单个值过高或过低都会影...

  • 发布于 2021-07-04 16:14
  • 阅读 ( 1198 )

t检验(t-test)和f试验(f-test)的区别

...一旦N>30,单样本t检验通常被认为对违反这一假设具有稳健性。]什么是f试验(f-test)?“F检验”使用F分布。它使用F统计量来比较两个方差。检测两个正态分布随机变量方差同一性的F检验:-我们对正态分布的两个独立随机变量...

  • 发布于 2021-07-07 02:30
  • 阅读 ( 1054 )

会计概念(accounting concept)和惯例(convention)的区别

...了新会计惯例的发展。一些流行的会计惯例包括一致性、稳健性、披露和重要性等。会计概念与会计惯例的主要区别会计概念和会计惯例有一个共同的目标,那就是从财务报表中改进对财务信息的看法。然而,这两个术语是不同...

  • 发布于 2021-07-07 03:11
  • 阅读 ( 443 )

参数化(parametric)和非参数(nonparametric)的区别

统计领域包含两类变量:相依变量和独立变量。同样地,统计学家使用各种类型的检验,其中两种是参数检验和非参数检验。这些是在统计应用的广阔世界中使用的不同统计程序的极其广泛的分类。参数化(parametric) vs. 非参数(non...

  • 发布于 2021-07-11 01:50
  • 阅读 ( 511 )

mint.com追踪您的资产和总净值

...的整体净值。这可能不是最近手头上的一个如此吸引人的统计数据,但它确实让Mint成为你货币生活中一个更加稳健的管理者。至少在我看来,Mint的资产管理有一个明显的缺陷,那就是它没有折旧。特别是对于汽车,这可能会导...

  • 发布于 2021-07-29 10:37
  • 阅读 ( 89 )

最佳免费web日志分析工具

...么 在开源社区中广受尊重的古老程序。 还包括ftp和邮件统计信息。 健全的报告框架。 我们不喜欢什么 仪表盘的视觉吸引力是有限的——它们很坚固,但并不漂亮。 某些地理定位功能需要插件,这些插件可能需要或可能需...

  • 发布于 2021-09-04 22:03
  • 阅读 ( 135 )

两个总体比例之差的置信区间

置信区间是推断统计的一部分。本主题的基本思想是使用统计样本估计未知总体参数的值。我们不仅可以估计参数的值,还可以调整我们的方法来估计两个相关参数之间的差异。例如,我们可能想找出支持某项立法的美国男性...

  • 发布于 2021-10-07 13:03
  • 阅读 ( 311 )

两样本t检验和置信区间示例

...否正态分布。由于我们有足够大的样本量,通过t-过程的稳健性,我们不一定需要变量为正态分布。 由于条件满足,我们进行了两次初步计算。 标准误差 标准误差是对标准偏差的估计。对于此统计,我们将样本的样本方差...

  • 发布于 2021-10-08 08:13
  • 阅读 ( 326 )

什么是会计稳健性?(accounting conservatism?)

... 会计稳健性是许多公司用来限制会计信息风险的财务方法。这种谨慎的方法预计利润会降低,损失也会增加。公司可以使用这种方法来避免就公司的财务状况误导内部或外部业...

  • 发布于 2022-02-06 19:58
  • 阅读 ( 83 )