什么是统计中的自举?(bootstrapping in statistics?)

自举是一种统计技术,属于更广泛的重采样范畴。这项技术涉及一个相对简单的过程,但重复次数太多,严重依赖于计算机计算。Bootstrapping提供了一种非置信区间的方法来估计总体参数。自举似乎非常神奇。继续读下去,看看它是如何得到它有趣的名字的。...

自举是一种统计技术,属于更广泛的重采样范畴。这项技术涉及一个相对简单的过程,但重复次数太多,严重依赖于计算机计算。Bootstrapping提供了一种非置信区间的方法来估计总体参数。自举似乎非常神奇。继续读下去,看看它是如何得到它有趣的名字的。

Working performing warehouse calculation on laptop.

自举的一种解释

推断统计学的一个目标是确定总体参数的值。这通常过于昂贵,甚至无法直接测量。所以我们使用统计抽样。我们对一个总体进行抽样,测量这个样本的一个统计量,然后用这个统计量来说明总体的相应参数。

例如,在巧克力工厂,我们可能想保证糖果条具有特定的平均重量。称量每一块生产出来的糖果是不可行的,所以我们使用抽样技术随机选择100块糖果。我们计算了这100块糖果的平均值,并说总体平均值与我们样本的平均值相差不大。

假设几个月后,我们想更准确地知道——或者说误差更小——在我们对生产线取样的那天,糖果条的平均重量是多少。我们不能使用今天的棒棒糖,因为太多的变量已经进入画面(不同批次的牛奶、糖和可可豆,不同的大气条件,线上不同的员工,等等)。从我们好奇的那一天起,我们所拥有的只是100磅的重量。如果没有时间机器回到那一天,那么最初的误差幅度似乎是我们所能期望的最好的。

幸运的是,我们可以使用引导技术。在这种情况下,我们从100个已知重量中随机抽样替换。然后我们称之为引导示例。由于我们允许更换,此引导样本很可能与我们的初始样本不完全相同。一些数据点可以被复制,并且在引导样本中可以省略来自初始100的其他数据点。借助计算机,可以在相对较短的时间内构建数千个引导样本。

一个例子

如前所述,要真正使用引导技术,我们需要使用计算机。下面的数值示例将有助于演示该过程是如何工作的。如果我们从示例2、4、5、6、6开始,那么以下所有示例都是可能的引导示例:

  • 2 ,5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

技术史

自举技术在统计学领域相对较新。布拉德利·埃夫隆(Bradley Efron)在1979年的一篇论文中发表了第一次使用。随着计算能力的提高和成本的降低,引导技术变得越来越普遍。

为什么命名为bootstrapping?

“自力更生”这个名字来源于“通过自力更生提升自己”这个短语。这指的是一些荒谬和不可能的事情。尽你最大的努力,你不可能通过拖拽靴子上的皮革碎片将自己抬到空中。

有一些数学理论证明了自举技术的合理性。然而,使用自举确实让人觉得你在做不可能的事情。尽管通过反复重复使用同一个样本,您似乎无法改进对总体统计数据的估计,但事实上,自举可以做到这一点。

  • 发表于 2021-09-29 23:17
  • 阅读 ( 329 )
  • 分类:数学

你可能感兴趣的文章

参数(parameter)和统计的(statistic)的区别

...个群体。我们用统计学来近似这些值。   什么是统计的(statistic)? 统计量是一个参数的估计值。统计是以样本为基础的。它是从人群中抽取的样本计算出来的。 抽样是一种收集有关人口的信息或数据的方法,而不是实际计算或...

  • 发布于 2021-06-25 04:27
  • 阅读 ( 381 )

参数(parameter)和统计的(statistic)的区别

...收的数据,而不包括整个人口。参数(parameter) vs. 统计的(statistic)参数和统计的区别在于,参数是一个用于汇总整个总体数据的值,而统计是一个用于汇总整个总体子集样本数据的值。比较参数参数统计的定义参数是人口的描述性...

  • 发布于 2021-07-10 06:18
  • 阅读 ( 841 )

什么是统计中的相关性?(correlation in statistics?)

有时数字数据成对出现。也许有一位古生物学家测量了同一恐龙物种的五块化石中股骨(腿骨)和肱骨(肱骨)的长度。从臂长的角度考虑手臂长度可能是有意义的,并且计算诸如平均值或标准偏差之类的东西。但是,如果研...

  • 发布于 2021-09-08 10:41
  • 阅读 ( 322 )

参数(a parameter)和统计数字(a statistic)的区别

在一些学科中,目标是研究一大群个体。这些群体可以是多种多样的鸟类,也可以是美国大学新生,也可以是世界各地的汽车。当不可能或甚至不可能对感兴趣群体中的每一位成员进行研究时,所有这些研究都会使用统计数据...

  • 发布于 2021-09-23 18:54
  • 阅读 ( 250 )

什么是统计范围?(a range in statistics?)

在统计学和数学中,范围是数据集最大值和最小值之间的差值,是数据集的两个重要特征之一。范围的公式是数据集中的最大值减去最小值,这使统计学家能够更好地了解数据集的变化程度。 数据集的两个重要特征包括数据...

  • 发布于 2021-09-23 22:54
  • 阅读 ( 482 )

引导示例

自举是一种强大的统计技术。当我们使用的样本量很小时,它特别有用。在通常情况下,小于40的样本量不能通过假设正态分布或t分布来处理。引导技术对于少于40个元素的样本非常有效。原因是引导涉及到重采样。这些技术对...

  • 发布于 2021-09-23 23:14
  • 阅读 ( 175 )

如何在统计中寻找自由度(find degrees of freedom in statistics)

许多统计推断问题要求我们找到自由度的数目。自由度的数量从无限多个中选择一个单一的概率分布。这一步骤在计算过程中经常被忽略,但却是至关重要的细节​置信区间和假设检验的运作。 自由度的数量没有一个单一的...

  • 发布于 2021-09-24 12:18
  • 阅读 ( 291 )

什么是统计中的随机数字表?(a table of random digits in statistics?)

随机数字表在统计实践中非常有用。随机数字对于选择简单的随机样本特别有用。 什么是随机数字表(a table of random digits)? 随机数字表是数字0、1、2、3、4、5、6、7、8、9的列表。但是,是什么将这些数字的列表与随机数字...

  • 发布于 2021-09-28 19:20
  • 阅读 ( 404 )

什么是统计中的人口?(a population in statistics?)

...中的人口数据 有许多方法可以在统计中使用人口数据。StatisticsShowHowto.com解释了一个有趣的场景,你抗拒诱惑,走进一家糖果店,店主可能会提供一些她的产品样品。你会从每个样品中吃一颗糖果;你不会想吃掉店里所有糖果的...

  • 发布于 2021-10-07 11:10
  • 阅读 ( 390 )

什么是统计时刻?(moments in statistics?)

数理统计中的矩涉及基本计算。这些计算可用于找到概率分布的均值、方差和偏度。 假设我们有一组数据,共有n个离散点。一个重要的计算,实际上是几个数字,叫做sth矩。值为x1、x2、x3…的数据集的sth矩,xn由以下公式给...

  • 发布于 2021-10-07 19:08
  • 阅读 ( 262 )
vzrbpfz
vzrbpfz

0 篇文章

相关推荐