两个总体比例之差的置信区间

置信区间是推断统计的一部分。本主题的基本思想是使用统计样本估计未知总体参数的值。我们不仅可以估计参数的值，还可以调整我们的方法来估计两个相关参数之间的差异。例如，我们可能想找出支持某项立法的美国男性投票人口与女性投票人口的百分比差异。...

置信区间是推断统计的一部分。本主题的基本思想是使用统计样本估计未知总体参数的值。我们不仅可以估计参数的值，还可以调整我们的方法来估计两个相关参数之间的差异。例如，我们可能想找出支持某项立法的美国男性投票人口与女性投票人口的百分比差异。

Formula for confidence interval for difference of two proportions

我们将看到如何通过为两个总体比例的差异构建置信区间来进行此类计算。在这个过程中，我们将研究这个计算背后的一些理论。我们将看到，在如何构造单个总体比例的置信区间以及两个总体均值差异的置信区间方面存在一些相似之处。

概括性

在查看我们将使用的具体公式之前，让我们考虑一下这种类型的置信区间适合的整体框架。我们将研究的置信区间类型的形式由以下公式给出：

估计+/-误差幅度

许多置信区间都属于这种类型。我们需要计算两个数字。这些值中的第一个是参数的估计值。第二个值是误差范围。这个误差幅度说明了我们确实有一个估计。置信区间为我们提供了未知参数的一系列可能值。

条件

在进行任何计算之前，我们应该确保满足所有条件。为了找到两个总体比例差异的置信区间，我们需要确保以下条件成立：

我们有两个来自大群体的简单随机样本。这里的“大”意味着群体至少是样本大小的20倍。样本量用n1和n2表示。
我们的个体是独立选择的。
我们的每个样本至少有十个成功和十个失败。

如果列表中的最后一项不满意，那么可能有办法解决这个问题。我们可以修改加上四个置信区间的结构，并获得稳健的结果。当我们继续前进时，我们假设上述所有条件都已满足。

样本和人口比例

现在我们已经准备好构造置信区间。我们从估计人口比例之间的差异开始。这两种人口比例都是通过抽样比例来估计的。这些样本比例是通过除以每个样本中的成功次数，然后除以相应的样本大小得到的统计数据。

第一个人口比例由p1表示。如果我们的样本中来自该人群的成功数量为k1，那么我们的样本比例为k1/n1。

我们用p̂1表示这个统计。我们把这个符号读作“p1帽子”，因为它看起来像上面有帽子的符号p1。

以类似的方式，我们可以从第二个群体中计算样本比例。此总体的参数为p2。如果我们的样本中来自该人群的成功数量为k2，我们的样本比例为p̂2=k2/n2。

这两个统计数据成为我们置信区间的第一部分。p1的估计值为p̂1。p2的估计值为p̂2。所以p1-p2差的估计值是p̂1-p̂2。

样本比例差异的抽样分布

接下来我们需要得到误差范围的公式。为此，我们首先考虑P 1的采样分布。这是一个具有p1和n1试验成功概率的二项分布。该分布的平均值为比例p1。这类随机变量的标准偏差的方差为p1（1-p1）/n1。

p̂2的抽样分布与p̂1相似。只要将所有指数从1改为2，我们就得到了一个二项分布，平均值为p2，方差为p2（1-p2）/n2。

我们现在需要一些数理统计的结果来确定p̂1-p̂2的抽样分布。该分布的平均值为p1-p2。由于方差相加的事实，我们看到抽样分布的方差为p1（1-p1）/n1+p2（1-p2）/n2。分布的标准偏差是该公式的平方根。

我们需要做一些调整。第一个是p̂1-p̂2的标准偏差公式使用了p1和p2的未知参数。当然，如果我们真的知道这些值，那么这将不是一个有趣的统计问题。我们不需要估计p1和p2之间的差异。。相反，我们可以简单地计算出精确的差异。

这个问题可以通过计算标准误差而不是标准偏差来解决。我们所需要做的就是用样本比例取代人口比例。标准误差是根据统计数据而不是参数计算的。标准误差很有用，因为它可以有效地估计标准偏差。这对我们来说意味着我们不再需要知道参数p1和p2的值。由于已知这些样本比例，标准误差由以下表达式的平方根表示：

p̂1（1-p̂1）/n1+p̂2（1-p̂2）/n2。

我们需要解决的第二个问题是抽样分布的特殊形式。事实证明，我们可以使用正态分布来近似p̂1-p̂2的抽样分布。原因有点技术性，但将在下一段中概述。

p̂1和p̂2的抽样分布都是二项式的。这些二项分布中的每一个都可以用正态分布很好地近似。因此p̂1-p̂2是一个随机变量。它是两个随机变量的线性组合。每一个都近似于正态分布。因此，p̂1-p̂2的抽样分布也是正态分布。

置信区间公式

我们现在已经具备了收集置信区间所需的一切。估计值为（p̂1-p̂2），误差幅度为z*[p̂1（1-p̂1）/n1+p̂2（1-p̂2）/n2.]0.5。我们为z*输入的值由置信度C决定。常用的z*值为1.645（90%置信度）和1.96（95%置信度）。z*的这些值表示标准正态分布的部分，其中正态分布的C%介于-z*和z*之间。

以下公式为我们提供了两个总体比例差异的置信区间：

（p̂1-p̂2）+/-z*[p̂1（1-p̂1）/n1+p̂2（1-p̂2）/n2.]0.5

发表于 2021-10-07 13:03
阅读 ( 313 )
分类：数学

你可能感兴趣的文章

波动性的用途和限度

...应该在一个标准差（+/-）之内；95%的时候，回报率应该在两个标准差之内。正态分布图的两个性质是细尾巴和完全对称。窄尾意味着回报率与平均值相差超过三个标准差的几率非常低（约为0.3%）。对称性意味着上行收益的频率...

发布于 2021-06-02 22:36
阅读 ( 171 )

如何在gbm中使用montecarlo模拟

...信区间内，在指定的时间范围内（我们总是需要为VaR指定两个条件：置信区间和时间范围）尝试预测一个投资组合的最坏可能损失。在本文中，我们将使用金融学中最常见的模型之一：几何布朗运动（GBM）来回顾应用于股票价...

发布于 2021-06-12 06:33
阅读 ( 163 )

t检验(t-test)和z-检验(z-test)的区别

T检验和z检验是两个样本均值比较中假设检验的常用术语。值得注意的是，这两个检验都是假设检验的参数过程，因为它们都是在区间尺度上测量的变量。假设，是指经过进一步观察、调查和科学实验，可以接受或拒绝的猜想。...

发布于 2021-07-07 03:27
阅读 ( 1632 )

excel中具有t分布的函数

...函数返回学生T分布的右尾。 T.DIST.2T函数返回学生T分布的两个尾部。这些函数都有类似的参数。这些论点依次是：值x，表示沿x轴分布的位置自由度的数目。 T.DIST函数有第三个参数，它允许我们在累积分布（输入1）与否...

发布于 2021-09-08 10:39
阅读 ( 389 )

加上四个置信区间

...解释了短语“加四”。然后，我们将这四个观察结果分为两个假设的成功和两个失败，这意味着我们在成功总数中添加了两个。最终结果是，我们用（Y+2）/（n+4）替换每个Y/n实例，有时这个分数用p表示，上面有一个波浪号。 ...

发布于 2021-09-23 01:32
阅读 ( 157 )

无偏和有偏估计量

推断统计学的目标之一是估计未知的总体参数。该估计通过从统计样本构造置信区间来执行。一个问题是，“我们的估计值有多好？”换句话说，“从长远来看，我们估计总体参数的统计过程有多准确。确定估计值的一种方法...

发布于 2021-09-23 21:23
阅读 ( 226 )

引导示例

...间。尽管用于确定置信区间的其他统计技术假设我们知道总体的平均值或标准偏差，但自举法只需要样本。在本例中，我们假设样本为1、2、4、4、10。引导样本我们现在从样本中重新取样并替换，形成所谓的引导样本。每...

发布于 2021-09-23 23:14
阅读 ( 178 )

置信区间：4个常见错误

...虑一个正常的人口，标准偏差为1，平均为5。一个样本有两个数据点，每个数据点的值为6，其样本平均值为6。总体平均值的95%置信区间为4.6至7.4。这显然与95%的正态分布不重叠，因此它不会包含95%的人口。错误3 第三个错误...

发布于 2021-09-27 06:37
阅读 ( 379 )

置信区间在推断统计中的应用

...常见的置信区间是一个总体均值、总体方差、总体比例、两个总体均值之差和两个总体比例之差的置信区间。

发布于 2021-09-28 16:19
阅读 ( 317 )

如何计算总体标准差(calculate population standard deviation)

...平均值或平均值更远。有两种类型的标准偏差计算。总体标准偏差是指一组数字方差的平方根。它用于确定得出结论（如接受或拒绝假设）的置信区间。稍微复杂一点的计算称为样本标准偏差。这是一个如何计算方差和总体...

发布于 2021-10-01 13:34
阅读 ( 478 )