一天午餐时,一位年轻女士正在吃一大碗冰淇淋,一位同事走到她跟前说:“你最好小心点,冰淇淋和溺水之间有很高的统计相关性。”当他进一步阐述时,她一定是困惑地看了他一眼。“在冰淇淋销售最多的日子里,溺水的人也最多。”
当她吃完我的冰淇淋后,两位同事讨论了一个事实,即仅仅因为一个变量在统计上与另一个变量相关,并不意味着一个变量是另一个变量的原因。有时有一个变量隐藏在背景中。在这种情况下,一年中的某一天隐藏在数据中。在炎热的夏天卖的冰淇淋比在下雪的冬天卖的多。夏天游泳的人比冬天多,因此夏天淹死的人比冬天多。
上述轶事是一个被称为潜伏变量的主要例子。顾名思义,潜伏变量可能是难以捉摸和难以检测的。当我们发现两个数值数据集是强相关的时,我们应该总是问,“是否还有其他原因导致这种关系?”
以下是潜在变量引起的强相关性示例:
在所有这些情况下,变量之间的关系非常密切。这通常由值接近1或-1的相关系数表示。无论这个相关系数与1或-1有多接近,这个统计数据都不能表明一个变量是另一个变量的原因。
就其性质而言,潜伏变量很难检测。一种策略(如果可用)是检查数据随时间的变化。这可以揭示季节性趋势,例如冰淇淋的例子,当数据集中在一起时,这些趋势变得模糊。另一种方法是查看异常值,并尝试确定它们与其他数据的不同之处。有时,这提供了幕后发生的事情的线索。最好的做法是积极主动;仔细质疑假设并设计实验。
在开头的场景中,假设一位善意但统计上不知情的国会议员提议禁止所有冰淇淋,以防止溺水。这样一项法案将给大部分人带来不便,迫使几家公司破产,并在该国冰淇淋行业关闭时消除数千个工作岗位。尽管本意是好的,但这项法案不会减少溺水死亡人数。
如果这个例子看起来有点牵强,请考虑下面的事实。在20世纪初,医生们注意到一些婴儿在睡眠中神秘地死于呼吸问题。这被称为婴儿床死亡,现在被称为小岛屿发展中国家。对死于SIDS的患者进行的尸检中突出的一件事是胸腺增大,这是一个位于胸部的腺体。根据SIDS婴儿胸腺增大的相关性,医生们推测异常增大的胸腺会导致呼吸不正常和死亡。
建议的解决方案是用高剂量的辐射收缩胸腺,或者完全切除腺体。这些手术死亡率很高,导致更多的死亡。可悲的是,这些手术不必进行。随后的研究表明,这些医生的假设是错误的,胸腺不是SIDS的原因。
当我们认为统计证据被用来证明医疗方案、立法和教育建议等合理性时,上述情况应该让我们停下来。在解释数据时做好工作是很重要的,特别是当涉及相关性的结果将影响他人的生活时。
当有人说,“研究表明A是B的一个原因,一些统计数据支持它,”准备好回答,“相关性并不意味着因果关系。”总是要注意数据背后隐藏着什么。
... 如果你对因果关系感兴趣,你需要使用线性回归。您还可以通过数据分析工具包访问它。(本文不会详细介绍线性回归的工作原理,但有大量免费的统计资料可以帮助您了解基础知...
...应该合理地用“假设没有变化”这个短语并不总是意味着因果关系的相关性(但可能)避免“相关性并不意味着因果关系”的谬论是一个古老的爱好。事实上,它是如此古老,以至于它有自己的拉丁格言:cum hoc ergo proptor hoc。然...
什么是相关性(correlation)? 相关性衡量两个变量之间的线性关系。通过测量和关联每个变量的方差,相关性给出了关系强度的指示。 换句话说,相关性回答了一个问题:变量A(自变量)在多大程度上解释了变量B(因变量)? ...
...是衡量两个变量之间线性关联的强度和方向的指标,没有因果关系的假设。皮尔逊系数显示相关性,而不是因果关系。皮尔逊系数范围从+1到-1,+1表示正相关,-1表示负相关,0表示无相关。 简单线性回归使用统计模型描述响应...
...一个变量随着另一个变量的减少而增加,反之亦然。 在统计学中,完全负相关用-1.0表示,0表示无相关,+1.0表示完全正相关。一个完美的负相关意味着两个变量之间的关系一直是完全相反的。 关键要点 负相关或逆相关描...
因果关系与相关性 在对因果关系和关联的理解和正确使用上存在许多混乱。这两个术语经常互换,特别是在健康和科学研究领域。 每当我们看到一个事件或行动与另一个事件或行动之间的联系时,脑海中浮现的是,这个事件...
协方差与相关 协方差和相关是概率论和统计学中的两个概念。这两个概念都描述了两个变量之间的关系。另外,两者都是测量变量之间某种依赖关系的工具。 “协方差”被定义为“两个随机变量的期望值与它们的期望值之间...
...这种相关性也出现了,那么这两个变量之间确实存在某种因果关系的可能性,比如香烟和肺癌。 什么是协会(association)? 联想可能意味着很多事情,有时甚至可以与关联互换使用。然而,本文的重点将放在不允许这种情况的...
...分布的两种分析方法。多元分布被描述为多变量的分布。相关性被描述为一种分析,它让我们知道两个变量“x”和“y”之间是否存在关联。另一方面,回归分析,根据自变量的已知值预测因变量的值,假设两个或多个变量之间...
...量的影响后,对两个变量的测量。 二元相关和偏相关是统计学中的两类相关。相关性是描述两个变量之间关系的概念。这些变量相互依赖。因此,二元相关和偏相关是对变量具有某种依赖性的度量工具。 为了确定变量之间是否...