伪相关

在统计学中,伪相关性,或称伪相关性,是指两个变量之间看似因果关系,但实际上并非因果关系的联系。伪关系最初会显示一个变量直接影响另一个变量,但事实并非如此。这种虚假的相关性通常是由第三个因素引起的,在检查时并不明显,有时被称为混杂因素。...

什么是伪相关(spurious correlation)?

在统计学中,伪相关性,或称伪相关性,是指两个变量之间看似因果关系,但实际上并非因果关系的联系。伪关系最初会显示一个变量直接影响另一个变量,但事实并非如此。这种虚假的相关性通常是由第三个因素引起的,在检查时并不明显,有时被称为混杂因素。

关键要点

  • 伪相关,或称为伪相关,是指两个因素看似随意相关,但实际上并不相关。
  • 因果关系的出现往往是由于图表上类似的运动,结果是巧合或第三个“混淆”因素造成的。
  • 伪相关可能由小样本或任意端点引起。
  • 统计学家和科学家使用仔细的统计分析来确定虚假的关系。
  • 确认因果关系需要对所有可能的变量进行控制的研究。

伪相关的工作原理

当两个随机变量在一个图上紧密地相互跟踪时,很容易怀疑其中一个变量的变化会导致另一个变量的变化。抛开因果关系(这是另一个话题)不谈,这个观察可以让图表的读者相信变量A的运动与变量B的运动有关,反之亦然。

然而,更仔细的统计检查可能会显示,对齐的运动是巧合,或由影响这两个变量的第三个因素造成的。这是一个虚假的相关性。使用小样本或任意端点进行的研究特别容易受到虚假性的影响。

伪相关示例

有趣的关联很容易找到,但很多都会被证明是假的。三个例子是裙子长度理论,超级碗指标,以及与大学毕业率的相关关系。

裙子长度理论

裙长理论起源于20世纪20年代,认为裙长与股市走势是相关的。如果裙子的长度是长的,相关性是股市看跌。如果衬衫的长度很短,市场就会看涨。

超级碗指标

1月下旬,人们经常会对所谓的超级碗指标喋喋不休,这表明美足会议队获胜很可能意味着股市在未来一年将走低,而国足会议队的胜利预示着市场上涨。

OpenMarkets的数据显示,自超级碗时代开始以来,这一指标的准确率一直在74%左右,即54年中的40年。这是一个有趣的话题,但可能不是一个严肃的理财顾问会推荐的客户投资策略。

教育程度和种族

社会学家们一直致力于确定哪些变量会影响教育程度。根据EducationData.org,2019年,25至29岁的白人完成大学学业的可能性比黑人高出55%。数据表明,种族对大学毕业率有因果关系;然而,影响教育程度的不是种族本身,而是社会中种族主义的影响,这是第三个“隐藏”变量。

种族主义影响有色人种,使他们在教育和经济上处于不利地位。例如,非白人社区的学校面临着更大的挑战,获得的资金更少,非白人人口的父母的工作报酬较低,用于子女教育的资源更少,许多家庭生活在粮食沙漠中,营养不良。因此,种族主义是影响教育程度的一个因果变量,而不是种族。

如何识别伪相关

统计学家和其他分析数据的科学家必须时刻警惕虚假的关系。他们使用多种方法来识别它们,包括:

  • 确保适当的代表性样品
  • 获得足够的样本量
  • 警惕任意端点
  • 控制尽可能多的外部变量
  • 使用零假设并检查强p值

许多虚假的关系可以用常识来识别。如果发现一种相关性,通常有一个以上的变量在起作用,而且这些变量往往不是很明显。

假相关常见问题解答

你怎么知道相关性是假的?

在研究结果中发现虚假关系的明显方法是运用常识。仅仅因为两件事发生并且看起来是联系在一起的,并不意味着没有其他因素在起作用。然而,要确定的是,研究方法是经过严格审查的。在研究中,所有可能影响研究结果的变量都应该包含在统计模型中,以控制它们对因变量的影响。

什么是相关性而非因果关系的例子(an example of correlation but not causation)?

一个相关的例子是,睡眠越多,白天的表现就越好。虽然有关联,但不一定有因果关系。更多的睡眠可能不是一个人表现更好的原因;例如,他们可能正在使用一种新的软件工具来提高生产力。要找到原因,必须有来自一项研究的事实证据,表明睡眠和表现之间的因果关系。

什么是伪回归的意义(the meaning of spurious regression)?

伪回归是一种统计模型,显示线性关系的误导性统计证据;换句话说,独立的非平稳变量之间的虚假相关性。

什么是虚假因果关系的例子(an example of false causality)?

错误的因果关系发生在我们因为注意到它们之间的关系而很快假设一件事导致另一件事的时候。例如,我们可以假设哈里一直在努力训练,以成为一个更快的跑步者,因为他的比赛时间已经改善。然而,现实可能是,哈里的比赛时间有所改善,因为他有新的跑鞋与最新的技术。最初的假设是错误的因果关系。

  • 发表于 2021-06-02 10:57
  • 阅读 ( 228 )
  • 分类:商业金融

你可能感兴趣的文章

是的(true)和伪临界性质(pseudo critical properties)的区别

...界性质是系统的实际临界性质,它是由热力学确定的,而伪临界性质是系统中每一个纯组分对某一特定反应的表观贡献。 临界特性是指系统在临界点的温度和压力。热力学系统的临界点是该系统相平衡曲线的终点。它是液体与...

  • 发布于 2020-09-15 23:30
  • 阅读 ( 512 )

伪反刍动物(pseudo ruminant)和反刍动物系统(ruminant systems)的区别

伪反刍动物和反刍动物的主要区别在于,伪反刍动物消化系统在胃只有三个隔室,没有反刍动物,而反刍动物消化系统在包括反刍动物在内的大胃中有四个隔室。 消化系统有四种基本类型。它们是单胃消化系统、多胃消化系...

  • 发布于 2020-10-15 12:49
  • 阅读 ( 446 )

一级(first order)和拟一级反应(pseudo first order reaction)的区别

...关键区别在于,一级反应的速率仅与一个反应物浓度线性相关,而伪一级反应是二级反应,表现为一级反应。 下面是一级反应和伪一级反应之间差异的汇总表。 总结 - 一级(first order) vs. 拟一级反应(pseudo first order reaction) 一级反...

  • 发布于 2020-11-02 16:00
  • 阅读 ( 1119 )

如何使用css选择器定位网页的一部分

... 相关:简单的CSS代码示例,你可以在10分钟内学会 ...

  • 发布于 2021-03-29 22:09
  • 阅读 ( 307 )

什么是linux上的tty?(以及如何使用tty命令)

...备文件连接到多路复用器。tty显示它是/dev/pts/2。 who tty 相关:如何在Linux中确定当前用户帐户 访问tty 您可以通过按住Ctrl+Alt键并按其中一个功能键来访问全屏TTY会话。 Ctrl+Alt+F3会弹出tty3的登录提示。 如果您登录并发出tty命令...

  • 发布于 2021-04-03 08:54
  • 阅读 ( 209 )

计算机如何产生随机数

...是类似的——它们试图得到一个不可预测的随机结果。 相关:什么是加密,它是如何工作的? 随机数生成器有许多不同的用途。除了为赌博目的生成随机数或在电脑游戏中产生不可预测的结果等明显的应用之外,随机性对于密...

  • 发布于 2021-04-08 00:19
  • 阅读 ( 204 )

去看看facebook的伪最高法院是怎么走到一起的

Facebook能有一个有意义的最高**吗? 《纽约客》上一篇由法学教授凯特科罗尼克撰写的新专题文章的标题暗示答案是肯定的。故事更复杂。 这一功能被称为“Facebook最高**的内部决策”,这是对Facebook监督委员会前所未...

  • 发布于 2021-04-16 11:03
  • 阅读 ( 162 )

从手机上获得酷炫的摄像效果,无需应用程序或手动控制即可点对点拍摄

...定曝光和焦距设置,这意味着你可以将相机指向第二个“伪对象”,锁定设置,然后指向你的常规对象。在适当的条件下,可以使用伪主题锁定所需的设置。使用“手动”曝光来修复冲洗过的照片这是我拍的一张曝光不足的照片...

  • 发布于 2021-05-27 02:17
  • 阅读 ( 132 )

假设(hypothesis)和目标(aim)的区别

...假设,是超越假设检验的目标。 它涉及到主题以及与之相关的所有数据和事实,这些数据和事实对于假设的评估和验证至关重要。每一个假设都应该有一个明确而具体的目标,以便能够更好地证明它的优点。 总结1。假设是对某...

  • 发布于 2021-06-23 11:35
  • 阅读 ( 262 )

什么是伪码(what is the pseudocode)和算法?(algorithm?)的区别

简单来说,伪代码是一种描述算法逻辑的叙述。 伪代码不是可执行代码,因此不必使用精确的语法;但是,遵循业界广泛使用的标准是很有帮助的,解决方案团队可以很容易地理解该标准。 统一建模语言(UML)和其他业务...

  • 发布于 2021-06-24 23:47
  • 阅读 ( 1626 )
半面修罗angle
半面修罗angle

0 篇文章

相关推荐