你应该避免的四个常见的统计误解

统计已成为现代社会的一种固定手段。我们在新闻报道中读到它们,它们被用来决定影响我们生活方方面面的政策。不幸的是,许多人从根本上曲解了它们。...
Illustration for article titled Four Common Statistical Misconcepti*** You Should Avoid

统计已成为现代社会的一种固定手段。我们在新闻报道中读到它们,它们被用来决定影响我们生活方方面面的政策。不幸的是,许多人从根本上曲解了它们。

发现太多****的基本利率谬论

基本利率谬论是这样运作的:假设你有一家公司,**员工占25%,**员工占75%。从外表看,这似乎是对**候选人的偏袒。我们假设这是因为在美国,性别分布大致相等。然而,这忽略了申请者的数量。如果只有10%的申请者是**,那么申请者中**的比例要高于**的比例。

另一个常见的例子是神秘的****侦察装置。试想一下,一个盒子有99%的成功率来确定一个****,并有99%的机会正确地确定一个非****。有人会假设,如果在100万人口中,有100人是****,那么这个盒子能识别出一个人是****,那么99%的可能性是正确的。实际上,这一比例更接近1%。原因是,盒子错误地响了1%的非****(9999人),以及正确地响了99%的真正的****(99人)。

导致一夫多妻制的推断

Illustration for article titled Four Common Statistical Misconcepti*** You Should Avoid

任何预测经济趋势或预测未来的人都喜欢外推。”这件事是在一段时间内发生的,因此它将继续发生。在分析过去的趋势时,我们必须记住,产生这些趋势的因素可能会发生变化。

以智能**市场份额预测为例。早在2009年,Gartner就预测,到2012年,Symbian将成为全球最大的智能**操作系统,占有39%的市场份额,而Android将只有14.5%。此外,Windows Mobile将击败紧随iPhone之后的黑莓。不用说,情况根本不是这样。

那么,为什么高德纳离我们那么远?因为外推不能解释环境的变化。微软为了支持Windows Phone而放弃了Windows Mobile,后者是诺基亚取代Symbian而采用的平台。在一个大动作中,整个预测不仅是错误的,而且是完全不可能的。事情总是在变化,这就是为什么几乎所有基于统计趋势的预测都应该合理地用“假设没有变化”这个短语

并不总是意味着因果关系的相关性(但可能)

避免“相关性并不意味着因果关系”的谬论是一个古老的爱好。事实上,它是如此古老,以至于它有自己的拉丁格言:cum hoc ergo proptor hoc。然而,与此相对应的是,经常被忽视的是,相关性引发了关于因果关系的问题。或者,引用xkcd的话(再次):“相关性并不意味着因果关系,但它确实会暗示地摇着眉毛,偷偷地做着手势,一边说‘看那边’。”

以密苏里科技大学(missouriuniversityofscience and Technology)的一个极具争议的例子为例,它发现某些类型的互联网使用与抑郁症相关。研究发现,患有抑郁症的用户更经常地查看电子邮件,观看更多视频,或者沉迷于更多的文件共享。

许多读者最初的假设是,这项研究声称使用互联网会导致抑郁。“相关性并不意味着因果关系!”可能会被用来反驳这项研究是不正确的,但它也会把婴儿和洗澡水一起扔掉。当不能直接解释为什么一件事和另一件事相关时,就需要进一步的研究,而不是彻底的解雇。

辛普森提出的既涨又减工资的悖论

Illustration for article titled Four Common Statistical Misconcepti*** You Should Avoid

辛普森悖论是一个让人心烦意乱的悖论,但它实际上只是一个复杂的数学问题。简短的版本是,有时当您在子组中检查数据时,您可以看到一个趋势,但当您在聚合中查看相同的数据时,您会看到完全相反的趋势。例如,美国自2000年以来,经通胀调整后的工资中位数有所上升,但实际上,每个工人分组的工资中位数都有所下降。

这种悖论的后果是,有时,如果你以组合形式查看数据,你可能会得出一个矛盾的结论,而不是以部分形式查看。一个著名的例子,基于一个真实的研究,发现肾结石治疗a在治疗大小肾结石时更成功,但治疗B在两组合并时更成功。

不幸的是,这使得基于辛普森悖论的数据的决策变得更加复杂。一方面,如果你知道肾结石的大小,治疗a显然更可取。但是,当您开始分割数据以产生不同的结果时,您可以分割数据以显示所需的任何内容。

对于辛普森悖论(事实上,对于任何统计数据),最好的做法是使用这些信息来引用数据的故事。统计数据在很大程度上是以数学为基础的,但它们被用来分析现实世界中的情景和情况。脱离现实,统计的价值是有限的。依靠数字作为对现实的无偏见表示是令人欣慰的,但如果不把它与现实生活中的人和情况联系起来,这些信息就近乎于一文不值。

  • 发表于 2021-05-23 13:22
  • 阅读 ( 177 )
  • 分类:互联网

你可能感兴趣的文章

你可能没有意识到的四个动作会让你在面试中显得不专业

...果你熟悉领导团队的目标,那么就更容易说明为什么他们应该让你来帮助他们实现目标。如果这个组织规模较小,而且没有出现在头条新闻中,那么就回顾一下它的博客和社交媒体,对你读到的东西准备一个全新的、彻底的视角...

  • 发布于 2021-05-16 09:40
  • 阅读 ( 122 )

avast的四个免费勒索解密工具解密锁定的文件

勒索软件,恶意软件,使攻击者能够禁用系统或加密您的数据,直到您支付他们,正在上升。如果你已经成为攻击的受害者,这四个解密工具也许可以挽救这一天。这些工具来**毒软件提供商Avast,可以免费下载和使用,它们可...

  • 发布于 2021-05-16 13:20
  • 阅读 ( 121 )

如何用统计数字欺骗自己和他人

...后定义数据的一个子集来收集数据,在分析时,这些数据应该代表整个人口。样本越大、越准确,你的结论就越准确。当然,也有一些大的方法来破坏这种统计抽样,要么是偶然的,要么是故意的。如果你收集的样本数据不好,...

  • 发布于 2021-05-16 17:29
  • 阅读 ( 112 )

求职面试要注意的四个危险信号

...人都倾向于“淡化”甚至忽略危险信号。但是,你永远不应该让自己忽视那些正在努力向你展示自己的迹象。你到底应该注意什么?下列任何一项:1.招聘经理在描述这个角色时会留空你问了一个典型的,直接的面试问题,“作...

  • 发布于 2021-05-17 10:09
  • 阅读 ( 215 )

基本方向(cardinal directions)和中间方向(intermediate directions)的区别

...与西南面相反。如果你想真正或完全向北或向南旅行,你应该沿着一条经线走。这条经线被称为子午线。经络众多。你的地球仪只显示了其中的几个。东移西移也是如此。你应该沿着一条范围线去看东西。 基本方向之间(between ca...

  • 发布于 2021-07-08 13:41
  • 阅读 ( 500 )

自学烹饪的四个阶段(以及烹饪如何改变你的生活)

...一种快乐,我非常幸运:有紧迫感和必要性——这是无法避免的。他说他经历了他认为教自己做饭的四个阶段:首先,你盲目地遵循食谱(先学习如何遵循食谱)。在第二阶段,你学习你的喜好,并开始比较和综合你所学的一些...

  • 发布于 2021-07-24 12:19
  • 阅读 ( 163 )

你在压力下窒息的四个原因(以及如何避免)

...你无法为以后的表现获得动力。关注结果第三,如果你想避免在运动中窒息,特别是当你在压力下对你已经掌握的任务表现不佳时(例如,3英尺的推杆,网球中简单的正手,或足球中的轻松传球),试着把注意力集中在结果上...

  • 发布于 2021-07-26 03:13
  • 阅读 ( 149 )

用户友好myspace的四个步骤

MySpace、超时、浏览器崩溃、诱捕广告……或不。就用户友**而言,你们这些死硬的MySpace用户可能还有希望。Mitchelaneous已经提出了一些脚本,通过这些脚本,你可以使用MySpace,而不会遇到最常见的不愉快,包括MySpace烦恼移除、...

  • 发布于 2021-08-02 05:50
  • 阅读 ( 81 )

吸引有益昆虫进入花园的四个小贴士

...请这些昆虫释放它们捕食蚜虫和螨虫的后代。 你的昆虫应该包括不同高度的植物。生长缓慢的草本植物,如百里香和牛至,为地甲虫提供了藏身之处。较高的花朵,如雏菊或宇宙花,会招手给正在寻找花蜜的气垫蝇和寄生蜂。...

  • 发布于 2021-09-11 03:26
  • 阅读 ( 201 )

置信区间:4个常见错误

...们将研究置信区间的正确解释,并调查与此统计领域相关的四个错误。 什么是置信区间(a confidence interval)? 置信区间可以表示为一系列值或以下形式: 估计±误差范围 置信区间通常以置信水平表示。​一般置信水平为90%...

  • 发布于 2021-09-27 06:37
  • 阅读 ( 379 )