有时数字数据成对出现。也许有一位古生物学家测量了同一恐龙物种的五块化石中股骨(腿骨)和肱骨(肱骨)的长度。从臂长的角度考虑手臂长度可能是有意义的,并且计算诸如平均值或标准偏差之类的东西。但是,如果研究人员好奇地想知道这两个测量值之间是否有关系呢?仅仅看手臂和腿是不够的。相反,古生物学家应该对每个骨骼的骨骼长度进行配对,并使用一个称为相关性的统计区域。
什么是相关性?在上面的例子中,假设研究人员研究了数据,得出了一个并不令人惊讶的结果,即长臂恐龙化石的腿也更长,短臂恐龙化石的腿更短。数据散点图显示数据点都聚集在一条直线附近。然后,研究人员会说,这些化石的臂骨和腿骨的长度之间存在着很强的直线关系或相关性。要说这种相关性有多强,还需要做更多的工作。
因为每个数据点代表两个数字,所以二维散点图对可视化数据非常有帮助。假设我们实际掌握了恐龙数据,五块化石的测量结果如下:
数据的散点图,水平方向的股骨测量值和垂直方向的肱骨测量值,形成上图。每个点代表一个骨架的测量值。例如,左下角的点对应于骨架#1。右上角的点对应于骨架#5。
看起来我们可以画一条直线,非常接近所有的点。但我们如何才能确定呢?亲密在旁观者的眼中。我们如何知道我们对“亲密度”的定义与其他人相符?我们有没有办法量化这种亲密程度?
为了客观地衡量数据与直线的接近程度,相关系数起到了帮助作用。相关系数,通常表示为r,是一个介于-1和1之间的实数。r的值根据公式测量相关性的强度,消除了过程中的任何主观性。在解释r的值时,有几个准则需要牢记。
相关系数r的公式很复杂,如图所示。公式的成分是两组数值数据的平均值和标准偏差,以及数据点的数量。对于大多数实际应用来说,手工计算r是很乏味的。如果我们的数据已经通过统计命令输入到计算器或电子表格程序中,那么通常有一个内置函数来计算r。
尽管相关性是一个强大的工具,但使用它也有一些局限性:
正相关与负相关 相关性是两个变量之间关系强度的度量。相关系数根据另一个变量的变化来量化一个变量的变化程度。在统计学中,相关性与相关性的概念有关,即两个变量之间的统计关系。 皮尔逊相关系数或皮尔逊积矩相...
最简单和最常见的统计Excel计算之一是相关性。这是一个简单的统计数据,但当你想知道两个变量是否相关时,它可以提供很多信息。如果你知道正确的命令,在Excel中找到相关系数是非常容易的。 ...
...量减小,反之亦然。 在构建多元化投资组合时,采用负相关性,这样投资者可以在某些资产价格上涨而其他资产价格下跌时从中受益。 随着时间的推移,两个变量之间的相关性可能会有很大的变化。股票和债券通常具有负相关...
因果关系与相关性 在对因果关系和关联的理解和正确使用上存在许多混乱。这两个术语经常互换,特别是在健康和科学研究领域。 每当我们看到一个事件或行动与另一个事件或行动之间的联系时,脑海中浮现的是,这个事件...
...量的期望值与它们的期望值之间的变化的期望值”,而“相关性”则是“两个随机变量的期望值”。为了简化,协方差试图研究和测量变量一起变化的程度。在这个概念中,两个变量可以以相同的方式改变,而不表示任何关系。...
...定它们的含义。也就是说,本文将重点讨论经典统计学中相关性的含义,因为这是定义和明确相关性的最佳地方。 相关性在这个意义上被定义为两个变量的线性关系的强度。所以它衡量的是,如果我们增加或减少一个变量的某...
...关和回归是统计学中用来研究变量之间关系的两种方法。相关性和回归的主要区别在于相关性衡量两个变量之间的关联程度,而回归是描述两个变量之间关系的一种方法。回归还可以更准确地预测因变量对自变量给定值的取值。...
...于我们在这个过程中得到相关系数。协方差(covariance) vs. 相关性(correlation)协方差和相关性的区别在于协方差度量了两组或多组随机变量之间相关性的强弱。另一方面,相关意味着作为协方差的扩展形式。术语协方差意味着它将试...
统计界最常用的两个术语是相关性和回归。这两个术语被称为“分析”,因为它们是基于众多变量的传播。这种现象通常被称为多元分布。当需要检查两个定量变量之间的关联时,它们最常用。受访者最有可能被问及相关和回归...
...分布的两种分析方法。多元分布被描述为多变量的分布。相关性被描述为一种分析,它让我们知道两个变量“x”和“y”之间是否存在关联。另一方面,回归分析,根据自变量的已知值预测因变量的值,假设两个或多个变量之间...