什么是残差?(residuals?)

线性回归是一种统计工具,用于确定一条直线与一组成对数据的拟合程度。最适合该数据的直线称为最小二乘回归线。这条线有多种用途。这些用途之一是针对解释变量的给定值估计响应变量的值。与此相关的是一个残差。...

线性回归是一种统计工具,用于确定一条直线与一组成对数据的拟合程度。最适合该数据的直线称为最小二乘回归线。这条线有多种用途。这些用途之一是针对解释变量的给定值估计响应变量的值。与此相关的是一个残差。

See an example of a residual plot correspondig to a particular scatterplot See an example of a residual plot correspondig to a particular scatterplot

通过执行减法获得残差。我们所要做的就是从观测到的某个x的y值中减去y的预测值。结果称为残差。

残差公式

残差的公式很简单:

残差=观测y–预测y

值得注意的是,预测值来自我们的回归线。观察值来自我们的数据集。

例子

我们将通过一个例子来说明这个公式的用法。假设我们得到以下成对数据集:

(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)

通过使用软件,我们可以看到最小二乘回归线是y=2x。我们将使用它来预测x的每个值。

例如,当x=5时,我们看到2(5)=10。这给了我们回归线上x坐标为5的点。

为了计算x=5点的残差,我们从观测值中减去预测值。由于我们数据点的y坐标为9,因此剩余值为9–10=-1。

在下表中,我们了解如何计算此数据集的所有残差:

X 观察到 预测y 残余物
1. 2. 2. 0
2. 3. 4. -1
3. 7. 6. 1.
3. 6. 6. 0
4. 9 8. 1.
5. 9 10 -1

残差特征

现在我们已经看到了一个示例,需要注意残差的一些特征:

  • 对于回归线上方的点,残差为正值。
  • 对于低于回归线的点,残差为负值。
  • 对于正好沿回归线落下的点,残差为零。
  • 残差的绝对值越大,点离回归线越远。
  • 所有残差之和应为零。在实践中,有时这个总和并不完全为零。这种差异的原因是舍入误差可能会累积。

残差的使用

残差有几种用途。一个用途是帮助我们确定我们是否有一个具有整体线性趋势的数据集,或者我们应该考虑一个不同的模型。原因是残差有助于放大数据中的任何非线性模式。通过检查残差和相应的残差图,可以更容易地观察到通过观察散点图难以看到的内容。

考虑残差的另一个原因是检查满足线性回归推断的条件。在验证线性趋势(通过检查残差)后,我们还检查残差的分布。为了能够进行回归推断,我们希望回归线的残差近似为正态分布。残差的柱状图或柱状图将有助于验证是否满足此条件。

  • 发表于 2021-10-15 20:02
  • 阅读 ( 1052 )
  • 分类:数学

你可能感兴趣的文章

滤液(filtrate)和残留(residue)的区别

...分离、物理分离或机械分离。 目录 1. 概述和主要区别 2. 什么是滤液 3. 什么是残留物 4. 并列比较-过滤液与残留物的表格形式 5. 摘要 什么是滤液(filtrate)? 滤液是经过过滤过程后我们可以得到的液体部分。它是通过我们用来过...

  • 发布于 2020-10-16 15:45
  • 阅读 ( 520 )

剩余标准差

什么是剩余标准差(residual standard deviation)? 残差标准差是一个统计术语,用于描述观察值与预测值的标准差差异,如回归分析中的点所示。 回归分析是统计学中用来显示两个不同变量之间关系的一种方法,用来描述如何从一个...

  • 发布于 2021-06-10 07:52
  • 阅读 ( 318 )

多元线性回归(mlr)

什么是多元线性回归(mlr)(multiple linear regression (mlr))? 多元线性回归(MLR),也称为多元回归,是一种使用多个解释变量来预测响应变量结果的统计技术。多元线性回归(MLR)的目标是建立解释变量(自变量)和反应变量(因...

  • 发布于 2021-06-10 11:43
  • 阅读 ( 225 )

akaike信息准则(aic)简介

...述模型“拟合”数据或观测集的统计术语。 aic不会做什么 由于Akaike信息标准(AIC)可以处理一组统计和计量经济学模型以及给定的数据集,因此它是模型选择中的一个有用工具。但即使作为一种模型选择工具,AIC也有其局限...

  • 发布于 2021-09-25 11:45
  • 阅读 ( 381 )

线性回归(linear regression)和逻辑回归(logistic regression)的区别

...而自变量由可能对因变量产生重大影响的因素组成。 什么是线性回归(linear regression)? 线性回归是一种回归分析技术,使用直线建立两个变量之间的关系。线性回归试图通过找到斜率和截距来绘制最接近数据的直线,从而定...

  • 发布于 2021-11-30 10:34
  • 阅读 ( 187 )

什么是剩余股利政策?(a residual dividend policy?)

剩余股利政策是根据与投资相关的资本支出满足后剩余的股本金额计算股利的一种方...

  • 发布于 2021-12-24 04:14
  • 阅读 ( 204 )

什么是剩余价值?(residual value?)

根据具体情况,剩余价值有两种潜在含义。在租赁情况下,如汽车租赁或办公设备租...

  • 发布于 2022-01-02 09:29
  • 阅读 ( 369 )

什么是剩余风险?(residual risk?)

剩余风险是经济学中的一个概念。它对一般经济和金融部门都有意义。基本上,它指...

  • 发布于 2022-01-03 13:22
  • 阅读 ( 263 )

什么是剩余收入机会的不同类型?(the different types of residual income opportunities?)

个人可以考虑许多不同类型的剩余收入机会。其中最受欢迎的是创建博客并将其盈利...

  • 发布于 2022-01-04 08:59
  • 阅读 ( 148 )

什么是农药残留分析?(pesticide residue analysis?)

农药残留分析是一种实验室测试,目的是在准备好的食物、水或活生物体等样品中寻...

  • 发布于 2022-01-13 17:55
  • 阅读 ( 133 )