作者:钉点帮手来源:点点帮手前两篇文章我们着重讨论了线性回归的回归系数,明确了样本和整体回归方程之间的区别回归系数和回归系数的最小二乘法估计等等,今天我们将重点介绍线性回归的残差和预测值。回归分析的残差我们前面提到,样本回归方程有两种写法:这里,残差的头上还有一个“^”(帽子),表示残差也分为总体和样本.从上面残差的计算公式也可以推导出来,因为预测值分为样本和种群,所以自然会有残差。我们在做线性回归时,一般需要满足:1)线性(L):因变量和自变量之间存在线性关系;2)独立(I):每个观测值相互独立;3)正态(N):自动当变量(X)固定时,对应的因变量(Y)服从正态分布;4)等方差(E):因变量的方差在不同的自变量值下是相等的。以上四种条件,俗称LINE条件。虽然这些条件是针对因变量的,但是我们可以通过分析残差来达到检验的目的。一般来说,如果残差满足以上四个条件,就说满足了线性回归的假设。(后面会详细介绍回归诊断的问题。)回归分析的预测值看完残差,我们来看一下预测值。这里要指出回归方程的第三种写法(一般是整体回归):看到μ的第一反应应该是均值,而且是整体均值(不是样本均值),所以称μγ“X取一定值时Y的条件总体均值”。这里的“条件总体均值”估计很多人都比较迷惑。所谓“条件”,就是根据X的值来确定Y的值,而“X的值”是确定Y的前提条件。因此严格来说,Y应该是μγ的预测值。这意味着给定X的值,我们通过回归得到的是Y的一个平均值。例如上一篇文章中提到的教育水平(X)和收入(Y)的回归方程:当X=15时,则可以计算出Y=5000。严格来说,这里计算的5000并不是某个人的具体收入,而是一群受过15年教育的人的平均收入。因为即使每个人都接受了15年的教育,他们的收入也不完全相同。而我们通过回归得到的是15年教育(X=15)的收入(Y)均值。了解了这一层之后,再看下图应该就容易多了。回归线与垂直线的交点是回归预测值和正态曲线的均值。均值对应正态分布的峰值,也就是说即使这部分人的实际收入存在差距,大部分人还是会在5000左右(X=15时)小幅波动。这里之所以有四种正态分布,是因为在X的不同层次上,Y的值会发生(系统地)变化,即Y的均值会随着X的变化而变化。这一点其实描述了回归最本质的意义。试想一下,如果Y的正态分布不随X变化,则说明X不会对Y产生影响,两者之间可能不存在线性相关。
