当前位置: 首页 > 后端技术 > Python

统计线性回归分析

时间:2023-03-25 21:36:33 Python

1。回归模型介绍我们先来看看什么是回归模型。以下解释来自百度百科:回归模型是一种研究因变量(target)和自变量(predictor)的预测建模技术。该技术通常用于预测分析、时间序列建模和发现变量之间的因果关系。回归模型最重要的两个应用场景是预测分析和因果关系分析。比如我们在学校学的单变量线性方程组y=kx+b就是最简单的回归模型。当我们知道了一个x,那么如果此时x是月份,那么通过方程可以得到这个x对应的y,其中y可以是销量,通过x得到y的过程就是一个预测的过程。回归模型主要分为一元线性回归和多元线性回归。在这一节中,我将首先向您介绍一元线性回归。2.参数估计参数估计有什么作用?估计什么参数?它用于估计方程y=kx+b中的k和b。可能有人会有这样的疑惑,为什么要估算呢?而不是直接计数。我们在学校的时候,可以直接算出来,因为只有两个点,而且通过这两个点的直线是确定的,所以相应的参数也是固定的。在实际应用中,我们的数据点往往是多个,而这多个点往往不在一条直线上,但是我们希望这些点尽可能在一条直线上,所以我们需要找到这样一条直线,即这条线到每个数据点的距离都很近(接近于0),这样我们就可以用这条线尽可能靠近每个点来近似这些点的一个趋势。这条线对应的k和b就是我们估计的参数。我们求这条直线有一个原则,就是每个点到直线的距离越小越好,最后所有点到直线的距离都最小。我们称这种方法为最小二乘法,最小二乘法是一种参数估计的方法。您可以自行了解有关最小二乘法的更多信息。3.拟合程度的判断通过上面的参数估计,我们得到了一条能够反映数据点趋势的线,但是这条线有多准确,也就是和实际的趋势契合的有多好数据点?我们需要判断。下面介绍几个判断拟合度的概念。总平方和(SST):实际值与其平均值之间距离的平方和,可以理解为方差(而不是实际方差),用于反映实际值y的波动情况。回归平方和(SSR):回归值(即预测的y值)与实际值的均值之间的距离的平方和。这部分变化是由自变量的变化引起的,可以用回归线来解释。残差平方和(SSE):回归值与实际值之间距离的平方和。这部分是由自变量以外的其他影响因素引起的,属于无法解释的部分。SST=SSR+SSE,上式曲面实际值y的波动是由两个因素决定的,一部分是由于自变量x(回归平方和)的差异引起y的变化,另一部分是由于自变量以外的因素决定的(残差平方和)。理想情况下,实际值y的波动尽可能是由自变量x的变化引起的,并且比例越高,说明我们的回归线拟合得越好。我们称此指标为R^2=SSR/SST。R^2越大,拟合越好,介于[0,1]之间。4、显着性检验是通过上一步参数得到的,即得到了y=kx+b中的k和b,那么我们可以直接拿来用吗?显然不是,为什么?因为你的参数估计是基于你现有的样本数据,所以直线反映了现有数据的趋势。这些数据的趋势能代表全量数据的趋势吗?我们需要对其进行检验,也就是显着性检验。回归线其实是用来反映x和y之间的线性关系的,所以我们首先要检验的是这种线性关系是否显着,如何检验,还是用我们之前提到的假设检验的方法。我们首先假设x和y之间没有线性关系。如果不存在线性关系,则k等于0。既然总平方和的波动完全由残差平方和决定,那是不是意味着SSR/SSE基本为0,这是我们得出的结论假设不存在线性关系。前面的方差分析中提到,随着样本数据的增加,平方和会增加,所以我们需要将平方和转化为均方,即平方和/自由度。在一元线性回归中,回归平方和的自由度为1(即自变量个数),残差平方和的自由度为n-2。统计量F=(SSR/1)/(SSE/(n-2))=MSR/MSE。根据样本数据计算F值,确定显着性水平,检查显着性水平对应的F边界值。如果F>F边界值,则拒绝原假设,否则不拒绝原假设。5、回归方程主要用来做一元回归方差的预测,分为点预测和区间预测。点位预测是通过回归方程预测今年12月份的具体销量;区间预测是通过回归方程得到今年12月份的销量。大概范围是多少。点预测比较简单,直接将x代入方程即可得到结果。区间预测稍微复杂一点,但是区间预测的本质还是我们之前讲的置信区间的计算【说说置信度和置信区间】。有两个关键点,一个是样本均值,一个是标准差。样本均值也比较简单,标准差的计算公式如下: