当前位置: 首页 > 科技观察

机器学习回归模型相关重要知识点总结

时间:2023-03-17 17:25:58 科技观察

1.线性回归的假设是什么?线性回归有四个假设:线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在同一方向上改变y的值.独立性:特征应该相互独立,这意味着最小的多重共线性。正态性:残差应服从正态分布。同方差性:回归线周围数据点的方差对于所有值都应该相同。2.什么是残差,它如何用于评估回归模型?残差是预测值与观测值之间的误差。它测量数据点与回归线的距离。它的工作原理是计算机从观测值中减去预测值。残差图是评估回归模型的好方法。它是一个图表,显示垂直轴上的所有残差和x轴上的特征。如果数据点随机散布在一条没有规律的直线上,那么线性回归模型可以很好地拟合数据,否则我们应该使用非线性模型。3.如何区分线性回归模型和非线性回归模型?两者都是回归问题的类型。两者之间的区别在于他们训练的数据。线性回归模型假设特征和标签之间存在线性关系,这意味着如果我们获取所有数据点并将它们绘制为线性(直线)线应该适合数据。非线性回归模型假设变量之间没有线性关系。非线性(曲线)线应正确分隔和拟合数据。确定数据是线性还是非线性的三种最佳方法-残差图散点图假设数据是线性的,训练一个线性模型并通过准确性对其进行评估。4.什么是多重共线性,它如何影响模型性能?当某些特征彼此高度相关时,就会出现多重共线性。相关性是一种度量,表示一个变量如何受另一个变量变化的影响。如果特征a的增加导致特征b的增加,那么这两个特征是正相关的。如果a的增加导致特征b的减少,那么这两个特征是负相关的。在训练数据上有两个高度相关的变量会导致多重共线性,因为它的模型无法在数据中找到模式,从而导致模型性能不佳。因此,在训练模型之前,我们首先要尝试消除多重共线性。5.异常值如何影响线性回归模型的性能?异常值是其值不同于数据点的平均范围的数据点。换句话说,这些点与数据不同或在3rd标准之外。线性回归模型试图找到减少残差的最佳拟合线。如果数据包含离群值,则最佳拟合线会稍微向离群值偏移,从而增加错误率并导致模型具有非常高的MSE。6、MSE和MAE有什么区别?MSE代表均方误差,它是实际值和预测值之间的平方差。而MAE是目标值和预测值之间的绝对差值。MSE会惩罚大错误,而MAE不会。随着MSE和MAE的值都减小,模型趋向于更好的拟合线。7.什么是L1和L2正则化,什么时候用?在机器学习中,我们的主要目标是创建一个在训练和测试数据上都能表现更好的通用模型,但是在数据很少的情况下,基本的线性回归模型容易过拟合,所以我们使用l1和l2正则化。L1正则化或套索回归将斜率的绝对值作为代价函数中的惩罚项添加。通过删除斜率值小于阈值的所有数据点来帮助删除异常值。L2正则化或岭回归添加等于系数大小的平方的惩罚项。它惩罚具有较高斜率值的特征。当训练数据较小、方差较大、预测特征大于观测值、数据存在多重共线性时,l1和l2都有用。8.异方差是什么意思?指最佳拟合线周围数据点的方差在一个范围内不相同的情况。它会导致残差分布不均匀。如果它存在于数据中,则模型倾向于预测无效输出。检验异方差性的最佳方法之一是绘制残差图。数据内异方差的最大原因之一是范围特征之间的巨大差异。例如,如果我们有一个从1到100000的列,那么将值增加10%不会改变较低的值,但会在较高的值处产生非常大的差异,从而导致方差数据点差异很大。9.方差膨胀因子的作用是什么?方差膨胀因子(vif)用于找出自变量使用其他自变量的可预测性。让我们以具有特征v1、v2、v3、v4、v5和v6的示例数据为例。现在,要计算v1的vif,请将其视为预测变量并尝试使用所有其他预测变量对其进行预测。如果VIF的值很小,最好从数据中去掉这个变量。因为值越小说明变量之间的相关性越高。10.逐步回归如何工作?逐步回归是一种通过在假设检验的帮助下删除或添加预测变量来创建回归模型的方法。它通过迭代测试每个自变量的显着性并在每次迭代后删除或添加一些特征来预测因变量。它运行n次并尝试找到最佳参数组合来预测因变量的观察值和预测值之间的最小误差。它可以非常高效地管理大量数据并解决高维问题。11.除了MSE和MAE,还有什么重要的回归指标?我们通过回归问题引入这些指标,其中我们的输入是工作经验,输出是薪水。下图显示了为预测薪水而绘制的线性回归线。1.平均绝对误差(MAE):平均绝对误差(MAE)是最简单的回归度量。它将每个实际值和预测值之间的差异相加,然后除以观察次数。为了使回归模型被认为是一个好的模型,MAE应该尽可能小。MAE的优点是:简单易懂。结果将具有与输出相同的单位。例如:如果输出列的单位是LPA,那么如果MAE是1.2,那么我们可以将结果解释为+1.2LPA或-1.2LPA,MAE对离群值相对稳定(相对于其他一些回归指标,MAE是受异常值影响较小)。MAE的缺点是:MAE使用了一个模函数,但是模函数不是处处可微的,所以很多时候不能作为损失函数。2.均方误差(MSE):MSE取每个实际值与预测值的差值,然后对差值求平方并相加,最后除以观察次数。为了使回归模型被认为是一个好的模型,MSE应该尽可能小。MSE的优点:平方函数在所有点都是可微的,所以可以作为损失函数。MSE的缺点:由于MSE使用平方函数,结果的单位是输出的平方。因此很难解释结果。由于它使用了平方函数,如果数据中存在离群值,差值也会平方,因此,MSE对离群值不稳定。3.均方根误差(RMSE):均方根误差(RMSE)取每个实际值与预测值的差值,然后对差值求平方并相加,最后除以观察次数。然后取结果的平方根。因此,RMSE是MSE的平方根。为了使回归模型被认为是一个好的模型,RMSE应该尽可能小。RMSE解决了MSE的问题,单位将与输出的单位相同,因为它取平方根,但对离群值仍然不太稳定。上述指标取决于我们正在解决的问题的上下文,我们不能在不知道实际问题的情况下仅通过查看MAE、MSE和RMSE的值来判断模型的质量。4.R2score:如果我们没有任何输入数据,但想知道他在这家公司能拿到多少薪水,那么最好的办法就是给他们所有员工的平均薪水。R2分数给出了一个介于0和1之间的值,可以针对任何上下文进行解释。可以理解为契合度。SSR是回归线误差平方和,SSM是移动平均误差平方和。我们将回归线与平均线进行比较。如果R2分数为0,则说明我们的模型与均值线的结果相同,因此我们需要改进我们的模型。如果R2分数为1,则等式右侧变为0,这只有在我们的模型无误地拟合每个数据点时才会发生。负的R2分数表示等式右侧大于1,这可能在SSR>SSM时发生。这意味着我们的模型比均值差,这意味着我们的模型不如取均值来预测。如果我们的模型的R2分数为0.8,则意味着我们可以说该模型能够解释80%的输出方差。也就是说,80%的工资变化可以用输入(工作年限)来解释,但剩下的20%是未知的。如果我们的模型有2个特征,工作年限和面试分数,那么我们的模型能够使用这两个输入特征解释80%的薪水变化。R2的缺点:随着输入特征数量的增加,R2趋于增加或保持不变,但不会减少,即使输入特征对我们的模型不重要(例如,将采访当天的温度添加到我们的模型中)在示例中,即使温度对输出不重要,R2也不会下降)。5.AdjustedR2score:上式中,R2为R2,n为观测数(行),p为独立特征数。调整后的R2解决了R2的问题。当我们添加对我们的模型不那么重要的特征时,比如添加温度来预测薪水......当添加对模型重要的特征时,比如添加面试分数来预测薪水......以上是重要性回归问题解决回归问题的知识点和各种重要指标的介绍及其优缺点,希望对你有所帮助。