当前位置: 首页 > 科技观察

秒懂“线性回归预测”

时间:2023-03-21 12:38:47 科技观察

线性回归是机器学习中的一个概念。线性回归预测算法一般用于解决“利用已知样本估计未知公式的参数”等问题。举个例子:卖鞋的商家可以利用历史上每个季度鞋子的价格x和销量y来估算“定价与销量的关系”(y=ax+b),辅助鞋子的最优定价。1.几个基本概念回归(regression):用已知样本估计未知公式参数。Y=f(X1,X2,X3),其中回归函数f(X1,X2,X3)可以是任意函数。Linearregression(线性回归):回归的一种,回归函数是线性函数,例如:Y=f(X1,X2,X3)=aX1+bX2+cX3+d其中X1,X2,X3是样本中的训练样本集的每个维度(特征),a,b,c,d是模型的未知参数。逻辑回归:将Y归一化到[0,1]区间。总而言之,逻辑回归是线性回归的一种,线性回归是回归的一种。二、线性回归模型往往有效1、线性回归有什么用?答:虽然线性回归的预测模型是一个单变量线性方程,但现实中的很多应用场景都符合这个模型。比如例子中产品的价格x和产品销量y的关系。一般来说,价格越贵销量越低,价格越便宜销量越高,所以可以采用y=ax+b的评价模型来最大化商家的收益:revenue=pricing*销售额=x*y=x*(ax+b)2。哪些场景适合做线性回归?答:很多应用场景是无法用线性回归模型预测的,比如月平均气温,平均气温不会随着月份的增长呈线性上升或下降趋势。它常用于:预测或分类。用于分类问题时,需要设置阈值区间,并事先知道阈值区间与类别的对应关系。线性问题可以有多个维度(特征)。三、如何求解线性回归中的维度参数?当样本集set已知时,如果根据样本集得到Y=f(X1,X2,X3,…)=aX1+bX2+cX3+…中的未知参数a,b,c怎么办?这就需要先介绍最小二乘,还有梯度下降。1、什么是最小二乘法?答:最小二乘法适用于求解任何多维线性回归参数。它可以求解一组***a,b,c的解,这样对于样本集数据中的每个样本,用Y=f(X1,X2,X3,…)来预测样本,以及它们之间的方差预测值和实际值最小。画外音:方差是我们常见的代价函数,用来评价回归预测函数的效果。2、什么是梯度下降法?答:最小二乘法实际上只定义评价函数为方差。真正求解a、b、c的方法是梯度下降法。这是一个枚举型求解算法。步骤如下:(1)使用随机a0,b0,c0作为初始值(2)对每个维度参数求解***a,b,c...,步骤为(以a为例):Set设置a的范围的最大值和最小值来设置一个计算的梯度步长(这就是为什么叫梯度下降法)固定其他维度参数来计算所有的值a、使评价函数最小的a即可以从数学上证明:(1)上述算法可以收敛(显然)(2)a、b、c的最大值为分别得到,而组合就是整体的最大值(不是那么明显),这个结论很重要,假设样本数为n,计算a,b,c的算法复杂度是线性的O(m),这个结论使得算法的整体复杂度是n*O(m)+n*O(m)+n*O(m),不是[n*O(m)]*[n*O(m)的关系]*[n*O(m)]。画外音:电脑很适合做这个。确定范围和梯度后,这是一个线性复杂度的算法。4、再举个例子,已知近四个季度销量和价格的数据样本集为:当价格x为10时,销量y为80;当价格x为20时,销量y为70;当价格x为30时,销量y为60当价格x为40时,销量y为65。假设销量y与价格x成线性关系:y=ax+b。假设a的范围为[-2,2],a的梯度为1。假设b的范围为[80,120],b的梯度为10画外音:计算机计算时,范围会很大,梯度精度会很好。求解***a和b的过程为:(1)设a0=-2,b0=80,从最边缘开始求解a。先求***a,固定b=80,a从-2到2梯度增加,***a的解可以看出a=-1时方差最小,所以a=-1是最好的解决方案。b.再次求***b,固定2.1中得到的***a=-1,b从80逐渐增加到120,求***b的解,可以看到b=90时方差最小,所以b=90是最好的解决方案。(3)得到最优解a=-1,b=90,然后得到pricing和sales的关系:y=-x+90(4)最后得到revenue=pricing*sales=x*y=x*(-x+90)因此,当价格定为45元时,整体收益可以最大化。5.总结逻辑回归是一种线性回归。线性回归是回归的一种。线性回归可用于预测或分类。对于求解多维(特征)线性问题,可以采用最小二乘法和梯度下降法求解线性预测函数。系数梯度下降法的核心步骤是:设置系数范围,设置系数梯度,固定其他系数,穷举某个系数的最小方差解。我希望在这一分钟里,我对线性回归预测有一点了解。.【本文为专栏作者《58神剑》原创稿件,转载请联系原作者】点此阅读更多该作者好文