在DT(Datatechnology)时代,数据变得越来越重要,其核心应用“预测”也成为了营销的重要力量互联网产业与产业转型。对于零售业来说,预测几乎是商业智能(BI)研究的终极问题。从机器学习的角度来看,很容易实现准确的预测,但很难结合业务提高企业利润。预测精度是核心痛点。业务挑战针对服装等时尚行业客户的需求,tecdat(a)参照ZARA,将产品大致分为:基本款和时装。至于基本款,每年都没有大的变化,国际时尚的影响也不大,所以可以进行长期的生产计划。对于时尚来说,决定潮流走向的决策权不在某个地区,一个地方的买手还没有成长到能够准确预测国际流行趋势的程度,所以需要结合多方因素在不同的地区做出预测。相应地,在新品构成上,销售预测策略为:基本款计划生产,时尚款灵活调整。解决方案任务/目标根据服装零售业务的营销需求,利用多数据源分析,实现精准的销售预测。数据源准备沙子进来,沙子出来,金子进来,金子出来。没有数据或数据质量低会影响模型的预测效果。在建立合理的模型之前,需要收集数据,收集现有销售数据以外的附加信息(如天气、位置、节假日信息等),然后在收集到的数据的基础上进行预处理。有了数据,有些特征是算法不能直接处理的,有些数据是算法不能直接利用的。特征转换将无法处理的特征转换为算法易于处理的干净特征。例如:销售日期。就时间属性本身而言,对模型没有任何意义,需要将日期转化为年月日周虚拟变量。产品特点。从产品信息表中,您可以了解到该产品的款式、颜色、质地以及该产品是否为限量版。但是,没有这样的变数。这就需要我们从产品名称中提取出该产品的上述特征。上面的例子只是一些特性。构造上面解释了如何提取相关特征。我们大致有以下训练样本(只列出了部分特征)。划分训练集和测试集考虑到最终的模型会预测未来某个时间段的销量,为了更真实地测试模型的效果,按时间划分训练集和测试集。具体方法如下:假设我们有2014-02-01~2017-06-17的销售相关数据。使用2014-02-01~2016-03-19的销售数据作为训练,2016-03-20~2017-06-17的数据作为测试。建模ARIMA,一般用于库存和电商销售领域。ARIMA模型是指将非平稳时间序列转换为平稳时间序列,然后对结果变量进行自回归(AR)和自平移(MA)。随机森林以随机方式构建森林。森林由许多决策树组成。随机森林中的每棵决策树之间没有联系。得到森林后,当一个新的输入样本进入时,让森林中的每棵决策树分别进行判断,看这个样本应该属于哪一类(对于分类算法),然后看哪一类被选中最多,预测这个样本就是那个类。支持向量回归(SVR)SVR的本质类似于SVM。它有一个margin,但是SVM的margin把这两种分开了,而SVR的margin是指里面的数据是否会对回归有帮助。模型优化1.上线前优化:特征提取、样本采样、调参。2、在上线后的迭代中,根据实际A/B测试和业务人员的建议,对模型进行改进。从上图可以看出,在这种情况下,svm和随机森林算法模型的预测误差最小,采用三种方法预测某件商品的销量可视化图如下:可以看出,销售额预测值的趋势与实际销售额的趋势基本一致,但在预测周期较长的区间内,预测值之间的差异比较大。评价效果不能只看销量,要综合考虑。需要参考业务连接、预测准确性、模型可解释性、整体产业链能力等因素综合考虑;不能简单地作为企业利润增长的唯一标准。我们的经验是,预测结果仅作为参考权重值,需要专家意见按一定权重计算。展望除了上面列举的一些方法,tecdat(a)已经在尝试更复杂的销售预测模型,比如HMM、深度学习(长短期记忆网络、卷积神经网络(CNN))等;同时,需要考虑模型的可解释性、可扩展性和扩展性,避免“黑盒”预测;仍在尝试使用混合机器学习模型,如GLM+SVR、ARIMA+NNET等。销售预测几乎是商业智能研究的终极问题。尽管机器学习算法模型可以提高测试集的预测精度,但对于未来数据集的预测,需要考虑机器学习,才能实现准确预测,实现企业利润最大化。模式之外的企业自身因素。比如公司的整体供应链能力等等,如何将企业因素融入到机器学习模型中,是未来售前预测的一个难点和方向。因此,要解决最终的销售预测问题,还有很长的路要走。
