古希腊哲学家赫拉克利特说:“唯一不变的是变化”。时间有一种我们无法撼动的强大力量。无论是思想、社会还是人,都会随着时间发生翻天覆地的变化。过去更先进的东西今天会过时,今天新颖的想法可能会在未来几年被遗忘。了解变化对业务至关重要。十五年前,一家手机制造企业如果不搭上智能手机的列车,还能活下去吗?他们几乎从市场上消失了。拥有一部简单的手机曾经是常态,但人们的需求迅速转向智能手机,未能适应的公司付出了代价。数据分析逐渐开始在全球占据主导地位,机器学习模型成为企业决策背后的主要力量。这些模型,就像所有的商业策略一样,需要随着时间的推移进行调整,技术上是由于“模型漂移”。什么是“模型漂移”虽然大多数课程、文章和帖子都定义了机器学习生命周期——从收集数据开始,到在不同环境中部署机器学习模型结束——但人们往往忘记了机器学习生命周期是一个非常重要的特征是模型漂移。本质上,目标变量和自变量之间的关系随时间而变化。模型漂移会阻止模型稳定,并且随着时间的推移会出现越来越多的错误。我们尝试从简单线性回归的技术角度来理解这种情况。在线性回归中,我们简单地将自变量x_i映射到预测目标变量y:y=α+β_1*x_1+β_2*x_2+β_3*x_3+...其中α是截距,β_i对应变量的系数x_i。通常假设此映射是静态的,即我们假设系数β_i(和截距α)不随时间变化,并且控制目标变量y预测的关系对于未来数据也合理有效。然而,这个假设并不适用于所有情况。企业的盈利能力在很大程度上取决于这样的模型,一旦假设不成立,将对企业构成严重威胁。这些模型可能代表了未来发展中的情况,所以以后肯定是站不住脚的。由于基础条件的变化,预测会随着时间的推移而失去准确性。Drift的类型模型漂移可分为两类:第一类是“概念漂移”,即一旦目标变量本身的统计特性发生变化就会发生。显然,如果您尝试预测的变量的显着性发生变化,则模型无法有效地符合该定义。第二个也是最常见的类别是“数据漂移”,它发生在预测的统计属性发生变化时。同样,如果基础变量发生变化,模型就会失败。一个典型的例子是由于季节性而导致的数据模式变化。在夏季行之有效的商业模式在冬季可能行不通。节假日航班需求大幅增加,淡季客座率勉强维持。另一个例子是人们喜好的改变,就像开头提到的智能手机。如何解决?一个极好的解决方案是不断修改模型。一旦漂移开始出现在模型中,就可以根据过去的经验进行估计。这样,可以积极重建模型以降低漂移风险。如果数据随时间不断变化,则称量数据是一个不错的选择。根据最近的交易确定某些参数的金融模型可以添加一些功能,例如对最近的交易给予更多的权重,而对过去的交易给予更少的关注。这不仅保证了模型的稳健性,也有助于避免与漂移相关的潜在问题。处理模型漂移的一种更复杂的方法是对变化本身进行建模。开发的第一个模型必须保持静态并作为基线。现在,由于最近数据行为的变化,可以建立新的模型来纠正这个基线模型的预测。模型应该多久重新校准一次?我们已经知道,更常见的解决方案是不断重新校准模型。下一个问题是,应该多久重新校准一次?这就需要具体问题具体分析。有时,问题会自行显现。虽然等待问题出现不是最简单的方法,但它是新模型的唯一选择,因为无法从过去的经验中知道问题将如何出现。当问题浮出水面时,可以对其进行研究和修改,以解决未来出现的相关问题。有时,与模型中处理的实体相关的数据遵循季节性模式。在这种情况下,应根据季节变化重新校准模型。随着假日消费的增加,信贷机构需要特殊的模型来应对这种模式的突然变化。然而,检测漂移的一个极好的方法是持续监测。需要在连续的时间间隔内监控与模型稳定性相关的指标。时间间隔可以是一周、一个月或一个季度,视不同领域和业务而定。监控可以由人工进行,也可以留给自动化脚本。自动化脚本需要能够在出现意外异常时触发警报并发送通知。变化是永恒的,重要的是要记住,只有准备好接受和监控变化的公司才能成功。
