今天,许多企业需要快速处理大量数据。与此同时,市场竞争格局正在迅速演变,因此企业能够快速做出决策至关重要。正如商业管理畅销书《快鱼吃慢鱼》的作者杰森·詹宁斯和劳伦斯·霍顿所说:“当今的市场竞争不是大鱼吃小鱼,而是快鱼吃慢鱼。”企业的商业成功在于采用更好的信息来做出快速决策,而机器学习在这方面发挥着重要作用。无论企业是试图向客户提出建议以改进其制造流程,还是预测市场变化,机器学习都可以通过处理大量数据来提供帮助,从而更好地支持企业寻求竞争优势。然而,尽管机器学习提供了巨大的机遇,但仍然存在一些挑战。机器学习系统依赖于大量数据和执行复杂计算的能力,这意味着企业需要由于客户期望变化或意外市场波动等外部因素监控和维护机器学习模型。此外,机器学习还有一些实际问题需要解决。下面探讨和研究了五个关键的实际问题及其对业务的影响。1.数据质量机器学习系统的应用需要大量的数据。这些数据大致可以分为两类:特征和标签。特征是机器学习模型的数据输入。这些数据可以是来自传感器、客户调查、网站cookie或历史信息的数据。这些属性的结果是可变的。例如,客户可能不会或可能不会正确完成调查;传感器可能会发生故障并提供不正确的数据;网站cookie可能会提供有关用户在网站上做什么的不完整信息。因此,为了正确训练模型,数据集的质量非常重要。数据也可能充满垃圾,这会误导机器学习模型做出错误的预测。机器学习模型的输出是一个标签。标签稀疏性也是一个问题,在稀疏标签中,用户可能知道系统的输入,但不确定输出是什么。在这种情况下,检测模型特征和标签之间的关系可能极具挑战性。这可能是劳动密集型的,因为它需要人工干预才能将标签与输入相关联。如果没有输入到输出的准确映射,模型可能无法学习输入和输出之间的正确关系。机器学习依赖于输入和输出数据之间的关系来创建可用于进行预测并为未来行动提供建议的概括。当输入数据混乱、不完整或错误时,可能很难理解为什么会出现特定的输出或标签。2.复杂性和质量之间的权衡建立强大的机器学习模型需要大量的计算资源来处理特征和标签。编码复杂模型需要数据科学家和软件工程师付出巨大努力。复杂的模型可能需要大量的计算能力才能执行,并且可能需要更长的时间才能产生可??用的结果。这对企业来说是一种权衡。他们可以选择更快地做出反应,但准确性可能较低。或者他们可以接受较慢的响应但从模型中获得更准确的结果。不过,妥协并不是一件坏事,因为是否获得更高成本和更准确的模型以及更快的响应取决于用例。例如,在零售购物网站上向购物者提出建议需要实时响应,但结果可能无法预测。另一方面,股票交易系统需要更可靠的结果。因此,当不需要实时获取结果时,使用更多数据并执行更多计算的模型可能会提供更好的结果。随着机器学习即服务(MLaaS)产品进入市场,权衡的复杂性和质量将获得更多关注。芝加哥大学的研究人员研究了机器学习即服务(MLaaS)的有效性,发现如果他们对分类器和特征选择等关键决策有足够的了解,他们可以获得与独立分类器相当的结果。3.数据中的抽样偏差许多企业使用机器学习算法来帮助招聘员工。例如,亚马逊发现他们用来帮助??公司选择求职者的算法存在偏见。此外,普林斯顿大学的研究人员发现,来自欧洲的候选人受到一些人工智能系统的青睐,这表明他们的算法中引入了一些人为偏见。这里的问题不是具体的模型问题,而是用来训练模型的数据本身就有偏差。然而,当知道数据有偏差时,有办法消除偏差或降低数据的权重。第一个挑战是确定数据中是否存在固有偏差。这意味着一些预处理。虽然可能无法消除数据中的所有偏差,但可以通过人为干预将其影响降至最低。在某些情况下,可能需要限制数据中的要素数量。例如,忽略种族或性别等特征有助于限制有偏见的数据对模型结果的影响。4.不断变化的期望和概念漂移机器学习模型在特定场景下运行。例如,为零售商的推荐引擎提供动力的机器学习模型会在客户查看特定产品时的特定时间运行。但是,客户需求会随着时间的推移而变化,这意味着机器学习模型可能会偏离其设计交付的目标。模型会因多种原因而衰退。将新数据引入模型时可能会发生漂移。这称为数据漂移。当人们对数据的解释发生变化时,也会发生这种情况。这是概念漂移。为了适应这种漂移,企业需要一个可以根据传入数据不断更新以改进自身的模型。这意味着企业需要不断检查模型。这需要收集大量特征和标签并对变化做出反应,以便可以更新和重新训练模型。虽然再培训的某些方面可以自动化,但需要一些人为干预。人们必须认识到,机器学习工具的部署不是一次性事件。此外,企业采用机器学习工具需要定期审查和更新以保持相关性并继续提供价值。5.监控和维护创建模型很容易并且可以自动化。但是,维护和更新模型需要规划和资源。机器学习模型是从用于训练模型的特征开始的管道的一部分。然后是模型本身,这是一个需要不断修改和更新的软件。该模型需要标签,以便模型可以识别和使用输入结果。模型和系统中的最终信号之间可能存在脱节。在许多情况下,如果交付是意外的,如果不是机器学习的问题,则可能是供应链中的其他问题。例如,推荐引擎可能已经向客户提供了产品,但有时销售系统和推荐之间的连接可能会断开,并且需要时间来查找错误。在这种情况下,很难判断模型推荐是否成功。对此类问题进行故障排除可能非常费力。机器学习技术为企业带来了巨大的好处。预测未来结果以影响客户行为和支持业务运营的能力非常强大。然而,采用机器学习也给企业带来了挑战。通过认识到这些挑战并开发解决方案,企业可以确保他们已准备好迎接这些挑战并充分利用机器学习技术。
