为云服务团队提供机器学习功能的系统不仅是错误的,而且是危险的。一家公司的云平台在周末宕机了,公司的云运维团队正在努力研究和讨论问题出在哪里。似乎有几个系统与启用机器学习的高级新库存管理系统相关,但存在问题。其检测结论如下:将原始数据从操作数据库迁移到训练数据库的批处理和自动恢复过程失败。而周末加班的运维组成员尝试重新提交,但不是一次全部提交,而是四次更新,导致训练数据库状态不稳定。这导致机器学习系统中的知识模型被错误的数据训练,需要删除知识库中的新信息并重建模型。此外,一些外部数据源(例如定价和税收数据)会同时更新到培训数据库中。虽然这些工作很好,但考虑到操作数据不是很好,也需要退出知识库。该系统有两天不可用,导致公司因生产力损失、客户不满和公关问题而损失了400万美元。随着企业越来越多地使用“廉价”的基于云的机器学习系统,很明显,利用机器学习的系统操作起来很复杂。业务运营团队希望降低难度和复杂性,但发现自己缺乏培训、人员不足和资金不足。云运营团队可以通过相当轻松的过渡来处理基于云的数据库、存储和计算。考虑到基于云的系统与传统系统相似,大多数都是。然而,运营团队基本上没有采用基于机器学习的系统。这些系统具有专门的用途,并且必须以某种方式对数据库和知识引擎等专门系统进行监控和管理。这是当前运营团队失败的地方。这种情况很容易理解,但大多数企业不会喜欢,因为这意味着要花更多的钱在云计算操作上进行机器学习,这可能会导致放弃。机器学习系统是一系列技术,如果谨慎使用,它们会非常有效。如果处理不当,故障可能会不被发现而造成危险。如果系统使用了由此产生的错误知识,最终可能会出现严重的问题,这些问题可能直到造成很大损害才被发现。风险似乎大于回报。
