当前位置: 首页 > 科技观察

扩展机器学习模型的五个挑战

时间:2023-03-18 19:39:34 科技观察

【.comExpress翻译】机器学习模型是为明确的业务目标而设计的。机器学习模型产品化是指在相关数据集上托管、扩展和运行机器学习模型。生产级机器学习模型还需要具有弹性和灵活性,以适应未来的变化和反馈。Forrester最近的一项研究表明,改善客户体验、提高盈利能力和增加收入是组织计划通过机器学习项目实现的一些首要目标。尽管机器学习模型在全球范围内广受赞誉,但很难转化为积极的商业利益。在处理实时数据和将机器学习模型部署到生产中时,许多工程、数据和业务问题成为瓶颈。根据调查,43%的人表示在机器学习模型生成和集成方面遇到了障碍。确保机器学习模型实现企业预期的最终目标非常重要,由于可靠且负担得起的开源基础设施,全球组织对机器学习模型的采用正在以前所未有的速度增长。Gartner预测,全球40%的领先组织计划到2020年底实际部署AI解决方案。要了解将机器学习模型产品化的常见陷阱,请考虑组织面临的前五项挑战。1.数据的复杂性需要大约100万条相关记录才能在数据上训练机器学习模型,不能是随机数据。数据可行性和可预测性的风险浮出水面。评估我们是否拥有相关数据集以及我们是否能够足够快地获取它们以进行预测并非易事。获取上下文数据也是一个问题。在YumBrands的机器学习扩展中,该公司的一些产品(例如追求新特许经营计划的肯德基)没有足够的客户数据。仅有数据是不够的。大多数机器学习团队从非数据湖方法开始,在传统数据仓库上训练机器学习模型。在传统的数据系统中,数据科学家通常将80%的时间花在清理和管理数据上,而不是训练模型上。还需要强大的治理系统和数据分类,以便透明地共享和分类数据以供重用。由于数据的复杂性,维护和运行机器学习模型的成本的相对回报会随着时间的推移而降低。2.设计和部署一旦数据可用,就必须根据使用场景和未来的弹性来最终确定基础设施和技术堆栈。机器学习系统可能很难设计。机器学习领域有许多可用的技术。该模型成功的关键是在选择每个技术栈时,将不同领域的技术栈分别标准化,这样才不会增加产品化的难度。例如,数据科学家可能会使用Pandas等工具和Python代码。但这些不一定适用于生产环境,Spark或Pyspark更合适。设计不当的技术解决方案会花钱。然后,生命周期挑战以及在生产中管理和稳定多个模型也变得难以管理。3.集成风险与不同数据集和建模技术良好集成的可扩展生产环境对于机器学习模型的成功至关重要。集成不同的团队和操作系统总是充满挑战。复杂的代码库必须融合到结构清晰的系统中,以准备部署到生产环境中。如果没有将模型部署到生产环境的标准化流程,团队可能会在任何阶段陷入困境。不同的团队需要将工作流自动化集成到工作流系统中并进行测试。如果你不在正确的阶段测试你的模型,你最终会修复整个生态系统。技术栈必须标准化,否则集成将是一场噩梦。集成也是确保机器学习实验框架不是一次性奇迹的关键时刻。否则,如果业务环境发生变化或遇到灾难性事件,模型将无法提供价值。4.测试和模型支持测试机器学习模型很困难,但与生产过程中的其他步骤一样重要,甚至更重要。了解结果、健康检查、监控模型性能、发现数据异常和重新训练模型共同构成了整个生产周期。即使在运行测试之后,可能仍然需要适当的机器学习生命周期管理工具来发现测试中未出现的问题。5.分配角色并积极沟通在数据科学、数据工程、DevOps和其他相关团队之间保持透明的沟通对于机器学习模型的成功至关重要。但是分配角色、提供细粒度访问以及密切关注每个团队是很复杂的。密切协作和沟通对于尽早识别不同方面的风险至关重要。在机器学习模型的未来,深度参与的数据科学家也处于危险之中。除了上述挑战外,还要留意不可预见的事件,例如COVID-19大流行。当客户的购买行为突然发生变化时,过去的解决方案不再适用,并且缺乏新数据来充分训练模型成为障碍。总之,扩展机器学习模型并不容易。原标题:扩展机器学习模型的5个挑战,作者:SigmoidAnalyitcs