译者|崔浩点评|孙淑娟开篇文章一般来说,企业不主动建设自己的云计算基础设施是有原因的。在过去十年中,IT基础架构团队一直在尝试构建自己的私有云,因为他们相信私有云将比公有云更具成本效益地支持他们的业务。但事情违背了我们的意愿。最终,在私有云上花费的时间和成本超出了预期。私有云建成后,需要更多的资源来维护,在安全性和扩展性上略逊于公有云。因此,那些自建私有云的企业并没有更多的资源投入到核心业务上,而是将大量的时间和人员花费在无法扩展业务需求的基础设施上。如今,许多企业通过各种开源工具(如ApacheSpark)生成解决方案,但MLOps的大部分活动都需要重复的手动操作。这会导致数周甚至数月的模型部署、低效的运行时间(通过计算和运行推理时间衡量),以及缺乏对模型测试和监控的洞察力。此外,所使用的方法过于定制化,无法为跨企业不同部分的多个用例提供可扩展、可重用的业务流程。误诊问题案例此外,与业务线领导、首席数据分析官的对话得出的结论是,虽然组织正在招聘大量数据科学家,但他们没有看到任何回报。随着研究的深入,他们会不断提出各种问题,找出人工智能面临的困难和障碍。他们很快意识到关键问题是“最后一英里”——部署模型并将其应用于实时数据,有效地执行它们以使收益超过成本,并更好地衡量它们的性能。为了解决业务问题和做出业务决策,数据科学家将数据转化为模型。这个过程由两套技能支持,一套是构建伟大模型所需的专业知识和技能,另一套是使用代码在现实世界中驱动模型同时监控和更新模型的技能。但是,这两种技能是完全不同的。正是因为这种差异,ML工程师进来了。ML工程师负责集成工具和框架,以确保数据、管道和基础架构协同工作,以大规模生成ML模型。所以现在怎么办?雇佣更多的机器学习工程师?即使拥有最好的ML工程师,企业在扩展AI时仍然面临两个主要问题:无法快速雇用ML工程师:对ML工程师的需求变得非常强劲,ML工程师的职位空缺增长速度比IT服务增长快30倍。有时需要等待数月甚至数年才能填补空缺,MLOps团队需要找到一种有效的方法来支持更多的ML模型和用例,而无需增加ML工程师的数量来满足ML应用程序的需求。但这种方法产生了第二个瓶颈……缺乏可重复、可扩展的部署模型的最佳实践,无论它们在哪里以及如何构建:现代企业数据生态系统的状态是不同的业务部门将基于不同的数据平台使用不同的数据平台。数据和技术需求(例如,产品团队可能需要支持流数据,而财务需要为非技术用户提供简单的查询接口)。此外,数据科学还要求应用分布到各个业务单元,而不是集中应用。换句话说,不同的数据科学团队针对他们关注的用例(领域)有一套独特的模型训练框架,这意味着无法为整个企业(包括多个企业)建立一个放之四海皆准的训练框架。部门/领域)的。如何从人工智能中获得最大价值企业已在人工智能上投入数十亿美元,以提高自动化能力;大规模提供用户个性化体验;但到目前为止,人工智能的承诺和结果之间存在巨大差距,只有大约10%的人工智能投资产生了有意义的投资回报率。最后,为了解决MLOps,CDO需要围绕业务核心的数据科学构建自己的能力,同时还投资于与MLOps自动化相关的其他技术。这是一个常见的“buildvs.buy”困境,不仅要从运营的角度(成本-收益)考虑,还要考虑人工智能投资渗透到整个企业的速度和效率,以及是否在其中产生新技术更好的方法。收入产品和客户群,或通过提高自动化和减少浪费来削减成本。译者介绍崔浩,社区编辑,资深架构师。他拥有18年的软件开发和架构经验,以及10年的分布式架构经验。他曾经是惠普的技术专家。乐于分享,撰写了多篇阅读量超过60万的热门技术文章。《分布式架构原理与实践》作者。原标题:MLOps|企业是否在重蹈DIY的覆辙?
