当前位置: 首页 > 科技观察

加速AI发展,企业如何利用MLOps提升生产效率?

时间:2023-03-21 19:29:18 科技观察

当公司首次部署人工智能并构建机器学习项目时,他们往往侧重于理论。那么有没有一种模型可以提供必要的结果呢?如果是这样,我们如何构建和训练这样的模型?根据IDC数据,部署人工智能或机器学习解决方案平均需要九个多月的时间。主要是因为数据科学家用来构建这些概念证明的工具通常不能很好地转化为生产系统。IDC分析师SriramSubramanian表示:“我们将研发过程所需的时间称为‘模型速度’,即从开始到结束需要多长时间。”企业可以使用MLOps来解决上述问题。MLOps(机器学习操作)是一组最佳实践、框架和工具,可以帮助公司管理数据、模型、部署、监控和其他方面,使用理论概念来验证AI系统并使其发挥作用。Subramanian进一步解释说,“MLOps将模型速度降低到几周——有时是几天,就像DevOps加快构建应用程序的平均时间一样,这就是你需要MLOps的原因。”企业可以通过采用MLOps构建更多的模型,更快地创新,响应更多的使用场景。“MLOps的价值主张很明确。”据IDC称,到2024年,60%的企业将使用MLOps来实施他们的机器学习工作流。Subramanian说,当他们就采用AI和机器学习的挑战对受访者进行调查时,最大的障碍之一是缺乏MLOps,仅次于成本。在本文中,我们将研究MLOps是什么、它是如何演变的,以及组织需要完成和牢记什么才能充分利用这种新兴的AI操作方法。MLOps的演变当EugenioZuccarelli几年前第一次开始构建机器学习项目时,MLOps只是一组最佳实践。从那时起,Zuccarelli一直在各种企业从事AI项目,包括医疗保健和金融服务领域的企业,他看到MLOps随着时间的推移而发展,涵盖了各种工具和平台。现在,MLOps为AI操作提供了一个相当强大的框架,Zuccarelli说,他现在是CVSHealth的创新数据科学家,他指的是他之前从事的一个项目,该项目创建了一个可以预测不良结果的应用程序,例如再入院或疾病进展。“我们正在探索数据集和模型,并与医生交谈以找出最好的模型是什么样的。但要让这些模型真正有用,用户需要实际使用它们。“这意味着构建一个可靠、快速和稳定的移动应用程序,并在后端通过API连接机器学习系统。如果没有MLOps,我们将无法确保这一点,”他说。他的团队使用H2OMLOps平台和其他工具为模型创建健康仪表板。“你绝对不想对模型进行重大更改,也不想引入偏见。运行状况仪表板使我们能够查看系统中是否发生了更改。“使用MLOps平台也可以更新生产系统。”他说:“在不停止应用程序工作的情况下很难换出文件。”另一方面,MLOps可以在生产过程中以最小的成本换出系统系统影响。他表示,随着MLOps平台的成熟,它将加快整个模型开发过程,因为企业不必为每个项目重新发明框架。数据管道管理能力对于人工智能的实施也至关重要。”如果我们有更多的数据源需要相互通信,这时候MLOps就可以发挥作用了。您希望流入机器学习模型的所有数据都保持一致且质量高。俗话说,垃圾进,垃圾出。如果模型的信息不足,那么预测本身也会很差。“MLOps的基础:一个移动的目标但是不要认为仅仅因为有这么多可用的平台和工具,你就忽略了MLOps的核心原则。刚开始使用MLOps的企业应该记住,MLOps的核心是一切关于数据在科学和数据工程之间建立牢固的联系。“为了确保MLOps项目的成功,你需要数据工程师和数据科学家在同一个团队中工作,”Zuccarelli说。偏见、确保透明度、提供可解释性和支持道德平台仍在开发中。“因此,如果没有一个完整的交钥匙解决方案可供他们使用,公司必须很好地了解如何使MLOps有效地实施人工智能的各个方面。这意味着广泛建立专业知识,技术咨询公司Insight的人工智能团队国家实践经理MeaganGentry表示,MLOps涵盖了从数据收集、验证和分析到管理机器资源和跟踪模型性能的整个范围。有许多辅助工具可以部署在本地、云端或边缘。其中一些工具是开源的,一些是专有的。但技术掌握只是方程式的一方面,MLOps还借鉴了DevOps的敏捷方法和迭代开发原则,Gentry说。此外,与任何与敏捷相关的领域一样,沟通至关重要。“沟通对于数据科学家和数据工程师之间、DevOps以及整个IT团队之间的每个角色都很重要。”对于刚起步的公司来说,MLOps可能会让人感到困惑是的,它有很多通用原则、数十家相关供应商,甚至还有一个非常庞大的开源工具集。“这就是你会遇到各种陷阱的地方,”CapgeminiAmericas企业架构高级经理HelenRistov说。“其中很多还在开发中,还没有一套正式的指导方针。就像DevOps一样,这仍然是一项新兴技术,指导方针和相关政策的推出还需要一段时间。”Ristov建议企业应该从数据平台开始他们的MLOps之旅。“也许他们有数据集,但是那些数据集在不同的地方,没有统一的环境。”她说,企业不需要把所有的数据都搬到一个平台上,而是需要一种从不同数据源获取数据的方式。在不同的应用中引入数据,情况也不同。例如,数据湖非常适合使用低成本存储进行高频大量分析的企业。MLOps平台通常具有用于构建和管理数据管道以及跟踪不同版本的训练数据的工具,但这不是一劳永逸的解决方案。然后是模型创建、版本控制、日志记录、测量特征集、管理模型本身等其他方面。“涉及很多编码,”Ristov说,并指出构建MLOps平台可能需要几个月的时间,而且在集成方面,平台供应商还有很多工作要做。“在这些不同的方向上有很大的发展空间,很多工具还在开发中,生态系统很大,人们只是挑选他们需要的东西。MLOps仍处于‘青春期’,大多数组织仍在寻找最佳的MLOps配置。”IDC的Subramanian表示,MLOps市场规模预计将从2020年的1.85亿美元增长到2025年的约7亿美元,但这个市场也可能被严重低估,因为MLOps产品通常与更多的大型平台捆绑在一起。他说,到2025年,MLOps市场的真实规模可能超过20亿美元。Subramanian表示,MLOps供应商往往分为三类,首先是大型云提供商,如AWS、Azure和谷歌云,它们将MLOps功能作为服务提供给客户。第二类是机器学习平台厂商,比如DataRobot、Dataiku、Iguazio等。”第三类是以前所谓的数据管理厂商,比如Cloudera、SAS、DataBricks等。他们的强项在于数据管理能力和数据运营,进而延伸到机器学习能力,最后延伸到MLOps能力。这三个领域都在经历爆炸式增长,而让MLOps供应商脱颖而出的是他们是否能够同时支持本地和云部署模型,他们是否能够实现可信、负责任的AI,以及他们是否能够即插即用,是否容易扩展,这是差异化的方面。”IDC最近的一项调查显示,缺乏实现负责任的人工智能的各种方法是阻碍人工智能和机器学习普及的三大障碍之一,与缺乏MLOps并列第二。Gartner人工智能和机器学习研究分析师SumitAgarwal表示,这主要是因为除了采用MLOps别无选择。“其他方法是手动的,所以真的没有其他选择。如果你想扩展,你需要自动化。你需要代码、数据和模型可追溯性。”根据Gartner最近的一项调查,一个模型从概念验证到生产所需的平均时间已从9个月减少到7.3个月。“但7.3个月仍然很长,组织有很多机会利用MLOps。”Genpact全球分析负责人AmareshTripathy表示,MLOps带来的企业文化变革,MLOps的实施也需要掀起企业AI团队的文化革命。改变。“数据科学家通常被认为是一个疯狂的科学家,试图大海捞针。但现实是,数据科学家是发现者和探索者,而不是小部件工厂。”企业往往低估了所需的努力。“人们对工程的理解更深,对用户体验有这样那样的要求,但由于某种原因,人们有完全不同的部署模型。人们会假设所有擅长测试环境的数据科学家自然会部署这些模型,或者可以派几个IT人员来部署,这是错误的。人们不明白他们需要什么。”许多公司也没有意识到MLOps可能对企业的其他方面产生的连锁反应,这往往会导致企业内部发生巨大的变化。“你可以将MLOps放入呼叫中心,平均响应时间实际上会增加,因为机器和人工智能完成的简单事情实际上需要更长的时间才能由人类完成,因为这些事情通常更复杂。所以你需要重新考虑这些工作是什么,你需要什么样的人,这些人应该具备什么样的技能。”Tripathy表示,如今,企业组织中只有不到5%的决策是由算法驱动做出的,但这种情况正在迅速改变。“我们预计在未来五年内,20%到25%的决策将由算法驱动,我们看到的每一项统计数据都表明我们正处于人工智能快速扩张的拐点。”他认为MLOps是.没有MLOps,你就无法始终如一地使用AI。MLOps是大规模企业AI的催化剂。