为探索MLOps在企业落地之路,AISummit全球人工智能技术大会“MLOpsBestPractices”专场成功举办,数据与模型难以匹配等问题,在此背景下,MLOps应运而生。MLOps正在成为帮助企业扩展机器学习的关键技术。日前,由主办的AISummit全球人工智能技术大会成功举办。在大会举办的“MLOpsBestPractices”专场,开放原子基金会TOC副主席谭忠义、第四范式系统架构师卢冕、网易云音乐人工智能研究员吴冠林、大数据与工行软件开发中心人工智能实验室副主任黄兵带来了自己的主题演讲,围绕研发运维周期、持续训练与持续监控、模型版本与沿袭等热点话题探讨了MLOps的实战,线上线下数据一致性,数据供给高效。效果和前沿趋势。MLOps的定义与评价AndrewNG曾在多个场合表示,AI已经从以模型为中心转向以数据为中心,数据是AI实现的最大挑战。如何保证数据的高质量供给是关键问题,而要解决这个问题,我们需要借助MLOps的实践,帮助AI更快、更好、更经济地实施。那么,MLOps解决了哪些问题呢?如何评估MLOps项目的成熟度?开放原子基金会TOC副主席、LFAI&DataTAC成员谭中义做了主题演讲《从modelcentric到datacentric—MLOps帮助AI多快好省的落地》并进行了详细介绍。谭忠义首先分享了一组行业科学家和分析师的观点。AndrewNG认为,提高数据质量比改进模型算法更能提高AI实现的效果。在他看来,MLOps最重要的任务是在机器学习生命周期的各个阶段保持高质量的数据供应。要实现AI的大规模实施,必须开发MLOps。至于MLOps是什么,业界并没有达成共识。他给出了自己的解释:就是“代码+模型+数据的持续集成、持续部署、持续训练和持续监控”。随后,谭忠义着重介绍了机器学习领域独树一帜的FeatureStore(特征平台)平台的特点,以及目前市场上主流的特征平台产品。最后,谭忠义简单介绍了MLOps的成熟度模型。他提到,微软Azure根据机器学习全过程的自动化程度,将MLOps的成熟模型分为(0、1、2、3、4)个等级,其中0为无自动化,123为部分自动化,4高度自动化。线上线下一致的生产级特征平台在很多机器学习场景中,都有实时特征计算的需求。从数据科学家线下开发的特征脚本,到线上实时的特征计算,实现AI的成本非常高。针对这一痛点,4Paradigm系统架构师、数据库团队和高性能计算团队负责人卢勉在主题演讲中《开源机器学习数据库OpenMLDB:线上线下一致的生产级特征平台》重点介绍了OpenMLDB如何实现机器学习特性开发和上线的目标,以及如何以保证特征计算的正确性和效率。卢冕指出,随着人工智能工程实施的推进,在特征工程环节,在线一致性验证带来了高昂的实施成本。OpenMLDB只是提供了一个低成本的开源解决方案。它不仅解决了核心问题——机器学习线上线下的一致性,解决了正确性问题,还实现了毫秒级的实时特征计算。这是它的核心价值。据卢勉介绍,印尼在线支付公司Akulaku是OpenMLDB开源后的第一个社区企业用户。他们将OpenMLDB集成到他们的智能计算架构中。在实际业务中,Akulaku平均每天处理近10亿条订单数据。使用OpenMLDB后,处理数据的延迟仅为4毫秒,完全满足了他们的业务需求。构建端到端的机器学习平台,依托网易云音乐海量数据、精准算法、实时系统,服务内容分发和商业化多场景,同时满足建模效率高、使用门槛低、以及模型效果显着等一系列算法工程追求,为此,网易云音乐算法工程团队结合音乐业务开始了端到端机器学习平台的实践。网易云音乐AI研究员、技术总监吴冠林发表主题演讲《网易云音乐特征平台技术实践》,从云音乐业务背景出发,讲解模型的实时实现,并进一步结合与会人员分享思考与特色商店。吴冠林提到,在云音乐模型算法项目建设中,主要面临三大痛点:实时度低、建模效率低、线上线下不一致导致模型能力受限。针对这些痛点,他们从实时模型入手,在实时模型覆盖业务的过程中,搭建了相应的FeatureStore平台。据吴冠林介绍,他们首先在直播场景中探索了实时模型,并取得了一定的成果。在工程方面,也探索出了完整的环节,并实施了部分基础工程建设。但实时模型侧重于对实时场景进行微调,但80%以上的场景都是离线模型。在全链路建模的过程中,每个场景开发者都从源头开始做数据,导致建模周期长,效果不可预测,新手开发门槛高。考虑到模型发布周期,80%的时间与数据有关,其中特征占50%之多。他们开始入驻特征平台FeatureStore。FeatureStore主要解决三个问题:一是定义元数据,统一特征沿袭、计算、推送的流程,实现基于批流集成的高效特征生产环节;另一种是对特征的特性进行改造,解决特征存储的问题,根据实际使用场景中延迟和吞吐量的差异,提供各种类型的存储引擎;三是解决特征一致性问题,从统一的API中读取指定格式的数据,作为机器学习模型的输入,进行推理、训练等。金融智能发展的新基础设施在工商银行软件开发中心大数据与人工智能实验室副主任黄兵的主题演讲着重介绍了工商银行的MLOps实践,涵盖了模型开发、模型交付、模型管理、模型迭代运行全生命周期管理体系的构建过程与技术实践。之所以需要MLOps,是因为在人工智能飞速发展的背后,许多已经存在或潜在的“AI技术债”不容忽视。黄兵认为,MLOps的概念可以解决这些技术债,“如果说DevOps是解决软件系统技术债问题的利器,而DataOps是解开数据资产技术债问题的钥匙,那么MLOps脱胎于DevOps的概念是一台治疗机,学习治疗你的技术债务问题”。在建设过程中,工行MLOps的实践经验可归纳为四点:夯实公共能力“基础”,打造企业级数据中台,实现数据沉淀与共享;降低应用门槛的“器”,构建相关建模和服务流水线,形成流程化、积木化的研发模式;建立人工智能资产积累和共享的“办法”,最大限度地降低人工智能建设成本,形成共享共建生态的关键;形成“模型运行迭代”的“技术”,基于数据驱动和业务价值驱动,模型运行体系的建立是模型持续迭代和量化评价模型质量的基础。在演讲的最后,黄Bing做了两个预测:一是MLOps需要更安全、更合规,未来企业发展需要大量的模型来实现数据驱动的智能决策,所以更多的企业级需求涉及到模型开发、运营以及维护、权限控制、数据隐私、安全、审计等都会衍生出来;其次,MLOps需要和其他Ops结合,解决技术债问题是一个复杂的过程,DevOps方案、DataOps方案、MLOps方案必须是协调配合,相互赋能,才能发挥三者的全部优势,达到“1+1+1>3”的效果。写在最后根据IDC预测,到2024年,60%的企业将使用MLOps来实施机器学习工作流程。IDC分析师SriramSubramanian曾评论道:“MLOps将模型速度缩短至数周——有时甚至数天,就像使用DevOps来加快应用构建的平均时间一样,这就是你需要MLOps的原因。”当前,我们正处于人工智能快速扩张的拐点。通过采用MLOps,企业可以构建更多模型,更快实现业务创新,更快、更高效、更经济地推动AI落地。成千上万的行业正在见证和验证MLOps正在成为企业AI规模化的催化剂。更多精彩内容,请点击查看。
