AI项目从构思到实施是一个恶性循环,只有一个出路——不要让这个循环开始!确实如此,因为数据需要各个级别的专家来处理。从不同来源提取数据以及清理、分析和填充数据,如果底层架构缺乏机器学习操作方法(称为MLOps),ML系统很容易出现延迟。大多数人工智能项目没有投入生产的原因是一个听起来简单但影响很大的差距:数据科学家和企业之间的沟通不畅。IDC调查侧重于两个群体之间持续沟通的重要性。这迫使组织寻找开箱即用的解决方案,以便MLOps发挥作用。MLOps的最佳实践侧重于:提供数据提取、模型创建、部署和监控的端到端可见性,以加快处理速度。通过存储所有相关的工件(例如版本控制数据和元数据)来更快地审查和复制生产模型。针对不同的环境和要求轻松重新训练模型更快、更安全、更准确地测试机器学习系统。然而,开发、实施或训练机器学习模型从来都不是主要瓶颈。真正的挑战是在生产环境中构建一个持续运行而不会出现任何严重中断的集成AI系统。例如,必须部署机器学习解决方案的组织别无选择,只能反复重写实验代码。这种方法是模棱两可的,最终可能会/可能不会奏效。这正是MLOps试图解决的问题。简而言之,机器学习模型的数据操作(DataOps)就是MLOps。这是与数据科学家合作实施机器学习模型以提高速度和稳健性的过程。一家名为Neuromation的公司拥有围绕开发MLOps战略构建的完整服务模型。机器学习服务提供商将专注于将数据科学家和工程师聚集在一起,以实现强大的机器学习生命周期管理。除了数据科学家之外,协作过程还包括工程师、云架构师以及来自所有利益相关者的持续反馈。在此过程中,协作过程的重点是在生产中实施更好的机器学习模型和创建数据驱动的DevOps实践。还应该做什么?继续阅读。自动化持续集成/持续开发(CI/CD)管道持续集成(CI)和持续开发(CD)自动化机器学习管道的构建、测试和部署。持续集成和持续开发使用新设计的模型架构、特性和超参数部署新的持续机器学习管道。部署的管道对新数据集进行进一步处理。当新数据可用时,这种连续的自动化管道会实施新的预测服务。此时,输出是新组件的源代码。这些源将被进一步推送到预期环境中的新源存储库。这个新的源代码会触发CI/CD管道来构建新组件,然后进行持续的单元和集成测试。所有测试通过后,将新管道部署到目标环境中。流水线根据预定义的计划和训练数据在生产环境中自动运行。构建数据湖以促进数据评估机器学习可以改进大量数据。这就是为什么在考虑使用数据进行即时预测之前,数据可用性对于确保适当的数量和效率是必要的。例如,处理数百万客户数据的QSR(快速服务餐厅)系统应该由机器学习技术提供支持。在这里,数据不仅在不断增长,而且也在快速变化。在电子商务领域也是如此,其中有许多系统紧密相连,例如最后一英里交付、CRM和内部ERP。首先,建立一个可以无缝访问所有数据源的数据湖环境。数据湖就像一个集中式仓库,应该是数据评估的中心。这是用于过滤和筛选数据以进行MLOps处理和在数据分析环境中进一步使用的存储库。为确保数据对定性分析和必要的业务变更具有足够的价值,有必要进行持续试验。为确保这一点,请使用可快速处理可用数据集的可扩展计算环境。同时,数据湖应配备交互式仪表板以实现高级可视化。将AWSQuickSight、PlotlyDash和PowerBI等工具视为数据可视化仪表板的示例。这些仪表板可以轻松定制以满足不同的业务需求。在数据评估结束时,所有数据都经过过滤和结构化以备将来使用。这还包括编目阶段。需要数据目录来理解和可视化元数据结构以及从源到消费微服务的过程。监控预测服务和性能除了训练、数据和模型类型之外,还有其他几个指标可以确定已部署模型相对于业务目标的性能。要记录机器学习模型的最佳输出,请考虑以下指标:延迟:评估无缝用户体验。延迟以毫秒为单位测量可扩展性:以特定延迟处理业务流量的能力。这是以每秒查询数(QPS)来衡量的。服务更新:确保更新时服务停机时间最短。使用数据结构数据结构是一个框架,用于从多个来源收集数据并使其为分析师的即时业务使用做好准备。MLOps计划与云端和本地各种操作用例中的数据结构密切合作。由于数据结构创建了一个集中的协调过程,这些结构降低了风险并降低了大数据管理的总体成本。有趣的是,组织使用某种结构作为推进其DataOps计划的基础。例如,K2View提供了一个基于其结构技术的数据准备中心。数据准备中心从不同来源收集数据,然后根据重新定义的模式和规则过滤、填充和屏蔽数据。在这里,每个客户都由一个数字实体代表,其数据存储在专用的微数据库中。业务实体的这种数据管道可确保数据完整性,使团队能够不间断地访问。额外提示:选择正确的云架构您的数据环境可能以某种方式与云应用程序相关联。鉴于我们企业越来越多地使用云模型,有必要检查一些基本信息:云平台是否与MLOps兼容?在大多数云平台提供内置数据科学能力的同时,确认其是否能够支持端到端的机器弹性和学习管道的高性能处理(存储、检索、建模、可视化、监控等)。在这里,“基础设施即代码”自动提供可扩展和可重现的机器学习环境。就像本地一样,云平台依赖CI/CD进行准确的机器学习模型训练和测试。支持MLOps的现成云环境示例包括AWSSageMaker、GoogleCloudAIPipelines和Databricks。摘要本文介绍了在制定MLOps策略时要考虑的一些关键指标。既然自动化已成为主流服务,组织面临的下一个挑战将是升级其“各种运营(XOps)”技能。通过使用MLOps,组织不仅可以增加他们在DataOps流程中的参与度,还可以满足不耐烦的客户的期望。
