当前位置: 首页 > 科技观察

您只需要这三种机器学习工具

时间:2023-03-18 02:08:35 科技观察

许多机器学习技术已经从概念验证快速迁移到为人们每天依赖的重要技术提供动力。在试图捕捉这一新解锁的价值时,许多团队发现自己陷入了生产机器但没有适合其产品的工具的狂热之中。事实上,我们正处于为构建、部署和迭代机器学习模型定义正确工具套件的早期阶段。在这篇文章中,我们将讨论3种机器学习工具,它们是使您的团队成功地将机器学习应用到产品中所必需的。让我们向过去学习在我们开始讨论ML堆栈建议之前,让我们快速浏览一下软件工程行业已经解决的工具。一个关键的观察结果是,在生产环境中构建、部署和监控代码没有单一的解决方案。换句话说,不存在端到端的工具平台。相反,有一组工具专注于软件工程生命周期的特定部分。>ImagebyAuthor为了简化软件的创建,必须创建工具来跟踪问题、管理版本历史、监督构建,并在生产中出现问题时提供监控和警报。虽然不是每个工具都清楚地属于这些类别中的一个,但这些工具类别中的每一个都代表了创建软件过程中的不同摩擦点,这需要创建工具。我以为这是关于机器学习的?就像开发软件的过程一样,开发机器学习模型的过程有广泛的类别,比如研究、构建、部署和监控模型所需的内容。在这篇文章中,我们将重点关注在解决实验室外应用机器学习中的一些最大障碍时出现的基本ML工具类别。要创建有效的机器学习工具箱,您实际上只需要这3个基本工具:FeatureStore:处理离线和在线特征转换ModelStore:充当中央模型注册表并跟踪实验PerformanceEvaluationStore:监控和改进模型性能创作特征存储首先,让我们深入了解一下。要定义什么是特征存储,让我们从为您的团队启用的特征存储开始。特征存储支持应该是什么:作为特征转换的中心源允许在离线训练和在线服务中使用相同的特征转换使团队成员能够共享他们的实验性转换提供强大的版本控制特征库对于您的团队来说,这是帮助您决定哪个特征库最适合您和您的团队的必需品。您的功能商店应该:与您的数据存储/湖集成一种提供在线部署的快速方法用于快速轻松地部署模型的特征转换用于部署到生产的特征转换代码与您的性能评估存储集成以启用数据和功能QA建议:Tecton模型商店现在您有了一个存储特征转换的特征存储,您需要一个工具来对团队的模型创建历史进行编目和跟踪。这就是模型存储发挥作用的地方。模型存储支持什么:充当所有模型和模型版本的中央存储库,允许每个模型版本的可重现性跟踪模型历史记录除了这些核心功能之外,还有许多模型存储功能,您可能会发现它们对构建和部署非常有用模型。你的模型商店应该有:应该能够跟踪每个版本模型的引用数据集(气泡文件),gitcommit,每个版本模型的工件(气泡文件)应该提供任何模型的最新版本以提供E.G(v2.1)保持一致的血统以在需要时回滚版本与您的评估存储集成以跟踪模型回归模型的每个版本的评估与您的服务基础设施集成以促进模型部署和回滚建议:权重和偏差/MLFlow性能评估存储现在您的模型已被跟踪并存储在模型存储中,您需要能够选择一个模型来发布并监控它在生产中的表现。这是评估存储可以提供帮助的地方。评估存储应该支持什么:在任何环境、生产、验证、培训中对任何模型的聚合(或切片)进行性能测量性能变化及其发生原因提供一个平台,以帮助使用高质量和反馈循环持续交付模型以进行改进-将生产与培训进行比较为A/B测试模型版本提供一个实验平台现在转向我们的评估专注于存储的必备条件功能,这里有一些使特定评估存储值得考虑的事情。您的评估商店应该有:商店模型评估:环境中的输入、Shap值和输出,对于环境中的每个模型版本:生产、验证和训练自动监控以轻松发现问题-基于来自评估商店的基线作为任何类型的性能分析创建灵活的仪表板-DATADOGforML与您的特征存储集成以跟踪特征漂移与您的模型存储集成以获得每个模型版本的模型性能历史推荐:Arize可能适合您的其他数据工具注释平台:让我们退后一步,假设您刚刚收集了您的数据,这些数据可能有也可能没有地面实况标签。现代统计机器学习模型通常需要大量训练数据才能良好运行,并且能够使用基本事实标签注释足够的数据以使您的模型有效可能具有挑战性。不用担心,数据标注平台将批量数据分发到分布式等级集,每个分布式集中器都会根据您提供的指令对您的数据进行标注。推荐:AppenScaleforfullyautomateddataannotationserving模型服务平台:在许多应用机器学习的情况下,您需要某种形式的服务平台来将您的模型部署到您的用户。简而言之,服务平台应该为您的团队提供一些核心功能。什么是服务平台的模型支持:访问控制围绕模型服务,只有选定的一组人应该有权更改部署的模型。如果需要,将快速回滚机制集成到先前部署的模型版本中与模型服务集成以促进模型升级结合评估存储以提高生产中的模型可观察性。推荐:Kubeflow和almorithmiaAIOrchestrationPlatform在许多情况下,一个必须在端到端生命周期上工作并使团队能够编排整个工作流的平台。这些平台帮助团队引入各种资源、管理培训工作流程、存储模型、服务,并连接到监控平台。管理所有这些不同工具的基础设施可能很复杂,而AIOrchestration层可帮助数据科学家和ML工程师专注于交付模型。推荐:拼写结论为工作寻找合适的工具有时会让人感到不知所措,尤其是对于新兴领域。在生产中,部署和监控生产中的机器学习模型不会像软件工程师今天拥有的工具那样最终出现在终端平台上;但只需使用这几个工具,您就应该能够将您的模型从实验室中取出,并快速有效地交付给客户。原文链接:https://towardsdatascience.com/the-only-3-ml-tools-you-need-1aa750778d33