帮助数据科学家执行更多工程或业务功能的现代机器学习工具许多因素促成了这一变化:机器学习模型正在更多地实施到生产系统中,这要求数据科学家比以前拥有更深入的技术技能。业务产品和用户行为的变化速度加快,对自动化的需求也在增加。由于数据合规性和监管要求,对数据可追溯性和可解释性预测和决策的需求也越来越大。这些变化的因素也导致数据科学家使用的工具发生变化。让他们更多地使用云、自动化、可解释和可重复的流程方向进行开发。基于云的机器学习。云基础设施和Kubernetes改变了数据科学家处理机器学习的方式。从能够将预构建的解决方案用作SaaS应用程序,到能够在Kubernetes上运行完整的机器学习堆栈。AutoML和编排。AutoML简化了训练模型,为数据准备、特征工程、超参数优化或模型选择提供了一种自动化方法。可解释和可重现的ML。在过去的几年里,出现了一些库和工具来帮助理解模型预测及其背后的权重并赋予其意义。whatiftools、Lime、Shap或Manifold等工具可以帮助数据科学家实现这一目标。基于云的机器学习向云端和Kubernetes的迁移是当前的主流方向,这正在推动机器学习工程师对更多DevOps或数据操作能力的需求。深度学习的快速发展推动了机器学习的进步,但深度学习需要更多的计算资源,其利用率随工作负载变化很大,这迫使Tensorflow执行器运行在Kubernetes上以支持更具弹性和可扩展性的基础设施。另一个因素是机器学习在生产环境中越来越重要。在AWSSageMaker、GoogleCloudMLEngine等各种云平台的帮助下,这种转变增加了原型堆栈与生产之间紧密集成的需求。这些工具提供了模型部署和API配置等功能,简化了将模型推向生产的过程。AutoML和机器学习工作流程对于拥有生产机器学习系统的重要性越来越高,这反过来加速了从培训到部署的整个机器学习价值链自动化的需求。自动化允许更快地迭代和改进模型。AutoML围绕模型训练过程提供了一个自动化层,可以处理一些重复性任务。它可以处理超参数优化、特征和模型选择等任务。Tpot或AutoKeras等库以及大多数云提供商的机器学习即服务现在都将AutoML作为其解决方案的一部分。对自动化的需求也增加了对协调不同部分的工具的需求。Airflow、Kubeflow、MLFlow和MetaFlow等工作流工具是用于帮助实现这一目标的一些关键工具。他们负责将整个机器学习过程作为管道处理,帮助协调从数据采集到模型服务的端到端过程。可解释和可重复的ML合规性和治理影响我们构建机器学习模型的方式。他们推动可解释和可复制的模型。在可解释方面,出现了一系列工具来帮助数据科学家从他们的模型中获得意义。这些工具评估不同的场景,分析变量如何互操作,并提供仪表板来帮助解释模型预测。whatiftools、Lime、Shap或Manifold是应对这一挑战的工具。除了提供可靠的模型调试方法的优势外,可重复性是受法规影响的另一个方面。始终可以使用工作流工具创建可重复的机器学习管道,但已经出现了用于简化流程的特定工具。DVC、Dolt、WeightandBiases(WANDB)和DagsHub等是一些专门的工具,可以更轻松地以可重复的方式构建模型。DVC负责模型和数据集的版本控制,而Dolt则严格限于数据集本身。WANDB和DagsHub专注于跟踪模型构建/训练权重和结果。总而言之,机器学习工具并不局限于使用一些预测库和Jupyter笔记本。现在,从事数据科学需要掌握更广泛的工具集,其中包括云、工作流工具、解释和版本控制工具。这些添加的现代工具应该有助于数据科学执行更多的工程或业务功能。
