当前位置: 首页 > 科技观察

现代机器学习工具

时间:2023-03-19 16:42:25 科技观察

上下文数据科学正在迅速发展,机器学习角色正在从数据科学混合角色转变为更多面向工程或分析的角色,通常称为A型和B型数据科学家。许多变化正在推动这些变化:机器学习模型更多地嵌入到生产系统中,需要比以前更深的技术技能商业产品和用户行为变化的步伐加快,对自动化的需求增加。监管要求的增加,例如GDPR的“解释权”,增加了对预测和决策的数据可追溯性和可解释性的需求。这种不断变化的环境导致数据科学家使用的工具发生了变化。这种发展促使数据科学家转向利用云、自动化、可解释和可重复的流程。基于可能的机器学习:云基础设施和Kubernetes(K8S)改变了我们进行机器学习的方式。从能够将预构建的解决方案用作SaaS应用程序,到能够在K8S上运行完整的机器学习堆栈。AutoML和编排:AutoML简化了训练模型,为数据准备、特征工程、超参数优化或模型选择提供了一种自动化方法。可解释和可重现的ML:在过去的几年中,出现了一些库和工具来帮助理解模型预测及其背后的权重并赋予其意义。whatiftools、Lime、Shap或Manifold等工具可以帮助您实现这一目标。基于云的ML向云端和Kubernetes的迁移已经逐渐发生,这推动了机器学习工程师对更多DevOps或数据操作能力的需求。人们对深度学习的兴趣日益浓厚,尤其是Keras帮助该学科民主化的举措凸显了这一点。深度学习可能特别需要资源。它的利用率随工作负载而变化,这迫使Tensorflow执行程序在K8S上运行,从而支持对更具弹性和可扩展性的基础设施的需求>SageMarker的Web界面促成这一举措的另一个因素是ML在生产中的重要性日益增加。这种转变反过来又增加了对原型堆栈和生产之间紧密耦合的需求,并且在各种Saas云产品(例如AWSsageMaker/GoogleCloudMLEngine)的帮助下......这些工具提供了模型部署和API配置类功能,简化了将模型推向生产的过程。AutoML和机器学习工作流程对于拥有生产机器学习系统的重要性越来越高,这反过来加速了从培训到部署的整个机器学习价值链自动化的需求。自动化允许更快地迭代和改进模型。AutoML围绕模型训练过程提供了一个自动化层,用于处理一些重复性任务。它可以处理超参数优化、特征和模型选择等任务。Tpot或AutoKeras等库以及大多数云提供商的ML产品现在都将AutoML作为其解决方案的一部分。对自动化的需求也增加了对协调不同部分的工具的需求。Airflow、Kubeflow、MLFlow和MetaFlow等工作流工具是用于帮助实现这一目标的一些关键工具。他们负责将整个机器学习过程作为管道处理,帮助协调从数据采集到模型服务的端到端过程。可解释和可重现的MGDPR和其他法规影响了我们构建机器学习模型的方式。他们推动可解释和可复制的模型。在可解释方面,出现了一系列工具来帮助数据科学家更好地利用他们的模型。这些工具评估不同的场景,分析变量如何互操作,并提供仪表板来帮助解释模型预测。Whatiftool、Lime、SHAP和Manifold是为应对这一挑战而引入的一些工具。除了提供可靠方法来调试模型的优势之外,可重复性是受法规影响的另一个方面。使用工作流工具始终可以创建可重现的机器学习管道。尽管如此,已经出现了特定的工具来简化这个过程。>Weight&Biases界面截图DVC、Dolt、WeightandBiases(WANDB)和DagsHub是一些专用工具,可以以可重现的方式更轻松地构建模型。DVC负责模型和数据集的版本控制,而Dolt则严格限于数据集本身。WANDB和DagsHub专注于跟踪模型构建/训练权重和结果。总结机器学习工具已经从仅仅能够利用一些预测库和Jupyternotebooks发生了很大变化。今天从事数据科学需要掌握更广泛的工具集,其中包括云库、工作流工具、解释和版本控制工具。这种增加的工具应该有助于数据科学从它的一些研究概况转移到更多的工程或业务功能。关于黑客分析的更多信息来自我:成为Python数据处理库专家Pandas笔记本时代-笔记本如何改变我们开发代码的方式电子商务分析:数据结构和应用程序在Azure上设置气流并连接到MsSQLServer