当前位置: 首页 > 科技观察

关于机器学习管道需要了解什么-

时间:2023-03-19 13:48:31 科技观察

关于机器学习管道,您需要了解什么?了解管道,并维护数据模型的可靠性。业务主管经常将机器学习模型的黑盒性质视为一种神秘的技术,通常认为IT主管可以有效地协调流程并使模型表现良好。事实上,了解机器学习过程的基础知识可以揭开其过程和步骤的神秘面纱,IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机器学习管道本质上是构建和自动化程序所需输出的开发步骤。开发人员使用术语“管道”来描述软件如何从源代码到生产。事实上,人们可能会看到许多编程服务的商业管道,例如将软件部署到存储库中以进行更新。在机器学习的情况下,管道描述了在部署和部署过程之前塑造数据的过程。机器学习管道包括数据采集、数据处理、数据转换和模型训练。每个阶段的活动都与数据和代码的处理方式相关联。数据采集??是从计划的数据源中获取数据。摄取的类型范围从简单地上传数据文件到从数据湖或数据库中查询所需的数据。数据处理是创建由行、列和值准备的数据集的编程代码。准备根据已知数据质量应用更改。缺失值用数据集的均值补充。数据转换是由应用程序转换数据格式,以便模型可以读取数据。它旨在以模型可识别的格式排列数据类型,例如应用编码从数据集中移动分类文本。模型训练涉及遍历数据以建立模型规范。这些问题可以根据所使用的模型类型来解决。一些机器学习框架的扩展旨在简化模型部署和调整。例如,TensorFlow在R编程中有一个名为tfdatasets的库,可用于输入管道。在数据上训练模型后,最后一步是测试模型,看看它产生预测的准确性,并相应地调整模型的参数。文档的重要性机器学习管道中的另一个重要细节是文档。文档用于建立在指定时间段内运行功能的说明。YAML是用于此目的的文本编程语言。该文档是使用名称-值对设计的,就像JSON文件中的那样。由于需要大量步骤,IT专业人员可以通过管理机器学习管道流程的平台学习如何管理管道相关问题。最常用的是MicrosoftAzureML、AmazonSagemaker和GoogleCloudAI。这些平台中的每一个都提供了用于开发管道的集成环境,并提供了与其他云计算服务协同工作的特定功能。例如,AzurePipelines与MicrosoftIDE、VisualStudioCode同步,为开发者提供专门的工作流来上传所需的校正数据。这对于编辑用于配置的YAML文件特别方便。每个平台服务相对于语言、平台和媒介都有其独特的优势。例如,AzureML支持Python或R,并为AutoML(基本机器学习过程的框架)提供更多选项。此详细信息将表明企业团队需要接受哪些专业知识培训。熟悉加速器的使用除了学习平台,IT团队还应该熟悉加速器的使用。加速器是托管GPU(图形处理单元)的多个处理器内核的云计算服务。GPU是一种专用处理器,可为图形和数学计算提供专用内存。GPU可以处理大量数据,节省测试和培训时间,这在笔记本电脑处理器上是不可能实现的。加速器有时需要其他框架来访问连接模型的解决方案。例如,TensorFlow有一个库,用于将不同版本的GPU连接到TPU(张量处理单元),以管理训练和测试运行期间产生的数百万个计算参数。因此,IT团队应该寻求有关框架的培训,以了解可能的部署问题。学习并熟悉管道平台和加速器为在模型环境中规划持续集成(CI)/持续交付(CD)奠定了基础。允许监控模型性能以进行效率调整的可观察性成为一个基本主题,这尤其有价值,因为模型可能需要很长时间来测试和训练。可观察性系统可以使IT团队对控制模型的更改进行版本控制,从而准确调试由性能问题引起的编程。这种可重复性也为模型验证提供了基础。模型验证检查模型在多种环境中的运行情况,帮助企业选择最佳的机器学习模型。一旦计划了验证和版本控制,就应该更容易设想持续集成(CI)/持续交付(CD)实践。持续集成(CI)/持续交付(CD)的价值在于交付根据管道阶段和模型条件编排的更新。了解管道可以使用持续集成(CI)/持续交付(CD)技术和机器学习模型为IT团队设置正确的工作流程。它还为IT团队更好地讨论影响业务运营的管道流程铺平了道路。这将创建一个积极主动的IT团队,可以使机器学习保持最新状态以取得成功。原标题:WhatYouNeedtoKnowAboutMachineLearningPipelines,作者:PierreDeBois