当前位置: 首页 > 科技观察

5云计算所需的机器学习技能

时间:2023-03-12 00:34:48 科技观察

机器学习和人工智能将继续渗透到IT服务中,并补充软件工程师开发的应用程序。如果IT团队想跟上潮流,就需要提高他们的机器学习技能。云计算服务为构建和部署人工智能和机器学习应用程序所需的一系列功能提供支持。在许多方面,人工智能系统的管理方式与IT专业人员在云中熟悉的其他软件非常相似。但仅仅因为应用程序可以部署,并不意味着机器学习模型可以成功部署。虽然这些共性可能有助于过渡,但也存在显着差异。除了软件工程技能外,组织IT团队的成员还需要具备机器学习和人工智能方面的特定知识。除了技术专长外,他们还需要了解当前可用于支持其团队计划的云计算工具。IT专业人员需要探索在云中成功使用AI所需的五种机器学习技能,并了解支持这些技能的Amazon、Microsoft和Google产品。虽然这些技能有一些重叠,但不会有放之四海而皆准的技能。通过培养具备这些技能的团队成员,组织可以获得利用基于云的机器学习的优势。1.数据工程IT专业人员如果想在云端实施任何类型的AI策略,就需要了解数据工程。数据工程包含一组需要数据整理和工作流开发的技能,以及一些软件架构知识。IT专业知识的不同领域可以分解为IT专业人员应完成的不同任务。例如,数据整理通常涉及数据源识别、数据提取、数据质量评估、数据集成和管道开发,以在生产环境中执行这些操作。数据工程师应该能够轻松地使用关系数据库、NoSQL数据库和对象存储系统。Python是一种流行的编程语言,可与ApacheBeam等批处理和流处理平台以及ApacheSpark等分布式计算平台一起使用。即使IT人员不是Python编程专家,对Python语言有一定的了解也将使他们能够从大量的开源工具中获得数据工程和机器学习的机会。所有主要的云平台都很好地支持数据工程。AWS提供全面的服务来支持数据工程,例如AWSGlue、用于ApacheKafka的AmazonManagedStreaming(MSK)和各种AmazonKinesis服务。AWSGlue是一种数据目录和提取、转换和加载(ETL)服务,包括对计划作业的支持。MSK是数据工程管道的有用构建块,而Kinesis服务对于部署可扩展的流处理管道特别有用。GoogleCloudPlatform提供CloudDataflow,这是一种支持批处理和Steam处理的托管ApacheBeam服务。针对ETL流程,谷歌云平台提供了基于Hadoop的数据集成服务。MicrosoftAzure还提供多种托管数据工具,例如AzureCosmosDB、DataCatalog和DataLakeAnalytics等。2.构建模型机器学习是一门不断发展和进步的学科,IT专业人员可以通过研究和开发机器学习算法来成就自己的事业。IT团队使用工程师提供的数据来构建模型和创建可以提出建议、预测价值和对项目进行分类的软件。了解机器学习的基础知识很重要,即使大部分模型构建过程都是在云端自动完成的。作为模型构建者,您需要了解数据和业务目标,制定问题的解决方案,并了解如何将它们与现有系统集成。市场上的一些产品包括谷歌公司的CloudAutoML,该服务可帮助组织使用结构化数据以及图像、视频和自然语言来构建自定义模型,而无需深入了解机器学习。MicrosoftAzure在VisualStudio中提供了ML.NETModelBuilder,它提供了一个用于构建、训练和部署模型的界面。AmazonSageMaker是另一种托管服务,用于在云中构建和部署机器学习模型。这些工具可以选择算法,确定数据中的哪些特征或属性最有用,并使用称为超参数调整的过程优化模型。这些服务扩展了机器学习和人工智能策略的潜在用途。正如人们不需要成为汽车机械工程师来驾驶汽车一样,IT专业人员也不需要机器学习的研究生学位来构建有效的模型。3.公平和偏见检测算法做出的决策直接且显着地影响个人。例如,金融服务使用人工智能来做出有关信贷的决策,这可能会无意中使某些人群产生偏见。这不仅可能会对个人造成拒绝授信的影响,而且还会使金融机构面临违反《平等信贷机会法》等规定的风险。这些看似艰巨的任务对于人工智能和机器学习模型至关重要。检测模型中的偏差可能需要统计和机器学习技能,但与模型构建一样,一些繁重的工作可以由机器完成。FairML是一种用于审核预测模型的开源工具,可帮助开发人员识别其工作中的偏见。检测模型偏差的经验也有助于数据工程和模型构建过程。GoogleCloud的公平性工具引领市场,包括假设分析工具、公平性指标和可解释的AI服务。4.模型性能评估模型构建过程的一部分是评估机器学习模型的性能。例如,分类器根据精度和召回率进行评估。回归模型(例如那些预测房屋售价的模型)通过测量平均错误率来评估。今天表现良好的模型将来可能表现不佳。问题不在于模型是否以某种方式被破坏,而是模型是在不再反映其使用环境的数据上训练的。即使没有突发重大事件,数据漂移也可能发生。评估模型并在生产中继续对其进行监控非常重要。AmazonSageMaker、AzureMachineLearningStudio和GoogleCloudAutoML等服务包括一系列模型性能评估工具。5.领域知识领域知识不是特定的机器学习技能,但它是成功的机器学习策略中最重要的部分之一。每个行业都有一定的知识体系,必须具备一定的能力去研究,尤其是对于构建算法的决策者而言。机器学习模型受限于反映用于训练它们的数据。具有领域知识的IT人员对于了解在何处应用AI和评估其有效性至关重要。