当前位置: 首页 > 科技观察

减轻AI程序员的负担!微软开源深度学习库SynapseML,支持可扩展智能

时间:2023-03-17 01:12:22 科技观察

周三,微软宣布将开源一个简单、多语言、大规模并行的机器学习库SynapseML(以前称为MMLSpark),以帮助开发人员简化机器学习。学习开发和部署。即使对于最有经验的开发人员来说,构建机器学习管道也可能很困难。对于初学者来说,组合来自不同生态系统的工具需要大量代码,而且许多框架在设计时并未考虑服务器集群。数据科学团队也面临越来越大的使用更多机器学习模型的压力。微软表示,借助SynapseML,开发人员可以构建可扩展的智能系统来解决跨领域挑战,包括文本分析、翻译和语音处理。SynapseML使开发人员能够将超过45种不同的最先进的机器学习服务直接嵌入到他们的系统和数据库中。其最新版本增加了对分布式形式识别、对话转录和翻译的支持,即用型算法可以解析各种文档,实时转录多个对话者,并翻译100多种不同的语言。▲开源机器学习库SynapseML接口的开源链接为:https://github.com/microsoft/SynapseML一五年沉淀,SynapseML直击AI落地痛点SynapseML基于微软强大的构建Spark(计算引擎)生态,包括大数据处理领域的工业“网红”计算引擎,如ApacheSpark、SparkML等。SynapseML在Spark生态中加入了很多深度学习和数据科学工具,包括Spark机器学习构建管道并与其他深度学习工具无缝集成。这些工具为各种数据源提供强大且高度可扩展的预测和分析模型。SynapseML库可以在AzureSynapseAnalytics工具上使用,可以根据算法运行需求或开发者预先配置的资源为AI模型收集和处理数据。“在过去的五年里,我们一直致力于改进和稳定用于生产工作负载的SynapseML库。使用AzureSynapseAnalytics的开发人员将很高兴得知SynapseML现在可以在这项服务上普遍使用,并提供企业产品,”微软软件工程师MarkHamilton在博文中写道,AI技术的使用和分析能力正在逐渐增强,但大约87%的数据科学项目尚未实现产业化。美国AI算法交易服务平台Algorithmia近期调查显示,22%的企业部署模型实现商业价值需要1-3个月的时间,而18%的企业则需要3个月以上。SynapseML将现有的机器学习框架和微软自研的算法打包成一个API,解决了数据项目无法落地的难题。该API可用于Python、R、Scala和Java。SynapseML使开发人员能够促进需要多个框架的用例的组合,例如创建搜索引擎,同时在可调整大小的计算机集群上训练和评估模型。2.填补研究空白??的无监督学习能力正如微软在该项目网站上所解释的那样:SynapseML还为Spark生态系统带来了新的网络功能。通过HTTPonSpark项目,用户可以将任何Web服务嵌入到他们的SparkML模型中,并使用他们的Spark集群进行大规模工作。”▲引擎库SynapseML架构SynapseML还集成了开放神经网络交换(ONNX)框架由微软和Meta(原Facebook)开发,可以在运行时使用来自不同机器学习生态系统的模型。通过集成,开发者只需几行代码就可以执行各种经典的机器学习模型。API具有“无监督学习”的特点AI”,包括用于理解数据集不平衡的特征,例如种族或性别等敏感数据集特征是否被过度解释或识别不足,而没有标记训练数据和模型可解释的性能,即解释模型为何做出某些预测以及如何改进训练数据集,SynapseML引入了可用于个性化推荐的VowpalWabbit框架ndations,以及contextualbandit,一种用于强化学习的新算法模型,可帮助开发人员训练AI模型。无监督学习可以帮助填补一些领域知识空白,而无需标记数据集。例如,Facebook最近发布的无监督模型SEER可以在10亿张图像上进行训练,并且可以在一系列计算机视觉基准测试中取得优异的成绩。然而,无监督学习并不能消除系统预测中存在偏差或缺陷的可能性。一些专家认为,消除这些偏差可能需要对无监督模型进行专门训练,并使用额外的、较小的数据集来消除偏差。“我们的目标是让开发人员不用担心分布式实现的细节,并且能够在不更改开发人员代码的情况下将它们部署到各种数据库、集群和编程语言中,”Hamilton补充道。结语:开源引擎库促进算法落地。随着科学技术的飞速发展,由人工智能引发的技术革命也在快速发展。在机器学习等领域的人工智能研究在性能和效率上不断升级的同时,其算法实现仍然面临困难,不能大规模使用。微软此次开源SynapseML库,不断改进机器学习算法,将现有机器学习框架与微软自研算法统一起来,提升AI数据处理和分析能力,进一步推动AI技术的发展。