【.com原创文章】随着云计算、大数据、5G、物联网等技术的普及,人工智能也在飞速发展。监控、工业质检、远程维护等AI应用场景也耳熟能详。但事实上,AI的发展远非一帆风顺,其落地之路一直充满荆棘。 首先,如何在海量数据中构建更高效的数据集,从而在更短的时间内获得更好的训练结果是一个很大的挑战;深度结合,如何加速基于场景的AI模型构建是关键;而且,更大的模型有可能获得更好的准确率,但大型模型往往对硬件计算能力提出更高的技术要求;此外,如何通过软硬件协同优化加速AI部署,也是影响AI大规模落地的关键所在。 从中不难看出,人工智能应用发展的全过程可以说是围绕着“数据、算法、算力”这三个要素紧密联系在一起的。无论是数据处理,还是建模、训练、部署,都可以通过优化每个具体步骤的细节,真正突破瓶颈,加速AI落地。当然,这一切都离不开底层技术供应商的支持。 在日前举办的IntelOn技术创新峰会上,英特尔基于一系列的创新发布,向公众描述了一个“AIEverywhere”的愿景。英特尔对开发者生态系统、工具、技术和开放平台的深度投资正在为采用人工智能扫清道路。 数据基础设施优化与创新 数据是人工智能的基石。如果能够在更短的时间内将数据转化为洞察力,对于人工智能的发展无疑会事半功倍。 在数据基础设施建设方面,英特尔早有规划。开源开发平台BigDL平台简化了Spark生产环境中端到端的分布式大数据和人工智能流水线,利用ApacheSpark帮助用户无缝扩展、数据预处理和Tensorflow或PyTorch建模,缩短构建时间解决方案,并为推荐系统、时间序列分析、隐私和受保护的机器学习提供行业特定的面向应用程序的数据管道。BigDL已经被Mastercard、BurgerKing、SKTelecom等厂商用于生产环境,应用规模还在不断扩大。 在数据预处理方面,英特尔对相关工具进行了优化。开源库Modin可以将Pandas应用加速高达20倍,通过JupyterNotebook可以实现从PC到云端几乎无限的扩展;对于流行的Python数学库NumPy和SciPy,英特尔也进行了针对性的优化,使用了oneMKLCore构建块等oneAPI来加速线性代数、快速傅立叶变换随机数生成器和elementwise函数,最高可达100倍。 计算加速:硬件平台的“鱼和熊掌”兼具 随着应用的复杂度不断增加,简单的CPU内核堆叠已经不能满足应用对性能、功耗和成本的要求.人们开始使用越来越多的非CPU计算单元。作为老牌芯片厂商,英特尔近年来在AI硬件领域的投入取得了“鱼和熊掌”的双丰收。 在硬件平台建设方面,英特尔构建了完整的XPU平台——从CPU到GPU到FPGA再到深度学习加速器,适用于各类AI需求。 在近几代产品中,英特尔的每个CPU核心都加入了内置的AI加速能力,无需任何独立加速器即可满足一般用户的需求。值得注意的是,在本次大会上,英特尔宣布其目标是到2022年将英特尔至强可扩展处理器的人工智能性能提升30倍。据悉,下一代英特尔至强可扩展处理器(代号“蓝宝石”)Rapids”)将使用内置的高级矩阵扩展(AMX)引擎、英特尔?神经压缩器(INC)和基于oneAPI开放行业标准的oneDNN优化,进一步提升计算性能。 除了内置AI加速的通用CPU,Intel在GPU平台建设方面也有不错的表现。PonteVecchio可以加载AI、HPC和高级分析工作负载。其新颖的微架构专为可扩展性而构建,可将多种内部和外部工艺技术与先进的封装技术相结合,以定制产品。 此外,基于行业对深度学习训练的需求越来越大,深度学习训练模型越来越大,以提高准确性。训练这些模型会导致计算消耗和相关成本呈指数增长。学习训练处理器的紧迫性也越来越大。在此背景下,英特尔推出了HabanaGaudi处理器。这款以画家命名的处理器可以提高云端和数据中心的深度学习训练效率。数据显示,Gaudi加速器提升了AmazonEC2训练实例的效率,与目前基于GPU的实例相比,性能比最高可提升40%。 开发者福音:跨架构编程的可能性 当硬件体系逐渐完善,GPU、FPGA以及针对不同应用开发的各种专用芯片与CPU一起构成一个复杂的异构平台,新的问题就出现了在历史性的时刻。 一般来说,要发挥这个异构平台的性能优势,开发者需要对底层硬件的架构有深刻的理解,才能发挥各个异构单元的优势。但实际上,在普通的软件工程师或者算法工程师中,能够理解和掌握这些硬件相关的开发知识的人往往很少。 为此,英特尔推出了oneAPI工具包。oneAPI亮相于2018年底举行的英特尔架构日,其在英特尔生态布局中的地位不言而喻。 oneAPI提供了统一的软件编程接口,让应用开发者可以专注于算法和应用的开发,而不用担心太多底层细节的实现。除了编程接口,oneAPI还包括完整的开发环境、软件库、驱动程序、调试工具等要素,并且这些加速库都针对底层硬件进行了优化。以神经压缩器为例。作为一个开源的Python库,它可以跨多个英特尔优化的CPU和GPU深度学习框架自动执行模型压缩,将优化时间减少一个数量级。 对于开发者来说,oneAPI提供了一种通用且开放的编程体验,让开发者可以在不牺牲性能的情况下自由选择架构,也大大降低了使用不同代码库、编程语言、编程工具和工作流引入的复杂性。 部署神器OpenVINOEvolution 在人工智能领域,只有同时提供软硬件生态,才能在激烈的竞争中占有一席之地。为了充分发挥处理器的性能,各厂商推出了各种软件框架和工具。OpenVINO是英特尔推出的用于快速部署应用程序和解决方案的综合工具套件。 通常在人工智能应用开发中,当模型训练完成并部署上线后,会遇到各种各样的问题:模型性能是否满足线上要求?如何将模型嵌入到原来的工程系统中?这些问题在很大程度上决定了投资回报率。只有对深度学习框架有深入准确的理解,才能更好的满足线上需求。但遗憾的是,新的算法模型和框架层出不穷,开发者很难随时掌握。 OpenVINO就是针对这个痛点。OpenVINO作为流水线工具集,兼容各种开源框架训练的模型,具备多种算法模型在线部署能力。这意味着只要掌握了这个工具,就可以轻松快速地将预训练模型部署到Intel的CPU上。 在过去三年中,OpenVINO一直在不断改进。据了解,OpenVINO2022.12.0版本将于第一季度发布。该版本有三大突破: 一是针对给开发者带来的问题的重要升级,包括在模型转换中加入更多的默认值,在API中保留原有架构中的模型输入布局和精度,以便减少代码更改; 其次,从根本上提升OpenVINO在计算机视觉方面的性能,使其现在可以支持从边缘到云端的广泛模型,尤其是自然语言处理和文本分类; 三、新的自动硬件目标优化功能,新的自动插件可以自动发现系统加速器并匹配推理模型需求,大大优化了延迟和吞吐量。 结语 在今年的IntelOn技术创新峰会上,Intel对人工智能领域表现出了明确的态度:不是做强某些硬件产品,而是面向AI市场,提供Full-stack从硬件到软件的解决方案。英特尔正在投资多种AI架构以满足不同的用户需求,使用基于开放标准的编程模型让开发人员更容易在更多用例中运行更多AI工作负载。 在人工智能领域,英特尔也为同行业的其他竞争对手树立了标杆:在原有硬件开发能力的基础上,通过在英特尔至强可扩展处理器上广泛优化流行的库和框架,使其成为开发人员更容易获取和扩展AI。英特尔致力于携手合作伙伴,拥抱开发者,共同构建AI创新生态,打造“AIEverywhere”愿景。遥不可及,未来触手可及。 点击了解更多英特尔On科技创新峰会【原创稿件,合作网站转载请注明原作者和出处为.com】
