【.com原创文章】6月19日,英特尔数据创新峰会暨新品发布会如期举行。受新冠病毒疫情影响,本次发布会以线上直播形式召开。会上,英特尔在全球同步发布了第三代至强可扩展处理器。通过前两代产品的发布周期,不难发现第三代至强可扩展处理器的发布节奏比前几代快了很多,这不仅有利于用户,也有利于推广行业快速迭代。 加入Bfloat16数据格式,全面提升AI能力 从第一代XeonScalable处理器开始,Intel就开始重视CPU的AI能力。在第一代至强可扩展处理器中,Intel加入了AVX-512指令来优化FP32计算能力。在2019年发布的第二代可扩展处理器中,引入了深度学习加速技术(IntelDeepLearningBoost),提升了Int8推理能力。此次英特尔在第三代至强可扩展处理器的深度学习加速技术中加入了Bfloat16数据格式,进一步增强了AI能力。 据报道,BFloat最早出现在谷歌的TPU中,是一种越来越流行的用于加速机器学习的浮点格式。Intel和ARM等众多新兴AI芯片公司也将其作为AI加速架构的核心功能之一,可见其重要性。对比BFloat16和FP32,BFloat16在大多数情况下具有FP32的精度,效率也高于FP32,可以看作是FP32的改进版。 上图展示了英特尔第三代至强可扩展处理器的AI性能。可以看出,BFloat16的加入使得第三代可扩展处理器在训练和推理方面的能力有所提升,CPU在推理方面的提升更大。与第二代可扩展处理器上使用的FP32格式相比,训练性能最高可提升1.96倍,推理性能最高可提升1.9倍。此外,与上一代相比,图像分类的训练性能提升了1.93倍,推理性能提升了1.7倍。 本次发布的第三代至强可扩展处理器包括Platinum8300系列、Gold6300和5300系列。其中8300系列有四路和八路两种配置,最高28核,6条内存通道,支持单条4.5TB内存,标称TDP高达250瓦。Gold6300和5300系列仅提供四路配置。 第三代至强可扩展处理器主要增强安全性和多核计算性能,适用于关键业务负载、实时分析、机器学习和混合云工作负载。与五年前的平台相比,平均性能提升了1.9倍,运行数据库的性能提升高达1.98倍,运行的虚拟机数量达到了前者的2.2倍。作为市面上唯一可以提供八路x86服务器处理器的平台,至强还集成了深度学习加速的功能。 对于开发者来说,只需极少的代码修改即可使用新平台。因此,包括阿里云、蚂蚁金服、腾讯云、东软在内的国内厂商已经使用Bfloat16进行处理,推理和训练性能提升近两倍。 第二代傲腾持久内存亮相:性能更强、容量更大 在发布会上,英特尔终于公布了新一代傲腾产品——傲腾持久内存200系列,更好地为第三代至强可扩展提供支持处理器。显然,与第三代至强可扩展处理器相比,傲腾产品的发布节奏明显慢了很多。 按照Intel的说法,OptanePersistentMemory200系列不仅容量更大,性能也更高。与上一代傲腾持久内存结合第二代至强可扩展处理器相比,性能带宽较上一代平均提升25%,与主流NANDSSD相比,可提升数据效率传输和访问225次。 另外,在容量方面,单通道最大可存储6个512GB的持久内存,最大为3TB的持久内存。200系列可在单路第三代至强可扩展处理器上提供高达4.5TB的内存,包括3TB的Optane持久内存和普通DRAM内存。单条可用容量没有变化,共有128GB、256GB和512GB三种型号,支持与普通DRAM共用内存插槽,支持两种内存混插。 值得一提的是,Optane持久内存在断电时不会丢失数据,可以加快系统故障后的重启时间。未来可能会出现越来越多利用此功能的应用程序。大容量内存的好处毋庸置疑。可以更好的支持内存数据库,减少服务器数量,降低license授权费用。对TCO的好处是许多用户选择Optane的重要原因。 当然在发布会上,Intel还发布了D7-P5500和P5600两个系列的NANDSSD,采用96层TLC代替QLC。接口协议方面,支持PCIe4.0和NVMe1.3c,4K随机读IOPS可达100万,4K随机写IOPS最高可达26万,延迟也大幅降低。作为强调性能的产品,该系列SSD主要应用于全闪存阵列,支持人工智能、大数据分析等IO密集型应用。类型场景。2019年下半年开始,PCIe4.0SSD陆续上市,包括消费级SSD和企业级SSD。这次应该是Intel首款PCIe4.0SSD,CPU平台也会有一定的支持。Intel平台支持PCIe4.0的支持,说明市场真的开始转向4.0了。 在AI优化方面,全新的FPGA-Stratix10NX除了英特尔的第三代至强可扩展处理器等核心产品和第二代FPGA-Stratix10NXFPGA新品外,还有很大的提升 。由于英特尔在其中嵌入了AI优化模块AITensor,数据显示,与现有的Stratix10MX相比,前者的Int8计算性能提升十五倍。 Stratix10NX定位为至强处理器的补充,提供针对特定应用的定制化。为了进一步优化性能,英特尔重新设计了计算模块(DSP模块)。在自然语言处理、欺诈检测、智慧城市场景中,Stratix10NX的性能是NVIDIA显卡V100的数倍。 虽然GPU在AI计算领域的应用最为广泛,但很多针对AI场景设计的新型芯片,包括Stratix10NX等FPGA和部分IPU,在某些场景下性能优于GPU,AI芯片将不断进化随着AI计算负载的变化。【原创稿件,合作网站转载请注明原作者和出处为.com】
