近年来,随着AI应用的快速发展,引发了算力革命,异构计算也走在了前列。
异构计算主要是指采用不同类型指令集和架构的计算单元组成一个系统的计算方法。
常见的计算单元类别包括CPU、GPU、DSP、ASIC、FPGA等,目前“CPU+GPU”、“CPU+FPGA”是备受业界关注的异构计算平台。
近日,英特尔宣布将取消未来一年半内多款服务器GPU产品的发布计划,其中包括HPC级Rialto Bridge GPU,以全面开发基于Falcon Shores的混合芯片。
英特尔新一代Falcon Shores专为超级计算应用而设计,将CPU和GPU技术结合到单个芯片封装中,并将作为纯GPU架构提供。
值得注意的是,AMD的Instinct MI300和Nvidia的Grace Hopper超级芯片也采用了“CPU+GPU”异构形式。
01.CPU和GPU的区别。
CPU是中央处理单元。
作为计算机系统的计算和控制核心,主要负责多任务的管理和调度。
它具有很强的通用性,是计算机的核心主导部件,如人脑。
但其计算能力不强,更擅长逻辑控制。
GPU即图形处理单元,使用大量计算单元和超长流水线,擅长图像处理和并行计算。
对于复杂的单一计算任务,CPU具有更高的执行效率和更大的通用性;对于图形图像等基于矩阵的多像素点的简单计算,更适合由GPU来处理。
用于图像识别的深度学习、用于决策推理的机器学习以及AI领域的超级计算都需要大规模并行计算,因此GPU架构更加适合。
多核CPU和GPU的计算网格(图中绿色方块为计算单元)。
CPU和GPU的另一个很大的区别是,CPU可以单独行动来处理复杂的逻辑运算和不同的数据类型,但是当需要处理大量相同类型的数据时,就可以调用GPU来处理。
并行计算。
但GPU不能单独工作,必须受CPU控制才能工作。
02.CPU+GPU架构的优点和应用当CPU和GPU一起工作时,由于CPU包含多个针对串行处理而优化的核心,而GPU则由数千个更小、更节能的核心组成,这些核心被设计成提供强大的并行计算性能。
程序的串行部分在CPU上运行,而并行部分在GPU上运行。
GPU 已经成熟到可以轻松执行各种现实应用程序,其速度远远超出多核系统的速度。
因此,CPU和GPU的结合可以解决深度学习模型在CPU上长时间训练的问题,提高深度学习模型的训练效率。
随着CPU和GPU的结合,其应用场景相对于单独的CPU和GPU来说也在不断扩大。
首先,CPU+GPU架构适合处理高性能计算。
随着高性能计算应用的发展,驱动计算能力的需求不断上升。
然而,目前单一计算类型和架构的处理器已无法处理更加复杂和多样化的数据。
数据中心如何在增强计算能力和性能的同时,还能处理多种类型的任务,已经成为全球性的技术难题。
作为高性能计算的主流解决方案,CPU+GPU的异构并行计算架构受到了广泛关注。
其次,CPU+GPU架构适合处理数据中心产生的海量数据。
数据爆炸的时代已经到来,使用单一架构处理数据的时代已经过去。
例如:个人互联网用户每天产生约1GB数据,智能汽车每天产生约50GB数据,智慧医院每天产生约3TB数据,智慧城市每天产生约50PB数据。
数据的数量和种类以及处理地点、时间和方式也在迅速变化。
无论工作负载位于边缘还是云端,无论是人工智能工作负载还是存储工作负载,都需要正确的架构和软件来充分利用这些功能。
第三,CPU+GPU架构可以共享内存空间,消除冗余内存副本来改善问题。
在以往的技术中,虽然GPU和CPU已经集成在同一个芯片上,但芯片在计算时仍然需要经过复杂的步骤来定位内存。
这是因为CPU和GPU的内存池仍然独立运行。
为了解决两个内存池独立操作的问题,当CPU程序需要在GPU上执行某些操作时,CPU必须将CPU内存中的所有数据复制到GPU内存中。
当GPU上的操作完成后,这些数据必须复制回CPU内存。
然而,将 CPU 和 GPU 放入同一架构中可以通过消除冗余内存副本来改善问题。
处理器不再需要将数据复制到其自己的专用内存池来访问/更改该数据。
统一内存池还意味着不需要第二个内存芯片池,即连接到 CPU 的 DRAM。
因此,由CPU+GPU异构并行计算架构组成的服务器正在成为服务器市场上的一匹黑马。
现在不少芯片厂商也开始效仿。
03.芯片巨头的热门蛋糕?英特尔的 Falcon Shores 英特尔的 Falcon Shores XPU 专为超级计算应用而设计,将 CPU 和 GPU 组合到一个混合匹配的芯片封装中。
Falcon Shores 代表了英特尔异构架构设计的延续,最终目标是将现有服务器芯片的每瓦性能提高 5 倍、x86 插槽计算密度提高 5 倍、内存容量和带宽提高 5 倍。
英特尔的高性能计算 CPU 和 GPU 路线图与 Falcon Shores 相一致,表明这些芯片在未来将同时扮演这两个角色。
英特尔超级计算事业部副总裁兼总经理 Jeff McVeigh 表示,推迟推出的 Falcon Shores 将于 2025 年首次搭载 GPU 核心,但并未表明何时将 CPU 核心集成到设计中。
因此,英特尔以 HPC 为中心的设计将落后竞争对手数年。
NVIDIA的Grace Hopper超级芯片 2021年,NVIDIA推出了解决HPC和大规模人工智能应用的Grace Hopper超级芯片。
这是一款完全为大规模人工智能和高性能计算应用而打造的突破性加速CPU。
它通过 NVIDIA NVLink-C2C 技术将 Grace 和 Hopper 架构结合起来,为加速 AI 和 HPC 应用提供一致的 CPU+GPU 组合内存模型。
Nvidia官方表示,利用NVLink-C2C互连,Grace CPU向Hopper GPU传输数据的速度比传统CPU快15倍。
此外,采用CPU+GPU的Grace Hopper核心数量减半,LPDDR5X内存仅为512GB。
不过,在显卡80GB HBM3显存的加入下,总带宽可以达到3.5TB/s,代价是1000W的功耗,每个机架可以容纳42个节点。
Nvidia的Grace Hopper超级芯片计划于2023年上半年推出。
AMD的Instinct MI300 在最近的CES 2023展会上,AMD展示了面向下一代数据中心的APU加速卡产品Instinct MI300。
该芯片采用多芯片、多IP集成封装设计,5nm先进制造工艺,拥有多达1460亿个晶体管。
它还集成了CDNA3架构的GPU单元(具体核心数未透露)、Zen4架构的24个CPU核心、大容量Infinity Cache无限缓存以及8192位宽、128GB容量的HBM3高速缓存。
带宽内存。
技术方面,MI300支持第四代Infinity Fabric总线、CXL 3.0总线、统一内存架构、新的数学计算格式。
据称,AI性能较上一代提升高达8倍,可满足百亿亿次计算需求。
AMD CEO苏姿丰日前确认,Instinct MI300将于今年下半年正式推出。
英特尔的 Falcon Shores XPU 是与 Nvidia 的 Grace Hopper 超级芯片和 AMD 的 Instinct MI300 数据中心 APU 竞争的关键。
Nvidia的Grace和AMD的MI300都将于今年推出。
值得注意的是,这三家公司都选择了Chiplet技术。
04、押注未来超异构计算 对于异构计算,英特尔中国研究院院长宋继强曾表示:“2023年,大家已经完全接受了未来系统的设计和优化问题将通过异构来解决” 2020年,2009年,市场还在讨论什么是异构集成,2023年,大家基于功能有效性、设计简易性、成本等考虑,会自觉采用异构计算,对于当前演进方向的新判断在计算能力方面,宋继强还提到:“传统的异构计算无法满足当前的计算需求。
而“超异构计算”也逐渐成为业界思考的趋势。
”从现实角度来看,英特尔确实是在押注“超异构计算”这条道路。
英特尔提出的“超异构计算”概念可以说是一定程度上理解为通过封装技术实现的模块级系统集成,即通过先进的封装技术将多个chiplet组装成一个封装模块,这样不仅简化了SOC的设计复杂性,更加灵活,而且避免了性能的下降英特尔的“超异构计算”路线基于“Foveros”3D封装技术,与只能实现逻辑芯片和内存集成的SiP相比,“Foveros”可以实现真正的三核逻辑芯片之间维度集成,使得芯片面积更小,同时保证芯片之间更大的带宽和更快的速度。
更低的功耗。
不过,英特尔“超异构计算”的创新不仅仅局限于3D封装层面。
事实上,它在工艺、架构、内存、互连、安全、软件等多个方面都具有领先优势。
“超异构计算”的实现是基于整合其多层次的技术优势。
除了英特尔之外,英伟达在高管层面也全面行动。
NVIDIA在云、网络、边缘、终端等复杂计算场景上基本上都有重量级的产品和非常清晰的迭代路线图。