当前位置: 首页 > 科技迭代

Intel、AMD、NVIDIA三大厂商同台竞技GPU+CPU混合

时间:2024-02-25 20:55:59 科技迭代

文章|半导体行业概况 如果说英伟达的 Grace CPU 超级芯片的架构是 CPU+GPU 是巧合的话,那么 Intel 和 AMD 推出的 Falcon Shores XPU 芯片和 Instinct MI300 芯片都是 CPU+GPU 结构时,集成的 CPU +GPU架构很难说是巧合。

更“巧合”的是,上述三款芯片均应用于数据中心场景,这意味着未来两年,AMD、英伟达和英特尔都将有混合CPU+GPU芯片进军数据中心市场。

可以说,CPU+GPU的形式已经成为未来芯片设计的趋势。

CPU与GPU进一步结合 Intel推出XPU Intel宣布推出一款特殊融合处理器“Falcon Shores”,正式名称为XPU。

其核心是一种新的处理器架构,将英特尔的 x86 CPU 和 Xe GPU 硬件置于同一个 Xeon 芯片上。

Falcon Shores芯片基于Tile设计,具有非常高的扩展性和灵活性,可以更好地满足HPC和AI应用的需求。

根据Intel给出的数字,与如今的水平相比,Falcon Shores的能耗比提升了5倍以上,x86计算密度提升了5倍以上,内存容量和密度提升了5倍以上。

Falcon Shores芯片将于2024年推出。

AMD在数据中心领域推出APU,AMD也展现了其野心。

APU 是 AMD 传统的“加速处理单元”术语,适用于具有集成显卡的客户端 CPU。

AMD 自 2006 年 Opteron CPU 的全盛时期就一直梦想着 APU,并于 2010 年开始出货第一批用于 PC 的 APU。

随后,在索尼 Play Station 4 和 5 以及微软 Xbox XS 中推出了一系列定制 APU 游戏机,还有一些Opteron APU——2013年的X2100和2017年的X3000。

最近,AMD公布了路线图,显示将在2023年推出Instinct MI300芯片。

这是AMD推出的首款百亿亿次APU。

AMD 称其为“世界上第一个数据中心 APU”。

该APU是一款将CPU和GPU核心组合到一个封装中的芯片。

具体来说,它将基于 Zen4 的 Epyc CPU 与使用其新 CDNA3 架构的 GPU 结合在一起。

AMD表示,Instinct MI300预计将比其Instinct MI250X提供8倍以上的AI训练性能提升,而与CDNA2 GPU相比,Instinct MI300的CDNA3架构将为AI工作负载提供5倍以上的性能支持Instinct MI200系列的架构。

功耗比得到改善。

Instinct MI300将于2023年上市。

NVIDIA Grace超级芯片 一直专注于GPU设计的NVIDIA去年宣布进军基于Arm架构的CPU时引起了轰动。

今年3月,英伟达推出了解决HPC和大规模人工智能应用的Grace Hopper超级芯片。

该芯片通过 NVLink-C2C 将 NVIDIA Hopper GPU 和 Grace CPU 结合在一个集成模块中。

CPU+GPU的Grace Hopper核心数量减半,LPDDR5X内存仅为512GB。

但在显卡80GB HBM3显存的加入下,总带宽可以达到3.5TB/s,代价是1000W的功耗,每个机架可容纳42个节点。

英伟达也承诺将在2023年上半年推出其超级芯片,为什么巨头们纷纷采用这种形式呢?从推出时间点来看,Intel Falcon Shores芯片、AMD Instinct MI300、NVIDIA Grace Hopper超级芯片将分别于2024年、2023年、2023年上半年推出。

为什么CPU+GPU的形式引起了三大巨头的兴趣并部署在数据中心呢?首先,数字经济时代,算力正在成为新的生产力,广泛融入社会生产生活的各个方面。

数据中心是算力的物理载体,是数字化发展的关键基础设施。

全球数据中心增长稳定,2021年全球数据中心市场规模将超过679亿美元,较2020年增长9.8%。

因此,拥有巨大市场的数据中心长期以来一直受到科技巨头的密切关注。

其次,数据中心会采集大量的数据,因此数据中心内置的芯片需要具备巨大的计算能力。

CPU和GPU的结合可以提高计算能力。

英特尔高级副总裁兼加速计算系统和图形(AXG)事业部总经理Raja Koduri在演讲中提到,如果想要成功占领HPC市场,就需要能够处理海量数据集的芯片。

虽然GPU拥有强大的计算能力,可以同时并行工作数百个核心,但是如今的独立GPU仍然有一个重大缺陷,那就是大型数据集无法轻易放入独立GPU内存中,并且需要时间等待导致显存中的数据速度变慢。

刷新。

特别是对于内存问题,将CPU和GPU置于同一架构中可以通过消除冗余内存副本来改善问题。

处理器不再需要将数据复制到其自己的专用内存池来访问/更改该数据。

统一内存池还意味着不需要第二个内存芯片池,即连接到 CPU 的 DRAM。

例如,Instinct MI300将把CDNA3 GPU芯片和Zen4 CPU芯片组合到单个处理器封装中,两个处理器池将共享封装HBM内存。

NVIDIA官方表示,利用NVLink-C2C互连,Grace CPU向Hopper GPU传输数据的速度比传统CPU快15倍;但对于数据集极其庞大的场景,即使使用NVLink和AMD的Infinity Fabric、高速接口。

由于 HPC 级处理器对数据的操作速度非常快,因此 CPU 和 GPU 之间交换数据的延迟和带宽成本仍然相当高。

因此,如果能够尽可能缩短这条链路的物理距离,就可以节省大量的能源,提高性能。

AMD表示,与使用独立CPU和GPU的实现相比,该架构的设计将允许APU使用更低的功耗;英特尔还表示,其Falcon Shores芯片将显着提高带宽、每瓦性能、计算密度和内存容量。

定制的吸引力 集成多个独立组件通常会带来很多长期利益,但它不仅仅是将 CPU 和 GPU 集成到一颗芯片上。

Intel、NVIDIA、AMD的GPU+CPU都采用chiplet方式。

传统上,为了开发复杂的 IC 产品,供应商会设计一种将所有功能集成在同一芯片上的芯片。

随着每一代产品的诞生,每个芯片的功能数量急剧增加。

在最新的 7nm 和 5nm 节点上,成本和复杂性急剧上升。

通过chiplet设计,将具有不同功能和工艺节点的模块化芯片或chiplet封装在同一芯片中。

芯片客户可以选择这些小芯片中的任何一个,并将它们组装在先进的封装中,从而形成一种新的、复杂的芯片设计,作为片上系统 (SoC) 的替代品。

正是因为小芯片的特点,三大巨头在自身开发多芯片互连的同时,也推出了定制服务。

Intel在发布Falcon Shores时介绍,其架构将采用Chiplet方式,将采用不同制造工艺制造的多个芯片和不同的处理器模块紧密地封装在一个芯片封装中。

这使得英特尔能够在 CPU、GPU、I/O、内存类型、电源管理和可放入其芯片中的其他电路类型方面进行更高水平的定制。

最特别的是Falcon Shores可以按需配置不同的块模块,特别是x86 CPU核心和XeGPU核心。

数量和比例非常灵活,取决于它们的用途。

目前,英特尔已开放其x86架构的许可,并制定了chiplet策略,允许客户将Arm和RISC-V内核放在单个封装中。

最近,AMD也打开了定制之门。

AMD 首席技术官 Mark Papermaster 在分析师日会议上表示:“我们致力于让芯片更容易、更灵活地实施。

” AMD 允许客户在紧凑的芯片封装中实现多个芯片(也称为小芯片或计算块)。

)。

AMD 已经使用了 Tile,但现在 AMD 允许第三方制造加速器或其他芯片,与 x86 CPU 和 GPU 一起包含在其 2D 或 3D 封装中。

AMD的定制芯片战略将围绕新的Infinity Architecture 4.0,即芯片封装中芯片的互连。

专有的 Infinity 结构将与 CXL 2.0 互连兼容。

Infinity互连还将支持UCIe(Universal Chiplet Interconnect Express)来连接封装中的chiplet。

UCIe得到了Intel、AMD、Arm、Google、Meta等公司的支持。

下一代顶级芯片会是多芯片设计吗?总体而言,AMD 的服务器 GPU 发展轨迹与英特尔和 Nvidia 非常相似。

这三个公司都在朝着 CPU+GPU 组合产品的方向发展,其中包括 Nvidia 的 GraceHopper (Grace+H100)、英特尔的 Falcon Shores XPU(混合和匹配 CPU+GPU),以及现在在单个封装上同时使用 CPU 和 GPU 芯片的 MI300。

在所有这三种情况下,这些技术旨在将 CPU 的最佳性能与 GPU 的最佳性能相结合,以实现不完全受任一者限制的工作负载。

Counterpoint Research 研究分析师 Akshara Bassi 表示:“随着芯片面积变得更大、晶圆良率问题变得更加重要,多芯片模块封装设计可以实现比单芯片设计更好的性能。

Chiplet 将继续存在,但就目前而言,该领域还是一座孤岛。

AMD、苹果、英特尔和 Nvidia 正在将自己的互连设计应用于特定的封装技术。

2018 年,英特尔升级了 EMIB(嵌入式多芯片)。

硅)技术到逻辑晶圆3D堆叠技术。

2019年,英特尔推出了Co-EMIB技术,该技术可以互连两个或多个Foveros芯片。

AMD在2019年率先提出Chiplet模式,并通过全面采用小芯片技术获得了技术优势。

Lisa Su在演讲中表达了未来的计划:“我们正在与台积电在3D结构上密切合作,将chiplet封装与芯片堆叠结合起来,为未来的高性能计算产品创建 3D 小芯片架构。

”今年3月2日,英特尔、AMD、Arm、高通、台积电、三星、日月光、谷歌云、Meta、微软等十大巨头宣布成立Chiplet标准联盟,并推出通用Chiplet互连标准( UCIe),希望将整个行业聚集在一起。

迄今为止,只有少数芯片巨头开发和制造了基于小芯片的设计。

随着开发先进节点芯片的成本持续上升,业界比以往任何时候都更需要小芯片。

多芯片趋势下,下一代顶级芯片必然是多芯片设计。