文章|半导体产业方面 1947年12月23日,世界上第一个晶体管诞生。
晶体管的出现就像宇宙的第一次爆炸。
就像大爆炸带来的数以千计的行星一样,世界上晶体管的数量在过去 75 年里持续增长。
从一个晶体管到集成在一块芯片上的800亿个晶体管,当芯片如摩尔预测的那样翻倍时,“堆叠材料”成为各大厂商实现性能差异化的唯一途径。
那么数百亿个晶体管给产品性能带来了多大的提升呢?随着摩尔定律开始放缓,“堆料”变得越来越困难,芯片企业如何突破极限?高性能处理器的“堆叠”大战 3月22日,NVIDIA推出了全新的Hopper GPU架构和H100 GPU。
这款被称为核弹级别更新的新产品将容纳 800 亿个晶体管,使其成为目前最强大的 GPU。
在发布会上,英伟达首席执行官黄仁勋表示,20块H100 GPU可以支持全球互联网流量。
H100支持的第四代NVLink接口可提供128GB/s的高带宽,是A100的1.5倍;而且在PCIe 5.0下还可以达到128GB/s的速度,是PCIe 4.0的两倍。
内存方面,H100还将默认支持80GB HBM3内存,带宽为3 TB/s,比A100的HBM2E快1.5倍。
性能方面,H100最高可提供FP64/FP32 60TFlops、FP162000TFlops、TF32 1000TFlops,均为A100的三倍,FP8 4000TFlops,为A100的六倍。
引爆现场的不仅仅是新一代 GPU,还有 NVIDIA 的数据中心 CPU Grace。
Grace封装了两颗Grace CPU,共有144个CPU核心(基于ARMv9指令集),缓存容量为396MB,支持LPDDR5X ECC内存。
144 个计算核心通过每秒 900 GB 的 NVLink 芯片间互连相互连接。
内存带宽为每秒 1 TB。
Grace CPU Superchip采用Arm v9,芯片采用Neoverse N2设计。
Neoverse N2平台是Arm第一个支持新发布的Arm v9扩展的IP,性能比V1平台高40%。
N2 Perseus平台采用5nm设计,支持PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0和CXL 2.0。
功耗方面,Grace CPU Superchip的两个CPU和板载内存的峰值功率为500W。
而就在3月9日,苹果还在春季发布会上推出了令人瞩目的超级新品M1 Ultra。
该芯片包含20个CPU核心,其中16个注重性能的Firestorm核心,4个注重Efficient Icestorm核心。
新的SoC由1140亿个晶体管组成,可配置高达128GB的高带宽、低延迟统一内存,可通过20核CPU、64核GPU和32核神经引擎进行访问,比使用 Afterburner 的 28 核 Mac Pro 快 5.6 倍。
“堆叠”=性能? Intel于1971年发布了4004处理器,拥有2,250个晶体管; 8088于1979年投入生产,该芯片包含29,000个晶体管; 1986年,MIPS计算机系统公司发布了第一个包含11万个晶体管的商用RISC架构;数字设备公司(DEC)于1994年发布了Alpha 21164,包含930万个晶体管; 2006年Intel发布Core Duo,搭载2.91亿个晶体管,开启多核时代; 2014年IBM的Power8包含12个核心,96个线程,配备42亿个晶体管;……而我们回顾世界上第一个商用微处理器Intel 4004,这款诞生于51年前的产品,在面积上集成了2300个晶体管??3毫米*4毫米。
该晶体管采用五层设计和10微米工艺。
该处理器初始主频为108KHz,最高主频为740KHz。
它可以执行4位操作,支持8位指令集和12位地址集,并使用10.8微秒和21.6微秒的操作周期。
。
晶体管数量的增加对性能的提升有多大? Intel 4004 包含 2,300 个晶体管,每秒可以使用 10.8 微秒的操作周期执行 90,000 次操作。
相比之下,包含 800 亿个晶体管的 H100 每秒可支持高达 4,000 万亿次浮点计算。
我们可以看到,晶体管数量和性能之间存在明显的正相关关系,这也是所有领先芯片公司都在晶体管数量上下功夫的原因。
然而,每次新品发布会都在刷新大众对晶体管数量的认知的同时,“堆栈”的光环却逐渐褪去。
一些人认为,对于领先的芯片设计者来说,“堆叠材料”似乎简单粗暴。
对于个人用户来说,很难100%利用所有晶体管带来的性能提升。
很多时候,芯片厂商“囤货”的意义就是为了维持自己的市场地位。
以热衷于堆叠材料的苹果为例。
苹果在其最新的手机处理器上集成了150亿个晶体管,采用6核CPU和4/5核GPU,使得CPU性能领先竞争对手50%。
4/5核CPU性能比竞争对手高出50%。
取得 30%/50% 的领先优势。
但对于iPhone 12的用户来说,这些数字的意义似乎有限。
可见,芯片性能的发展史也是晶体管数量变化的历史。
但随着晶体管数量的增加,摩尔定律的放缓已经是肉眼可见的。
对于顶级厂商来说,除了增加晶体管数量之外,寻找“碾压方法”已经成为当务之急。
如何突破“堆叠”限制? Chiplet技术 Chiplet技术被视为延迟半导体摩尔定律的解决方案。
它的概念其实很简单,就是硅晶圆级复用。
由一颗芯片组成的处理器被划分为多个芯片,分别具有:数据存储、计算、信号处理、数据流管理等功能,然后它们连接在一起,形成一个由小芯片组成的芯片网络。
Marvell 创始人周修文博士在 ISSCC2015 会议上提出了 Mochi 架构的概念。
他相信Mochi可以成为许多应用程序的基础设施。
AMD于2019年采用了Chiplet技术,并将其应用到Ryzen和EPYC处理器上。
采用7nm Zen2 CPU核心的CPU性能较上一代提升15%。
除了Chiplet技术之外,它可以将大规模7nm设计的成本降低高达25%;在5nm及更先进工艺的设计中,成本节省就更大。
芯原创始人、董事长兼总裁戴为民曾表示,对于行业来说,在标准和生态层面,Chiplet建立了新的互操作组件、互连协议和软件生态系统;用于芯片设计,降低大规模芯片设计门槛。
包括英特尔、AMD、Arm、台积电和三星在内的多家行业巨头推出了新的通用 Chiplet Interconnect Express (UCIe) 联盟,旨在通过开放的芯片到芯片互连来标准化 Chiplet 之间的互连设计。
从而降低成本并培育更广泛的经过验证的小芯片生态系统。
最终,UCIe 标准被设计为与 USB、PCIe 和 NVMe 等其他连接标准一样普遍,同时为小芯片连接提供卓越的功耗和性能指标。
值得注意的是,所有三大领先代工厂以及 x86 和 Arm 生态系统都将采用该技术。
随着摩尔定律的衰落,芯片制造商正在共同努力解决日益困难的扩展问题。
在NVIDIA的新产品中,支持UCIe的NVlink连接技术发挥着重要作用。
两个 Grace CPU 通过 Nvidia 的新 NVLink 芯片到芯片 (C2C) 接口进行通信。
这种互连技术支持低延迟内存一致性,允许连接的设备同时在同一内存池上工作。
NVLink-C2C 可提供高达 25 倍的能源效率和 90 倍的面积效率,支持高达 900 GB/s 或更高的吞吐量。
同时,通过支持多种类型的连接,Grace可以实现从PCB到硅中介层以及晶圆级的互连。
除了提高芯片性能之外,互连技术还可以降低成本并能够在单个封装中使用不同类型的工艺节点。
先进封装当实际芯片的密度仍然以每三年约2倍的速度增长时,摩尔定律的放缓已经是肉眼可见的。
这种放缓的部分原因是 SRAM 缩放、功率传输和热密度的消失,但大多数问题都与数据输入和输出有关。
片上数据输入和输出 (IO) 是计算的命脉。
将存储器置于片上有助于通过减少通信开销来减少 IO 要求。
虽然chiplet技术可以满足一些需求,但它并不是一个孤立的解决方案。
随着每个晶体管的成本上升,设计成本也随之飙升。
芯片尺寸仍然达到顶峰,因为需要更多的 IO 来与其他芯片接口,但 IO 限制阻止了一些芯片被分割。
先进封装成为解决这一问题的方法。
苹果M1 Ultra通过2.5D先进封装实现性能超越。
UltraFusion 是 Apple 连接两个 M1 Max 芯片的方法。
通过将两个 M1 Max 芯片封装在一起,苹果公司可以使用的硬件数量增加了一倍。
CPU 内核的两倍、GPU 内核的两倍、神经引擎内核的两倍、LPDDR5 内存通道的两倍以及外围 I/O 的两倍。
Intel选择在单个基板中拥有许多嵌入式桥,以根据需要提供极高的I/O和多个芯片之间良好控制的电气互连路径,即EMIB封装,以提高芯片性能。
可见封装和架构因素在性能提升中变得越来越重要。
“囤货”是大厂都无法逃脱的内卷吗?尽管业界对于“堆叠”褒贬不一,但现实仍然是,可以不止堆叠,但不能没有堆叠。
堆叠不仅仅描述了向处理器添加晶体管。
广义上讲,堆叠还包括各个硬件厂商,比如主板厂商、手机厂商,为了寻求差异化,也在自己的产品中加入了大量的顶级配件。
随着汽车变得更加智能化,汽车制造商也开始利用“堆栈”来吸引客户。
Aquila NIO超感知系统搭载33个高性能传感硬件,包括1个超远距离高精度激光雷达、7个8兆高清摄像头、4个3兆高感环视摄像头、 1个增强主驾驶感知、5个毫米波雷达、12个超声波传感器、2个高精度定位单元和V2X车路协同。
如果自动驾驶是智能汽车厂商的最终目标,显然这个配置还不够。
更重要的是,自动驾驶需要的不仅仅是汽车制造商的突破。
对交通系统、城市互联互通等方面也有很高的要求。
但汽车制造商仍然在他们的产品中添加不必要的配件。
换句话说,“堆栈”就像各个硬件制造商之间的卷合。
既然逃不掉,那就只能加入了。
但即使对于内合,也有不同的滚动方式。
在汽车行业,特斯拉选择通过优化传感器组合、控制传感器数量、改进算法来充分发挥单个传感器的最佳性能,而不是简单地添加配件。
如果说“堆放材料”是一场无法避免的竞争,那么可以肯定的是,最终决定胜负的“材料”一定不止一种。