一位业内人士表示,“‘半导体游戏规则’可能在10年内发生改变,存储半导体和逻辑半导体之间的区别可能变得毫无意义。
” HBM4,为何如此迷人? 01.技术突破2023年,在AI技术应用的推动下,数据将呈现爆发式增长,对算力的需求将大幅增加。
据悉,在AI大模型领域,未来AI服务器的主要需求将从训练端向推理端倾斜。
据IDC预测,到2026年,AIGC 62.2%的算力将用于模型推理。
同时,预计到2025年,智能计算能力的需求将达到目前水平的100倍。
据悉,自 2015 年以来从 HBM1 到 HBM3e 的各种更新和改进中,HBM 在所有迭代中都保留了相同的 1024 位(每堆栈)接口,即以相对适中的时钟速度运行的超宽接口。
然而,随着内存传输速率要求不断提高,特别是如果DRAM单元的基本物理原理不改变,这个速度将无法满足未来AI场景中的数据传输需求。
为此,下一代 HBM4 需要对高带宽内存技术进行更实质性的改变,首先是更宽的 2048 位内存接口。
接口宽度从每个堆栈 1024 位增加到每个堆栈 2048 位将使 HBM4 发生革命性的变化。
目前,生成式人工智能已成为推动DRAM市场增长的关键因素,对与处理器一起处理数据的HBM的需求必将增长。
未来,随着AI技术的不断发展,HBM将成为数据中心的标准配置,专注于企业应用的存储卡供应商有望提供更快的接口。
据 DigiTimes 援引首尔经济报道:下一代 HBM4 内存堆栈将使用 2048 位内存接口。
将接口宽度从每堆栈 1024 位增加到每堆栈 2048 位将是 HBM 内存技术有史以来最大的变化。
自 2015 年以来,在从 HBM1 到 HBM3e 的各种更新和改进中,HBM 在所有迭代中都保留了相同的 1024 位(每堆栈)接口。
使用2048位内存接口理论上可以再次将传输速度提高一倍。
例如,NVIDIA的旗舰Hopper H100 GPU配备了6颗HBM3芯片,达到了6144位位宽。
如果内存接口加倍至 2048 位,理论上 Nvidia 可以将芯片数量减半至 3 个,并获得相同的性能。
回顾HBM的发展历史,由于物理限制,使用HBM1的显卡的内存限制为4GB。
不过,随着时间的推移,SK海力士、三星等HBM厂商已经针对HBM的缺点进行了改进。
HBM2 将每堆栈的潜在速度提高一倍至 256GB/s,最大容量为 8GB。
2018 年,HBM2 进行了名为 HBM2E 的小更新,进一步将容量限制提高到 24GB,并带来了另一次速度提升,最终达到每芯片 460GB/s 的峰值。
当 HBM3 推出时,速度再次翻倍,每个堆栈的最大速度为 819GB/s。
更令人印象深刻的是,容量几乎增加了两倍,从 24GB 增加到 64GB。
与 HBM2E 一样,HBM3 也有另一个中期升级版本 HBM3E,它将每堆栈的理论速度提高到 1.2 TB/s。
在此过程中,消费类显卡中的 HBM 逐渐被更便宜的 GDDR 显存取代。
HBM 日益成为数据中心的标准配置,专注于企业应用的存储卡供应商正在寻求提供更快的接口。
哪里有机遇,哪里就有挑战。
目前HBM主要放在CPU/GPU的中间层,采用1024bit接口与逻辑芯片连接。
SK海力士的目标是将HBM4直接堆叠在逻辑芯片上,并完全消除中间层。
HBM4很可能与现有半导体完全不同,散热问题也会随之而来。
因此,逻辑+存储集成封装的散热可能需要非常复杂的方法、液冷和浸没式冷却或解决方案。
HBM 主要通过硅通孔技术堆叠芯片,以提高吞吐量并克服单个封装内的带宽限制,将多个 DRAM 芯片像地板一样垂直堆叠。
在HBM4技术的实现中,在一个模块中堆叠更多存储芯片的技术复杂性将不可避免地进一步增加。
主要困难在于需要增加硅通孔的数量并减小凸块间距。
例如,为了生产HBM4内存堆栈(包括16-Hi堆栈),三星需要完善SangJoon Hwang提到的几项新技术。
其中一项技术称为 NCF(非导电薄膜),是一种聚合物层,可保护 TSV 的焊点免受绝缘和机械冲击。
另一种是HCB(混合铜键合),这是一种键合技术,使用铜导体和氧化膜绝缘体代替传统焊料,以最大限度地缩短DRAM器件之间的距离,并实现更小凸点所需的2048位接口。
这不是一件容易的事。
02.进入市场三星电子技术团队执行副总裁兼DRAM产品负责人SangJoon Hwang在公司博客文章中写道,“展望未来,HBM4预计将于2025年推出,其技术针对高热性能正在开发中,例如非导电膜(NCF)组装和混合铜接合(HCB)”。
尽管三星预计 HBM4 将于 2025 年推出,但其生产可能会在 2025-2026 年开始,因为业界需要为该技术做很多准备。
与此同时,三星将为客户提供 HBM3E 内存堆栈,数据传输速率为 9.8 GT/s,每个堆栈的带宽为 1.25 TB/s。
在封装技术方面,三星采用无凸块接合技术。
无凸块键合是一种先进的封装技术,无需使用传统的微凸块键合,直接将芯片与芯片连接起来。
该技术可以显着提高存储器的I/O速度和可靠性,同时降低制造成本。
三星在无凸点键合技术上的突破得益于其在封装领域的深厚积累和技术积累。
通过不断的研发和创新,三星已成功将无凸点键合技术应用于HBM4内存的生产,实现了铜层之间的直接互连。
这种直接互连方式可以大大提高存储器的传输速度和稳定性,同时降低功耗。
三星在HBM4内存技术的开发中展现了强大的研发实力和技术创新能力。
通过工艺学习和封装技术创新,三星已成功将FinFET三维晶体管和无凸点键合技术应用到HBM4内存的生产中。
这些新技术的应用使得HBM4内存具有更高的性能、更低的功耗和更低的制造成本。
今年早些时候,美光透露“HBMNext”内存将于 2026 年左右出现,提供每堆栈 32GB 至 64GB 的容量,每堆栈峰值带宽为 2 TB/s 或更高,而 HBM3E 的每堆栈为 1.2 TB/s。
s 显着增加。
要构建 64GB 堆栈,需要具有 32GB 内存设备的 16-Hi 堆栈。
虽然HBM3规范也支持16-Hi堆栈,但到目前为止还没有人宣布这样的产品,而且看起来如此密集的堆栈只能通过HBM4进入市场。
11 月,韩国媒体 Joongang.co.kr 报道称,韩国主要存储芯片制造商 SK 海力士正计划与 NVIDIA 联手开发一款新型 GPU,并计划将其新一代高带宽内存(HBM4)与逻辑芯片堆叠在一起,这也将是业界首创。
SK海力士在该项目上与Nvidia等半导体公司进行了合作。
据悉,先进封装技术预计将委托台积电作为首选代工厂。
SK 海力士的目标是将未来的 HBM4 堆叠在 Nvidia、AMD 和其他公司的逻辑芯片上的 3D 堆栈中。
预计 HBM4 内存堆栈将使用 2048 位接口。
图:SK 海力士 HBM4 规划的连接方式(来源:韩国中央日报) 外媒 Tom's Hardware 指出,这一设计与 AMD V-Cache 类似,将小型 L3 缓存(高速缓存)直接放置在 CPU 顶部。
新的技术是将GPU的所有HBM内存放在GPU的顶部或几个芯片的顶部。
该技术的优点是缩小封装尺寸、提高容量和性能,但散热将是最大的问题。
例如,使用 V-Cache 的 AMD CPU 必须降低 TDP 和时钟速度,以补偿 3D 缓存产生的额外热量。
像NVIDIA H100这样的数据中心GPU需要80-96GB HBM,这在容量和发热量方面与V-cache完全不同。
很难比较。
如今,一个计算中心计算卡的功耗可能有几百瓦。
甚至 HBM 部分也相当耗电。
要想很好地散热,可能需要非常复杂的方法。
此外,选择这种集成方式还将改变芯片的设计和制造方式。
内存和逻辑芯片将采用相同的工艺技术,并在同一晶圆厂生产,以确保最终的性能。
如果只考虑DRAM的成本,确实会有大幅增加,所以各方都没有真正认真考虑过这个选择。
据了解,SK海力士正在与包括NVIDIA在内的芯片设计公司讨论HBM4集成设计方案。
SK海力士和Nvidia可能从一开始就合作,会选择在台积电生产,台积电将使用晶圆键合技术将SK海力士的HBM4堆叠在逻辑芯片上。
此前,SK海力士一位负责人强调,“最关键的作用是制造工厂(FAB)和封装部门之间的密切沟通,因为HBM需要在后处理方面进行先发制人的投资。
”他补充道:“SK海力士已经能够开发出不同于竞争对手的封装技术,并从合作伙伴那里获得长期独家的关键材料。
”面对三星的竞争,SK海力士并不担心。
“虽然三星电子可以通过提供内存和逻辑芯片工艺来引领 HBM 领域。
” SK海力士一位负责人表示,“客户不希望一家公司占据主导地位。
他们目前看重Nvidia、台积电和SK海力士之间的合作。