文章|半导体行业概况6月9日,SK海力士宣布,公司已经量产HBM3 DRAM芯片,并将供应给NVIDIA。
因此,Nvidia的Tensor Core GPU将是首款配备HBM3 DRAM的GPU。
HBM3 DRAM 通过分布式接口与主机计算芯片紧密耦合。
接口分为独立的通道,每个通道之间完全独立,通道之间不一定同步。
HBM3 DRAM采用宽接口架构来实现高速、低功耗运行。
每个通道接口维护一个以双倍数据速率运行的 64 位数据总线。
随着NVIDIA即将采用HBM3 DRAM,数据中心即将迎来新一轮的性能革命。
想要了解HBM3能够带来哪些改变,首先要了解HBM技术。
巨头进入的HBM技术 HBM代表High Band width Memory,即高带宽内存。
它是一种新兴的标准 DRAM 解决方案。
高带宽内存解决方案最初由三星、AMD 和 SK 海力士提出。
HBM 技术可实现高于 256GBps 的突破性带宽,同时降低功耗。
它具有基于TSV和芯片堆叠技术的堆叠式DRAM架构,核心DRAM芯片位于基本逻辑芯片之上。
第一个 HBM 内存芯片是 2013 年由 SK Hynix 生产的,第一个使用 HBM 的产品是 2015 年的 AMD Fiji GPU。
HBM 的想法非常简单:将内存设备放在靠近 CPU 或 GPU 的地方。
HBM方法将内存芯片堆叠成矩阵,然后将处理器和内存堆栈组合起来形成基本组件,然后将其安装在服务器主板上。
HBM 堆栈并未在物理上与 CPU 或 GPU 集成,而是通过称为“中介层”的超快速互连连接到 CPU 或 GPU。
将 HBM?? 堆栈插入中介层,将其放置在 CPU 或 GPU 旁边,然后将组装好的模块连接到电路板。
通过内插器紧凑、快速连接后,HBM 具有与芯片集成 RAM 几乎相同的特性。
HBM2于2016年提出,2018年12月,JEDEC更新了HBM2标准。
更新后的标准通常称为 HBM2 和 HBM2E(表示与原始 HBM2 标准的偏差)。
HBM2 标准允许每个引脚 3.2GBps,每个堆栈最大容量为 24GB(每个堆栈 12 个芯片,每个芯片 2GB)和 410GBps 最大带宽,通过 1,024 位内存接口提供,由 8 个独特的内存接口分隔每个堆栈上的通道。
最初,HBM2 每个引脚的最大传输速率为 2GBps,每个堆栈的最大容量为 8GB(每个堆栈 8 个芯片的最大芯片容量为 1GB),最大带宽为 256GBps。
然后它达到了 2.4Gbps 的最大容量和每引脚 24GB(每个芯片 2GB,每个堆栈 12 个芯片)和最大带宽 307Gbps,然后才达到我们今天看到的标准。
目前,HBM已与高性能图形加速器、网络设备、高性能数据中心AI ASIC和FPGA以及一些超级计算机结合使用。
除了AMD、Nvidia和Intel之外,他们还宣布将为至强处理器Sapphire Rapids添加HBM2e选项。
Sapphire Rapids也成为Intel首款搭载HBM的CPU。
HBM 的潜力有多大?深度学习和人工智能的兴起对数据计算提出了越来越高的要求。
起初,数据中心通过提高CPU和GPU的性能来提高计算能力。
在冯·诺依曼架构中,计算单元首先要从内存中读取数据,计算完成后,再存回到内存中,以便进行输出。
由于半导体行业的发展和需求的差异,处理器和存储器采用了不同的工艺路线。
由于处理器和存储器的工艺、封装和要求不同,自1980年以来,两者之间的性能差距越来越大。
数据显示,从1980年到2000年,处理器和存储器之间的速度不匹配以每年 50%。
存储器的数据存取速度跟不上处理器的数据处理速度。
数据传输就像处于一个巨大的漏斗中。
无论处理器倾注多少,内存都只能缓慢流动。
两者之间数据交换通道狭窄以及由此带来的高能耗两大问题,在存储和计算之间筑起了一道“内存墙”。
随着数据的爆炸式增长,内存墙对计算速度的影响日益显现。
为了减少内存墙的影响,提高内存带宽一直是内存芯片关心的技术问题。
黄仁勋曾表示,计算性能扩展的最大弱点是内存带宽。
如果集成大量并行计算单元的处理器的内存带宽跟不上,无疑会成为整个运算的瓶颈。
比如谷歌第一代TPU理论值为90TFOPS算力,而实际值最差也只有1/9,也就是10TFOPS算力,因为第一代内存带宽只有34GB/s。
STREAM 基准测试的作者 John McCalpin 在他的 SC16 邀请演讲中指出 HPC 系统中的内存带宽和系统平衡。
每个插槽每秒的峰值浮点运算次数每年增加 50% 到 60%,而内存带宽仅增加约 23%。
过去七年来,GDDR5在业界发挥了重要作用。
迄今为止,几乎所有高性能显卡都具备这种显存技术的海量存储能力。
DDR的出现可以在一个时钟周期内实现两次数据传输,从而使之前标准SDR(单次数据传输)的性能提高一倍。
然而,随着图形芯片的快速发展,人们对信息快速传输的要求也越来越高。
GDDR5已经逐渐无法满足人们对带宽的需求,技术发展也进入了瓶颈期。
增加每秒1GB的带宽将导致更多的功耗,这对于设计者或消费者来说并不是一个明智、高效或具有成本效益的选择。
因此,GDDR5将逐渐阻碍图形芯片性能的持续增长。
通过TSV方式,HBM技术相比GDDR可以提供更高的带宽和更高的性价比。
GDDR 技术要求 DRAM 芯片直接放置在 PCB 上并分布在处理器周围。
HBM 位于 GPU 本身上,并且彼此堆叠。
这种方法无疑更快。
要增加 GDDR 上的芯片数量,这些芯片将占用卡上更多的空间,从而需要更多的数据和电源走线。
这导致制造成本增加,因此对于最终用户来说更加昂贵。
此外,TSV技术可以增加带宽,同时减小封装尺寸和功耗。
在传统架构下,将数据从内存单元传输到计算单元所需的功耗大约是计算本身的200倍。
因此,实际的能耗和计算时间都非常低。
数据在存储器和处理器之间频繁传输。
迁移带来了严重的传输功耗问题,被称为“电力墙”。
研究指出,单个HBM2e器件的功耗几乎是GDDR6解决方案的一半。
HBM2e 提供与 GDDR6 相同或更高的带宽和相似的容量,但功耗几乎是 GDDR6 的一半。
TOPS 是在给定存储设备带宽的情况下可实现的最大吞吐量的衡量标准,用于评估神经网络和数据密集型人工智能应用等应用的最佳吞吐量。
与 GDDR6 技术相比,HBM2e 器件的 TOPS/W 吞吐量提高了一倍。
HBM DRAM 除了用于 GPU 和 CPU 之外,还用于 FPGA 中。
2020年,浙江大学博士生导师王泽克博士使用其团队开发的数海,使用HBM计算了FPGA。
传统的 FPGA 有两个 DRAM 内存通道,每个通道提供 19.2GB/s 的内存带宽。
因此,FPGA无法完成许多需要高带宽能力的应用。
使用数海的测试结果显示,HBM 提供高达 425GB/s 的内存带宽,比传统使用两条 DDR4 提高了一个数量级。
这对于FPGA来说也是一个巨大的进步。
内存计算HBM的优点之一是通过中间层缩短内存和处理器之间的距离,并通过先进的3D封装方法将内存和计算单元封装在一起,从而提高了数据传输的速度。
从本质上来说,近存储计算还没有实现真正的存储与计算的融合。
那么有没有办法进一步打破存储墙呢?内存计算是学术界为解决这一问题而提出的新一代技术。
密歇根大学的研究人员与应用材料公司合作报告称,采用多级单元电阻 RAM (ReRAM) 的内存模拟计算有望为机器学习和科学计算提供高密度和高效的计算。
使用 128 MNIST 数据集测得的原始峰值效率和归一化峰值效率分别为 20.7 和 662 TOPS/W,报告的计算密度为 8.4 TOPS/mm2,分类精度为 96.8%。
佐治亚理工学院提出了一种基于RRAM的无ADC内存计算(CIM)宏电路,利用模拟信号处理和直接数字化,将传感电路的面积开销减少0.5倍,并将吞吐量提高6.9倍。
该方案还实现了能源效率的11.6倍提升和计算效率的4.3倍提升。
SK海力士表示,由于内存计算减少了运行时内存与CPU、GPU之间的数据传输,因此大大降低了功耗。
GDDR6-AiM可降低80%的功耗。
SK海力士解决方案开发副总裁Ahn Hyun表示:“基于具有独立计算能力的内存计算技术,SK海力士将通过GDDR6-AiM构建全新的内存解决方案生态系统。
”台积电在内存计算研发上的投入也是巨大的。
在今年的ISSCC上,台积电共发表了6篇关于内存计算内存IP的论文。
其中一位作者均来自台积电,其余 5 篇论文为台积电与其他大学合作。
台积电独立发表的SRAM论文基于5nm工艺,可以在不同计算精度下实现较高的计算密度和能效比。
三星、IBM、东芝和英特尔等主要半导体制造商已经部署了内存计算。
三星2021年发布的HBM2-PIM采用Aquabolt-XL技术,围绕HBM2 DRAM进行内存计算,可实现高达1.2TFLOPS的计算能力。
值得一提的是,内存计算并不是要取代HBM技术,更多的是帮助HBM DRAM突破算力瓶颈。
在算力时代,CPU和GPU始终是技术关注的焦点,但AWS团队曾表示,对于服务器来说,在内存上工作会比增加核心数量更快。
计算能力时代存储的重要性正在上升。