IT供给将采用颠覆性的技术和产品来提升现有数据中心的性能,而HighBandwidthMemory(HBM)就是其中之一。由于HBM比现有的存储芯片技术速度快得多、功耗更低、占用空间更小,因此它将成为高性能计算(HPC)和人工智能(AI)技术等资源密集型应用的主流。但是,由于HBM的价格还是比较高,而且某个应用程序需要重新编写才能真正被采用,所以离主流应用还有很长的路要走。HBM是如何工作的?HBM是美国芯片制造商AMD和韩国存储芯片供应商SK海力士的联合产品,于2008年开始开发,并于2013年将规范移交给半导体行业标准机构JEDEC联盟。HBM2标准于2016年获得批准,并且HBM3于今年1月正式公布。目前,HBM存储芯片的主要厂商有韩国三星、SK海力士和美光科技。HBM旨在解决标准动态随机存取存储器(DRAM)与中央处理器(CPU)和图形处理单元(GPU)性能相比滞后的性能和功能,最初的解决方案是放置更多DRAM和额外的双列直插式内存模块主板上的(DIMM)插槽,也称为RAM插槽。但是问题的根源不是内存本身,而是总线。标准DRAM总线为4至32位宽。HBM总线为1,024位宽;据AMD公司副总裁兼产品首席技术官兼HBM内存的联合开发人员JoeMacri称,其宽度最多可达128倍。HBM技术除了通过增加总线来增加带宽外,还通过堆叠来缩小内存芯片的尺寸。因此,与它们最初设计用于替代的图形双倍数据速率(GDDR)内存相比,HBM芯片较小。一颗1GB的GDDR显存芯片占地672平方毫米,而一颗1GB的HBM只占35平方毫米。HBM最多堆叠12层,并通过称为“硅通孔”(TSV)的互连技术连接。TSV贯穿HBM芯片层,就像电梯穿过大楼,大大减少了数据传输所需的时间。由于HBM位于CPU或GPU旁边的基板上,因此在CPU/GPU和内存之间移动数据所需的功率更少,并且CPU和HBM直接相互通信而无需DIMM。按照JoeMacri的说法,HBM设计的思路不是很窄很快,而是很宽很慢。Nvidia加速计算产品管理高级总监PareshKharya表示,标准DRAM不太适合HPC使用。DDR内存虽然可以达到HBM内存的性能,但从能效上来说必须要有很多DIMM,所以不是最好的选择。谁在使用HBM?第一家将HBM??用于HPC的供应商是富士通,其基于Arm的A64FX处理器专为HPC任务而设计。采用A64FX技术的Fugaku超级计算机首次亮相2020年超级计算机500强榜单,此后一直占据该位置。Nvidia在其即将推出的HopperGPU上使用HBM3,而即将推出的GraceCPU使用LPDDR5X技术,这是一种DDR衍生产品。AMD在其InstinctMI250X加速器(基于其GPU技术)上使用HBM2E,而英特尔计划在某些SapphireRapids代Xeon服务器处理器以及面向企业的PonteVecchioGPU加速器上使用HBM。HBM会被用于主流应用吗?尖端技术进入主流需要时间。液体冷却最初是一个边缘概念,旨在为游戏玩家榨取更多CPU资源。现在,每个服务器供应商都为其处理器提供液体冷却,尤其是AI处理器。那么HBM内存能否成为主流呢?Macri估计,相同容量的HBM和DDR5的价格差异超过2比1。换句话说,1GBHBM的成本是1GBDDR5的两倍。所以他的理由是,如果企业要为内存支付高价,他们将希望获得投资回报。性能是真正改善TCO的最佳方式,因此如果你想将性能提高一倍,就必须将TCO提高一倍,Macri说。FuturumResearch首席分析师DanielNewman认为,HBM不会成为主流的原因有两个。首先是成本。如果成本高,就不会在主流市场得到广泛应用。此外,发热是阻碍其普及的另一大因素,因为除了CPU芯片的散热之外,五个或更多的内存芯片共用同一个冷却器,这意味着集成HBM的处理器需要消耗大量的功率,所以每个处理器使用HBM的必须具有非凡的热管理能力。当然,希望为AI和HPC部署加速器的企业期望结果和成本在采购和运营方面相匹配。HBM是否需要重写应用程序?HPC和AI是会自动发挥HBM内存的全部性能还是需要重新架构,也是大家普遍关心的问题。根据IT专业人员的说法,这完全取决于您最初构建应用程序的方式。PareshKharya表示,应用程序开发人员通常会绕过系统所能提供的限制。因此,有时您的应用程序必须重新设计或更新以考虑可用的新功能。当然,如果现有应用程序可以解决各种限制,例如内存或延迟,那么开发人员将不得不重新设计或更新他们的应用程序以考虑可用的新功能,因此这通常适用于任何新的计算架构出现。Macri说,如果一个应用程序受内存带宽限制,它无需重写就能运行得更快。如果它受内存延迟限制,那么它不会更快,并且需要重写应用程序以删除导致它受延迟限制的依赖项。此外,如果系统同时加载许多应用程序,即使应用程序受延迟限制,HBM系统也可能具有更好的性能,因为HBM的加载延迟会更低。HBM是否需要从CPU转移到GPU?还有一个问题是关于处理器架构的。ObjectiveAnalysis的首席分析师JimHandy指出,HBM与单指令、多数据(SIMD)处理器一起工作,这些处理器的编程方式与普通服务器处理器完全不同。X86和Arm不是SIMD,但GPU是。根据JimHandy的说法,任何已经在普通处理器上运行的程序都必须重新配置和重新编译才能利用SIMD架构。因此,改变这一点的不是HBM,而是处理器类型。HBM技术不断进步目前市场上的HBM版本是HBM2E,但上个月,JEDEC发布了HBM3的最终规范。在相同的工作电压水平下,HBM3的运行温度低于HBM2E。与HBM2相比,HBM3还将每个引脚的数据速率提高了一倍,数据速率高达6.4Gb/s。它还将独立通道的数量从8个增加到16个,并且还有其他性能增强。从Nvidia的HopperGPU开始,所有主要内存厂商-SK海力士、三星、美光等-都在开发HBM3,产品将在今年慢慢开始投放市场。目前,HBM的使用仅限于高性能用例。原文链接:https://www.networkworld.com/article/3664088/high-bandwidth-memory-hdm-delivers-impressive-performance-gains.html
