当前位置: 首页 > 科技观察

3D芯片技术从三个方面颠覆计算:AMD、Graphcore、Intel都在招

时间:2023-03-12 22:12:12 科技观察

高性能处理器研究表明,延续摩尔定律的新方向即将到来。每一代处理器都需要比上一代有更好的性能,这也意味着需要在硅芯片上集成更多的逻辑电路。但目前芯片制造存在两个问题:一个是我们缩小晶体管以及将它们组成逻辑和内存的模块的能力正在放缓,另一个是芯片已经达到了尺寸极限。摩尔定律。资料来源:维基百科光刻工具只能压印大约850平方毫米的面积,大约相当于顶级NvidiaGPU的大小。近年来,片上系统开发商已开始将较大的芯片设计分解成较小的芯片,并将它们连接在同一个封装内。在CPU中,连接技术主要是2.5D封装,其中小芯片彼此相邻放置,并使用短而密集的互连进行连接。由于大多数制造商已就2.5D“chiplet到chiplet”通信标准达成一致,这种集成将继续获得动力。但随着数据存储需求的增加,在同一芯片上存储大量数据需要更短、更密集的连接,这只能通过将一个芯片堆叠在另一个芯片上来实现。连接两个芯片意味着芯片之间??每平方毫米有数千个连接。这需要大量创新才能实现,工程师们必须弄清楚如何防止堆栈中的一个芯片过热并损坏另一个芯片,防止偶尔出现的不良小芯片使整个系统崩溃,等等。近日,IEEESpectrum资深编辑、负责半导体报道的SamuelK.Moore撰文介绍了3D芯片技术颠覆计算的3种方式,主要介绍了AMD、Graphcore和Intel领先业界的优势。长期以来,AMDZen3一直是PC增加内存以加速超大型应用程序和数据密集型作业的选项。得益于3D芯片堆叠,AMD的下一代CPU小芯片将提供该选项。Zen2和Zen3处理器内核都使用相同的TSMC制造工艺,因此具有相同尺寸的晶体管、互连等。AMD进行了大量的架构更改,即使没有额外的高速缓存,Zen3的平均性能也提高了19%。值得一提的是,Zen3架构的一大亮点是通过硅通孔(TSV)垂直堆叠芯片,这是一种将多个芯片相互连接的方式。TSV内置于Zen3的最高级别缓存中,这是一个称为L3的SRAM块,位于计算小芯片的中间,并在所有八个内核之间共享。在数据密集型处理器中,Zen3晶圆的背面被减薄,直到TSV暴露出来,然后使用混合键合将64兆字节的SRAM小芯片连接到这些暴露的TSV上——类似于铜冷焊的工艺。结果是一组紧密的连接可以紧密到9微米。最后,为了结构稳定性和导热性,Zen3CPUdie(Die或CPUDie是指在处理器生产过程中从晶圆上切下的小方块)的剩余部分附上了一个空白的硅芯片。AMD3DV-Cache技术将一个64兆字节的SRAM缓存(红色)和2个空白结构小芯片堆叠到Zen3计算小芯片上。“通过在CPU裸片旁边放置空白硅芯片来添加额外的内存是不可取的,因为数据到达处理器内核所需的时间太长。尽管L3缓存大小增加了三倍,但3DV-Cache仅增加了四个时钟周期的延迟-一些这只能通过3D堆叠来实现,”AMD高级设计工程师JohnWuu说。更大的缓存在高端游戏中占有一席之地,使用具有3DV-Cache的桌面RyzenCPU,1080p游戏平均加速15%。Wuu指出,与缩小逻辑容量相比,业界缩小SRAM的能力正在放缓。因此,我们可以预测,SRAM缩放将继续使用更成熟的制造工艺,而计算小芯片将被推到摩尔定律的最前沿。GraphcoreBowAI处理器3D集成可加快计算速度,即使堆栈中的芯片没有晶体管也是如此。总部位于英国的AI计算机公司Graphcore仅通过在其AI处理器上安装供电芯片就实现了系统性能的大幅提升。添加功率传输硅意味着称为Bow的组合芯片可以比其前身运行得更快(1.85GHz对1.35GHz)并且电压更低。这意味着与上一代相比,计算机训练神经网络的速度提高了40%,能耗降低了16%。最重要的是,用户无需更改软件即可获得此改进。电源管理管芯是一堆电容器和硅通孔,为处理器芯片提供电源和数据,真正发挥作用的是电容器。与DRAM中的位存储组件一样,这些电容器形成在硅的深而窄的沟槽中。由于这些电荷储存器非常靠近处理器的晶体管,因此可以平滑供电,从而使处理器核心能够在较低电压下运行得更快。如果没有功率传输芯片,处理器将不得不将其工作电压提高到高于其标称水平以在1.85GHz下运行,这将消耗更多功率。有了电源芯片,它也可以达到给定的时钟频率并且消耗更少的功率。GraphcoreBowAI加速器使用3D芯片堆叠将性能提升40%。弓的制造工艺是独一无二的。大多数3D堆叠是通过将一个小芯片粘合到另一个小芯片上来完成的,其中一个仍在晶圆上,称为晶圆上芯片[参见上面的AMD的Zen3]。相反,Bow使用了TSMC的“晶圆到晶圆”,其中一种类型的整个晶圆与另一种类型的整个晶圆键合,然后切割成芯片。Graphcore的首席技术官SimonKnowles表示,这是市场上第一款使用该技术的芯片,该技术使两个裸片之间的连接比使用晶圆芯片工艺所能实现的连接更密集。BOW-2000虽然供电小芯片没有晶体管,但它们可能会在不久的将来出现。诺尔斯说,仅将这项技术用于电力传输只是第一步,在不久的将来它可能会走得更远。更多信息请参考:https://spectrum.ieee.org/graphcore-ai-processor英特尔PonteVecchio超级计算机芯片Aurora超级计算机旨在成为美国首批突破的高性能计算机(HPC)之一突破exaflop关卡——每秒10亿次高精度浮点运算。为实现Aurora的这些性能,PonteVecchio将47个硅芯片上的超过1000亿个晶体管封装到单个处理器中。英特尔同时使用2.5D和3D技术,将3,100平方毫米的硅(几乎等于四个NvidiaA100GPU)挤入2,330平方毫米的空间。IntelPonteVecchio处理器将47个小芯片集成到单个处理器中。每个PonteVecchio实际上是两组镜像芯片,使用英特尔的2.5D集成技术Co-EMIB连接在一起,在两堆3D小芯片之间形成高密度互连桥。“桥”本身是嵌入封装有机基板中的一小块硅,其中互连线的密度可以是有机基板上的两倍。Co-EMIB裸片还将高带宽内存和I/O小芯片连接到基础块(其他芯片堆叠在其上的最大小芯片)。基础块使用英特尔的3D堆叠技术,称为Foveros,在其上堆叠计算和缓存小芯片。该技术在两个芯片之间创建了密集的芯片到芯片垂直连接阵列,这些连接为36微米。信号和电源通过硅通孔进入这个堆栈,更宽的垂直互连直接穿过大部分硅。Foveros的八个计算块、四个缓存块和八个用于冷却处理器的空白块都连接到基础块。基本块本身提供缓存内存和允许计算块访问内存的网络。英特尔研究员戈麦斯表示:这一切都不容易,PonteVecchio在良率管理、时钟电路、热调节和功率传输方面进行了创新。例如,英特尔工程师选择为处理器提供高于正常电压(1.8伏)的电压,以便电流足够低以简化封装。基础区块中的电路将计算区块的电压降低到大约0.7V,并且每个计算区块必须在基础区块中有自己的电源域。关键是一种新型的高效电感,称为同轴磁集成电感。因为它们内置于封装基板中,所以电路实际上在为计算模块提供电压之前在基础模块和封装之间来回移动。戈麦斯表示,从2008年的第一台petaflop超级计算机到今年的exaflops,用了14年的时间,而3D堆叠等先进封装技术将有助于提升计算能力。