当前位置: 首页 > 科技迭代

芯片异构化是大势所趋

时间:2024-02-25 12:51:18 科技迭代

在摩尔定律的驱动下,芯片发展的目标始终是高性能、低成本、高集成度。

随着单芯片可集成的晶体管数量越来越多,工艺节点越来越小,隧道效应越来越明显,漏电问题也越来越突出,导致频率提升逼近瓶颈。

为了进一步提高系统性能,芯片正在从单核向多核转变。

系统开发。

后摩尔时代,先进工艺研发成本过高,市场需求变化过快,导致应用碎片化严重。

很难保证一颗大而全的芯片能够成功覆盖所有需求,而过高的研发成本和过大的Die面积带来的良率下降也导致了芯片成本的急剧上升。

为了延续摩尔定律,采用多芯片异构集成来替代单个大芯片,以确保在可接受的成本下进一步提高集成度和性能。

因此,芯片系统逐渐演化为多核异构系统。

什么是芯片互连技术?进入众核时代,各大厂商一致采用多Die扩展技术路线。

一是基板封装技术(MCM),通过基板布线将裸片互连,例如低功耗、超短距离;其次是硅中介层技术,它在芯片底部添加了一层硅。

,作为连接多个Dies的中间层,Apple采用了这种方法;第三,嵌入式多芯片互连桥(EMIB)技术在基板制造过程中嵌入具有多个布线层的电路。

桥接器用于通过这些桥接器互连多个Die。

英特尔就采用了这种方法。

Arm高级副总裁兼基础设施总经理Chris Bergey表示:“CPU设计的未来正在加速并向多芯片迈进,这使得整个生态系统有必要支持基于小芯片的SoC。

” Apple M1 Ultra FusionM1、M1 Pro、M1 Max 和 M1 Ultra 的尺寸比较。

芯片面积持续扩大,晶体管数量分别为160亿个、337亿个、570亿个和1140亿个。

M1 Max 的性能是 M1 的 3.5 倍,是 M1 Pro 的 1.7 倍,但 M1 Ultra 的性能是 M1 Max 的两倍。

Apple M1 Ultra 由 1140 亿个晶体管组成。

M1 Ultra支持高达128GB的高带宽、低延迟统一内存,支持20个CPU核心、64个GPU核心和32核神经网络引擎,每秒运行速度高达22万亿次。

在计算方面,提供的GPU性能是苹果M1芯片的8倍,提供的GPU性能比最新的16核PC台式机高出90%。

如此令人惊叹的芯片的技术关键是将两个 M1 Max 半导体芯片(半导体芯片主体)连接在一起,形成两倍大的 SoC。

M1 Ultra通过将两颗M1 Max芯片放在一起,直接将芯片的硬件指标提升了一倍。

现有的 PC 双处理器配置通过主板上的接线连接两个处理器。

然而,在这种配置中,CPU之间的通信带宽是有限的,因此会出现延迟。

性能不只是简单地翻倍,它还增加了功耗和发热量。

M1 Ultra用来解决这个问题的互连技术被称为“UltraFusion”,它使用超过10,000个硅中介层(连接线)并按原样连接半导体芯片,无需通过外部电路。

通过这种设计,互连上的数据传输速度最高可达 2.5TB/秒。

最重要的是,M1 Max 中内置的指令调度程序将指令分配给两倍的处理核心,并像单个 SoC 一样运行它们。

由于内存控制器也集成运行,因此整个内存通道加倍,将内存带宽增加到每秒 800GB。

例如,M1Max 内置有 10 核 CPU,但当连接两个 CPU 时,其数量会增加到 20 核。

程序中使用哪个核心来处理命令是由调度器模块分配的,但M1Max调度器假设是20核CPU,指令缓冲区的数量也进行了优化。

NVIDIA、英特尔和AMD的选择 NVIDIA超大规模计算副总裁Ian Buck表示:“小型芯片和异构计算对于应对摩尔定律放缓至关重要。

” NVIDIA最近发布的数据中心专属CPU Grace CPU超级芯片也采用了类似的方式。

该芯片由两颗CPU芯片组成,通过NVLink-C2C技术互连。

与 NVIDIA 芯片上的 PCIe Gen 5 相比,其链路的能源效率高出 25 倍,面积效率高出 90 倍,从而实现每秒 900GB 或更高的带宽。

NVLink-C2C类似于英特尔、台积电、三星等技术厂商最近推出的UCIe标准。

它也是一种新型的高速、低延迟、芯片到芯片互连技术,可支持定制芯片与GPU、CPU、DPU、NIC、SoC实现互连。

英特尔此前曾在Hotchips芯片上展示过EMIB(嵌入式芯片互连桥)技术。

单个基板中可以有许多嵌入式桥,根据需要提供极高的 I/O 和多个芯片之间的良好控制。

电气互连路径。

由于芯片不必通过带有 TSV 的硅中介层连接到封装,因此其性能不会下降。

我们使用微凸块来实现高密度信号,使用粗间距、标准倒装芯片凸块来实现从芯片到封装的直接电源和接地连接。

为什么要采用芯片互连技术?就目前的芯片技术而言,台积电的5nm制程技术是真正可以实现的业界顶尖技术。

但如果在制造工艺受限的情况下仍想推出性能更强的芯片,有两种方法:一是设计面积更大的芯片。

第二种是原厂芯片一起使用,也就是说一次使用两个。

然而面积更大的芯片也是当前集成电路发展面临的困难之一。

当芯片面积较大时,良率会较低。

400平方毫米以上的芯片良率下降至20-30%,大面积裸芯片的生产面积意味着更多的坏点和更低的良率。

从一次使用两个的角度来看,目前业界主流是通过主板PCB连接。

比如华硕的WS C621E SAGE主板就是一款双通道CPU主板,从一开始就支持两个CPU同时工作。

然而,这样做的缺点也很明显。

例如,两个CPU插槽以及相应连接所需的布线显然会占用很大的PCB面积,产品尺寸也会非常大。

而且由于两个CPU是通过PCB走线连接的,所以延迟会变得非常大。

通过主板PCB连接两个CPU的缺点基本上都是由于连接太长造成的,这也是Apple、Nvidia和Intel都在考虑封装的原因。

业内人士猜测,苹果的UltraFusion封装架构至少是InFO_LSI/CoWoS-L的定制版本。

台积电发布了其硅桥技术的两个版本:InFO_LSI 和 CoWoS-L,其中 InFO_LSI 凸块焊盘间距指定为 25 μm。

这与 Apple M1 MAX 凸块焊盘间距被压缩至 25 μm 一致。

硅桥技术比较 InFO_LSI 的 RDL(重新分布层)线/空间尺寸为 0.4/0.4 μm,这意味着 I/O 密度为 1250/mm/层。

鉴于互连侧的芯片边缘长度超过 18 毫米,这将提供超过 20,000 个潜在的 I/O,远远超过 Srouji 引用的 10,000 个。

2021年1月,台积电总裁魏哲家在财报发布会上透露:“对于包括SoIC、CoWoS在内的先进封装技术,我们观察到chiplet正在成为行业趋势。

台积电正在与多家客户合作,使用chiplet架构进行3D封装研发。

受限于不同架构和制造商生产的裸片(裸芯片)之间互连接口和协议的差异,设计人员必须考虑工艺流程、封装技术、系统集成、扩展等许多复杂因素,同时,为了满足不同领域和场景对信息传输速度、功耗等的要求,小芯片的设计过程难度极大。

解决这些问题的最大困难是没有统一的标准协议。

炙手可热的互联网联盟。

英特尔、台积电、三星联手日月光、AMD、ARM、高通、谷歌、微软、Meta(Facebook)等十大行业巨头,共同宣布成立Chiplet联盟,并推出全新通用芯片。

互连标准——UCIe,共同打造小芯片互连标准,推动开放生态系统建设。

UCIe的魅力在于,它可以将各个企业的chiplet规定在统一的标准下,使得不同厂家、工艺、架构、功能的芯片可以混合搭配,轻松实现互操作,还可以实现高带宽、低功耗。

延迟、低能耗、低成本。

UCIe联盟中并没有Nvidia和Apple这两家主要的异构集成公司,但是从Nvidia的NVLink-C2C互连技术和苹果的UltraFusion可以看出,这两家公司不会缺席。

2022年4月2日,芯原宣布正式加入UCIe产业联盟,成为中国大陆首批加入该组织的企业之一。

不过,目前国内厂商在UCIe联盟中仍略显弱势。

如果这些行业巨头有意联手制定“新的游戏规则”,下游终端企业将别无选择,只能跟风而行。

但为了未雨绸缪,中国已经开始建立一套原生的chiplet标准。

开放的小芯片生态系统对于这个未来至关重要,主要行业合作伙伴可以在 UCIe 联盟的支持下共同努力,实现改变行业交付新产品的方式的共同目标,并继续兑现摩尔定律的承诺。