当前位置: 首页 > 科技迭代

从2022年新披露的特斯拉机器人Dojo芯片架构解析到存储与计算的融合

时间:2024-02-25 20:58:02 科技迭代

文章|半导体行业 在 Hot Chips 34 (2022) 大会上,Emil Talpes 披露了 Tesla Dojo 处理器的关键细节。

Emil Talpes本人已在AMD工作了近17年,研究过各种Opteron处理器和“K12”Arm服务器芯片。

D1处理器由台积电制造,采用7纳米制造工艺。

它拥有500亿个晶体管,芯片面积为645mm2,比NVIDIA的A100(826mm2)和AMD Arcturus(750mm2)还要小。

要知道,这颗D1处理器是特斯拉人形机器人的核心,意义重大。

千信科技陈伟博士对D1架构、D1训练模块、D1训练网格以及训练矩阵的整体架构进行了分析。

D1 处理器架构 D1 处理器架构 每个 D1 处理器由 18 x 20 D1 内核组成。

每个 D1 处理器中有 354 个 D1 内核可用。

大概出于良率和处理器核心稳定性的考虑,D1处理器由台积电制造,采用7nm制造工艺,拥有500亿个晶体管,芯片面积为645mm2。

这个尺寸小于 Nvidia 的 A100 (826 mm2) 和 AMD Arcturus (750 mm2)。

但每个核心都是一个完整的CPU,具有矩阵计算能力,其计算灵活性远远超出众核架构的GPU,这也会带来极高的成本。

这个架构有点类似于SambaNova。

D1芯片运行主频2GHz,拥有巨大的440MB SRAM,是存储和计算一体化架构(近内存计算)。

D1 核心架构 D1 核心结构 从 18x20 阵列中每个 D1 核心的结构来看,每个 D1 核心都是一个具有向量计算/矩阵计算能力的处理器,并具有完整的取指、解码和执行组件。

该处理器运行频率为2GHz,拥有四个8x8x4矩阵乘法计算单元。

D1处理器指令集据称是D1基于RISC-V架构ISA进行扩展的。

D1核心有FP32和FP16两种标准计算格式,还有BFP16格式,更适合Inference。

为了实现混合精度计算的性能提升,D1还使用8位CFP8格式,以实现更低的精度和更高的吞吐量。

Dojo 编译器可以围绕尾数精度滑动以覆盖更广泛的范围和精度。

在任何给定时间都可以使用多达 16 种不同的矢量格式,使您能够灵活地提高计算能力。

D1处理器的数据格式 D1训练块架构 D1训练模块扩展图 在D1训练模块方面,每个D1训练模块由5x5的D1芯片阵列排列,并以二维Mesh结构互连。

片上跨核SRAM达到了惊人的11GB,这被认为是非常典型的近内存计算架构。

当然,功耗也达到了15kW的惊人指标。

能效比为0.6TFLOPS/W@BF16/CFP8。

对于CPU架构来说,这个能效比是非常不错的。

显然,存储计算一体化架构带来了巨大的优势。

外部 32GB 共享 HBM 内存。

(HBM2e 或 HBM3)每个训练模块外缘的 40 个 I/O 芯片可实现 36 TB/s 聚合带宽,或 10 TB/s 跨度带宽。

数据传输方向平行于芯片平面,供电、水冷方向垂直于芯片平面。

这是一个非常漂亮的结构设计,不同的训练模块可以相互连接。

你可以想象,这是一个可以水平扩展的超级计算机架构。

当然,一开始的图是展开图。

实际的 D1 训练块看起来像一个扁平的披萨盒。

D1 培训模块 D1 培训网格和培训矩阵 D1 培训网格 D1 的扩展就像在家中铺设地砖一样。

在 D1 网格的边缘有 Dojo 接口处理器 (DIP)。

每个 DIP 包括 32GB HBM(800GB/s 存储带宽)、900GB/s 外部传输带宽(特斯拉定制 TTP 协议)、32GB/s PCIe Gen4 接口和 50GB/s 以太网带宽(特斯拉定制 TTPoE 协议) Dojo V1 训练矩阵Dojo V1 训练矩阵由 6 个训练块、4 台主机服务器(安装有 20 个 DIP)和一组连接到以太网交换结构的辅助服务器组成。

以此计算,Dojo V1 系统拥有 53,100 个 D1 内核、BF16 和 CFP8 格式的 1 Exaflop 计算能力、1.3 TB SRAM 内存以及 DIP 上的 13 TB HBM 内存。

与此一起发布的还有 Tesla ExaPod 超级计算机。

总的来说,Tesla D1芯片具有以下特点:1)2D Mesh架构; 2)具有矢量和矩阵计算加速单元的众核架构; 3)存储与计算一体化架构(近存计算)。

Dojo 项目负责人 Ganesh Venkataramanan 表示,Tesla Dojo 是历史上最快的 AI 训练计算机。

与业界其他芯片相比,同等成本下性能提升4倍,同等能耗下性能提升1.3倍,占用空间节省5倍。

使Dojo能够完成训练AI算法这一重要任务的,是特斯拉自研的神经网络训练芯片——D1芯片。

马斯克透露,特斯拉很快将开始Dojo超级计算机的第一批组装,特斯拉Dojo超级计算机将于明年投入使用。