当前位置: 首页 > 科技观察

谷歌第四代TPU性能实测来了!今年将向谷歌云用户提供服务

时间:2023-03-21 22:44:09 科技观察

谷歌第四代TPU性能实测来了!今年将为谷歌云用户提供服务的TPUv4pod可以达到1exaflop级别的计算能力,实现每秒1018次浮点运算。阔别一年,谷歌I/O大会果然不负众望。除了Starline的3D视频通话技术让谷歌AI负责人JeffDean称之为“魔镜”之外,第四代TPU也备受瞩目。据谷歌称,TPUv4将主要以pod的形式应用。一个pod由4096个TPUv4单芯片组成,可以实现1exaflop级别的计算能力,相当于1000万台笔记本电脑的总和。与上一代TPUv3相比,在64芯片的规模下,TPUv4的性能平均提升了2.7倍。此外,TPUv4pod的性能是TPUv3pod的10倍。将主要使用无碳能源运行,不仅计算速度更快,而且能效更高。谷歌CEO桑达尔·皮查伊(SundarPichai)透露,TPUv4pod将用于谷歌的数据中心,并将在今年内为谷歌云用户提供服务。虽然两分钟的BERT训练刚刚正式发布,但早在一年前,谷歌就提前透露了TPUv4的性能。在去年7月发布的人工智能权威“跑分”MLPerf训练v0.7榜单中,我们可以看到TPUv4与各种芯片的性能对比。在MLPerf训练测试中,其基准包括图像分类、翻译、推荐系统、围棋等8个机器学习任务。最后的结果就是这8个任务的训练时间。速度越快,性能越强。具体8个任务如下:具体训练模型为:ResNet-50、SSD、MaskR-CNN、BERT、NMT、Transformer、DLRM和MiniGo。TPUv4的性能如下。每个系统以TPUv4加速器的数量来区分,分别为8个、64个和256个。从对比可以看出,在ResNet训练中,256块TPUv4将时间缩短到1.82分钟;但NvidiaA100A100-SXM4-40GB要达到这个水平,至少需要768块加速。在BERT的训练中,256TPUv4也将时间缩短到1.82分钟;同样是256的NvidiaA100-SXM4-40GB只能将训练时间缩短到3.36分钟。而且从公布的数据来看,一个由4096个第三代TPU组成的TPUv3pod可以将BERT训练压缩到只有23秒!关于TPU简单来说,TPU就是谷歌研发的一款可以加速机器学习的芯片。与GPU不同,TPU是一种ASIC芯片,即专用集成电路(Application-SpecificIntegratedCircuit),是针对特定应用需求定制的芯片。为什么要发展TPU?其实是因为谷歌自己的很多产品和服务,比如谷歌图片搜索和谷歌翻译,都需要用到深度学习神经网络。这对计算能力有更高的要求,用普通的GPU和CPU很难维持。因此,TPU应运而生。第一代TPU应用在著名的AlphaGo上。2015年对阵李世英时,部署了48个TPU。在第二代TPU中,它被引入谷歌云,用于谷歌计算引擎(GCE),也被称为CloudTPU。搭载TPUv2的AlphaGo只用了4个TPUv2就击败了当时的世界围棋冠军柯洁。2018年,谷歌发布了第三代TPU,相比第二代性能提升一倍。每个吊舱性能提升8倍,每个吊舱最多可容纳1024颗芯片。第四代TPU要到2021年才能正式与大家见面。