日前,特斯拉宣布其自主研发的超级计算机Dojo正式上线,该计算机将用于特斯拉自动驾驶神经网络的训练。据特斯拉AI负责人、高级工程师Karpathy介绍,这个计算机群使用5760块NvidiaA100显卡,计算能力321TFLOPS,组成720个节点,总计算能力超过1.8EFLOPS,存储空间10PB(读写速度)1.6TBps)。由于总算力突破1.8EFLOPS,有媒体宣传马斯克/特斯拉成功制造出E级超级计算机。专家认为,这种描述值得商榷。 Dojo不是真正的E级超级计算机 Dojo是神经网络训练机器。由于神经网络训练更注重半精度浮点计算和精度较低的整数计算,因此在推动互联网经常使用FP16计算能力向外界报告。所以,官方标榜的1.8EFLOPS其实是它的低精度运算能力,而不是双精度浮点(FP64)运算能力。按照NV公布的A100FP64峰值性能计算,5760*9.7TFlops,Tesla的双精度算力大约是50+P,与HPCTOP500榜单第五位持平。此前媒体解读的1000P(E级)性能并非本次排名所指的FP64性能。例如,“橘子比苹果好”就是一种误解。必须指出的是,目前国内外正在研制的E级超级计算机均具有超过1000P的双精度浮点性能,而不是超过1000P的单精度和半精度。 富岳日本超算依然是世界第一超算 目前全球超算排名都是以双精度浮点计算能力为准,FP32根本做不了关系国计民生的科学计算。要运行当前的超级计算应用程序,它必须具有双精度浮点计算能力。在双精度浮点运算能力方面,目前日本超级计算机富岳位居世界第一,TOP500中排名第二至第六位的分别是Summit、Sierra、SunwayTaihuLight、Selene、Tianhe2A。可以说,在超级计算方面,基本上处于中美日三国比拼的状态,三个国家交替领先。日本的富岳排名全球第一主要是机器比较新,2020年发布,而中国的超级计算机排名第四和第六,主要是机器比较“老”,比如2016年发布的神威太湖之光。世界各国都致力于E级超算的发展,相信未来的超算格局仍将是几个超算强国交替领跑。 结论 由于人工智能的兴起,世界各国出现了一批用于神经网络训练的机器。由于这些机器更注重半精度浮点运算和精度较低的整数计算,因此在宣传时往往会人为夸大其计算能力。尤其是在一些报道中,厂商和媒体喜欢使用FP16算力。对标现有超级计算机的FP64计算能力。通过玩文字游戏获得所谓的业绩优势,或者将这种举报方式作为吸引眼球和流量的噱头。 对于特斯拉的超级计算机Dojo来说,确实是一台性能卓越的机器。其在机器学习应用中的计算能力为1.8EFLOPS。但是在机器学习应用中的计算能力可以达到2EFLOPS,已经超越了特斯拉的Dojo。
