今天,人工智能界权威“跑分”MLPerf训练v0.7出炉。这是跑分推出以来的第三次。英伟达刚刚发布的A100GPU,以及谷歌即将推出的TPUv4,这两个敌对的AI芯片的表现在这份榜单中就可以看出。除了两大AI巨头的较量,这也是中国芯片首次登上榜单。华为升腾910芯片实测结果曝光,性能一度超越英伟达同类产品。MLPerf测试内容随着AI技术的进步,今年的测试基准进一步增加了难度。MLPerf训练测试基准包含图像分类、翻译、推荐系统、围棋等8个机器学习任务。最后的结果就是这8个任务的训练时间。速度越快,性能越强。具体8项任务如下:后三项是新增或重新制定的标准:1.BERT:使用维基百科语料库训练BERT。这是BERT首次被引入MLPerf测试基准。2.DLRM:使用CriteoAILab的Terabyte点击率数据集训练的深度学习推荐模型(DLRM),广泛用于在线购物推荐、搜索结果和社交媒体内容排名。3.Mini-Go:之前的MLPerfv0.5和v0.6也有训练围棋的强化学习任务,不过是迷你棋盘。这次v0.7将棋盘扩大到全尺寸19x19,更能体现研究成果。了解了测试内容后,我们再来看看各家公司的跑分成绩。BERT训练创下新纪录今年,英伟达和谷歌都拿出了自己最强的硬件来参加比赛。就Nvidia而言,它打破了16项AI培训测试记录,而谷歌表示它在八项任务中的六项中取得了最高分。得益于两家公司的激烈竞争,AI训练的速度发展很快。一些在5年前需要训练3周的任务现在不到1分钟就可以完成,几乎是一年时间的一个数量级改进。印象最深的是BERT。这个NLP模型刚上线的时候需要训练3天。去年,谷歌使用1024个TPUv3将训练时间缩短至76分钟,而Nvidia使用1472个V100GPU进一步将训练时间缩短至53分钟。在最新的MLPerf中,NVIDIA只用了49秒就完成了BERT的训练,他们使用的是一台包含2048个A100GPU的超级计算机SuperPOD。为了进行比较,Nvidia还表示谷歌用16个TPUv3训练了56.7分钟。(看,我们用了不到1分钟!)然而,谷歌实际上比他们更快,一个使用4096TPU芯片的谷歌研究项目在训练BERT上取得了绝对最高分——23秒!需要注意的是,这次训练BERT的数据集和去年不太一样,但是能把BERT的训练时间缩短到半分钟以内,已经足够惊人了。谷歌声称,BERT的快速训练使用了世界上最快的机器学习训练超级计算机,其内部拥有4096个TPUv3芯片和数百个CPU主机,所有这些都通过超快速、超大规模的自定义互连连接起来,可以提供430PFLOP的峰值性能。这台超级计算机将所有四项任务的训练时间都缩短到了不到半分钟。此外,在训练芯片的名单上,我们第一次看到了国产芯片的身影。中科院深圳先进技术研究院提供了华为Ascend910的测试结果,虽然只测试了ResNet-50,但其速度已经超越同规模的Nvidia的V100GPU。同样采用128颗XeonPlatinumCPU和512颗AI加速芯片,Ascend910在ImageNet任务中训练ResNet-50只需要1.59分钟,而NvidiaV100则需要2.35分钟。华为Ascend910不仅可以运行自研的MindSpore框架,还可以运行谷歌的TensorFlow框架。两者的性能差距很小,后者的训练时间为1.53分钟,比在MindSpore框架上的运行时间略短。不过从这份榜单可以看出,国产AI芯片任重而道远,英伟达在商用领域依然独领风骚。很多参与测试的公司都使用了NVIDIAGPU,前不久推出的A100GPU也很快实现了商用。戴尔、阿里、富士通、腾讯、浪潮,甚至谷歌本身都是英伟达的客户。而且,台积电将停止为华为代工芯片,给华为自研AI芯片的未来蒙上阴影。谷歌TPUv4泄露的MLPerf跑分也泄露了谷歌新一代TPU的性能指标。与两年前的TPUv3相比,谷歌的TPUv4平均带来了2.7倍的性能提升。更可怕的是,谷歌用TPUv3训练BERT只用了23秒,而用256块TPUv4训练BERT只用了1.82分钟。至于更大的TPUv4计算集群会带来怎样的恐怖效果,或许只有等谷歌正式发布后才能知晓。关于MLPerfMLPerf是业界第一套衡量机器学习软件和硬件性能的通用基准。它由图灵奖获得者大卫帕特森于2018年联合谷歌和几所著名大学发起。MLPerfBenchmarkAlliance目前有83个成员,包括谷歌、NVIDIA、微软、Facebook、阿里巴巴等73家公司,以及斯坦福、哈佛、多伦多大学等10所大学。2018年MLPerf发布了第一个AI训练测试基准v0.5,v0.7是第三个AI训练跑分榜单。去年,该机构还发布了AI推理测试基准v0.5,国产芯片阿里含光800斩获多项第一。榜单地址:https://mlperf.org/training-results-0-7
