本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。全球最快AI训练速度的宝座刚刚易手。不是英伟达GPU,也不是谷歌TPU……马斯克治下的特斯拉,自研AI训练芯片D1,自研AI超级计算机DojoExaPod。此外,马斯克还带来了特斯拉的另一款新品:车载机器人,搭载了包括芯片在内的特斯拉软硬件系统,但与百度不同的是,它不像汽车,更像人。这是特斯拉一年一度的AI开放日,马斯克再次带来了一系列激动人心的大进展。特斯拉自研AI训练芯片D1发布。马斯克说:必须有一台超快的计算机来训练包括Autopilot在内的整个自动驾驶系统。于是DOJO诞生了。DOJO,名字来源于日语中专门“练武术”的道场。顾名思义,DOJO就是特斯拉AI不断提升功夫的道场。DOJO是一种由网络结构连接起来的分布式计算架构。它还具有大型计算平面、极高带宽和低延迟以及大型分区和映射网络。事实上,在CVPR2021现场,特斯拉已经展示了DOJO的相关性能。当时总算力达到1.8EFLOPS,读写速度高达1.6TBps。一度被认为超越世界第一超级计算机富岳,刷新超级计算新纪录。但当时DOJO使用的是Nvidia的A100GPU,单卡算力321TFLOPS,卡总数5760张,节点数高达720个。现在,DOJO更进一步,开发了自己的“心”芯片。特斯拉首款AI训练芯片D1正式发布。采用7nm工艺,单芯片FP32达到22.6TOPs的算力,BF16算力达到362TOPs。在特斯拉发布会现场,他们还用图表展示性能,拳打英伟达GPU,踢爆谷歌TPU。总之,比现在市面上的任何芯片都要好。特斯拉也用“PureLearningMachine”,纯学习机来调用D1芯片。此外,D1芯片不仅单兵作战能力强,集团军作战能力也很强。它们可以无缝集成到一个超大规模的计算阵列中。能有多大?接下来,特斯拉公布了之前预热海报上的“神秘物种”:一个组装了25个D1芯片的训练模块!这也是特斯拉首个训练模块,多个模块组合可以组成一个计算能力更强的训练阵列:至此,特斯拉自研超级计算机DOJO全面亮相!超过500,000个训练节点。每个模块的计算能力为9petaflops,带宽为36TB/s。DOJO的可怕之处在于,与世界上其他超级计算机需要承担各种不同的任务不同,DOJO唯一的任务就是AI训练,或者可以说专注于自动驾驶算法的训练。因为专注,首秀就是巅峰。AutoPilot、FSD和其他TeslaAI训练任务都可以在DOJO中更高效地进行训练。另外,特斯拉官方继续剧透剧透:这还没完,下一代DOJO将有10倍的性能提升!所以到这里了?拿衣服。最后,由TeslaD1支持的终极杀手登场:ExaPOD,集成120个训练模块,包含3000颗D1芯片,拥有超过100万个训练节点。算力达到1.1EFLOP。而且单位能耗的性能是当今最强大的超级计算机的1.3倍,而碳排放量却只有其1/5。速度和性能在业界无可匹敌。所以特斯拉明确表示:这是世界上最快的AI训练计算机。有趣的是,2019年,美国能源部宣布斥资6亿美元建造一台具有百亿亿次级计算能力的超级计算机,将于2023年推出……万万没想到,这个目标最早由“汽车”实现公司”特斯拉。为谁打造的最强“炼金炉”?那么问题来了,自研D1芯片和DOJO蓄势待发的最强AI训练超算,接下来特斯拉会怎样?特斯拉AI技术总监AndrejKarpathy(李飞飞高途)上台介绍了D1芯片和DOJO,服务的主要对象——特斯拉在自动驾驶领域领跑群雄的“灵丹妙药”:纯视觉解决方案。事故频发,争议不断,甚至国内大部分玩家都转向了视觉+激光雷达的综合解决方案,但特斯拉依然坚持。Karpathy详细介绍了特斯拉高纯度视觉方案的思路、目前8摄像头方案的特点,以及它的工作原理。特斯拉纯视觉方案的基本构建原理是把自动驾驶系统看成一个有眼睛、有神经、有大脑的生物。当前的解决方案在称为HydraNets——“HydraNetworks”的多任务学习神经网络后面有八个摄像头。“HydraNetwork”可以同时处理目标检测、交通标志识别、车道预测等任务。关键在于各种数据的特征提取,包括不同类型数据的特征共享,不同任务的单独调参,以及Parametercache,用于加速调参。这也是FSD实现敏捷开发,半年内迭代2-3个版本的关键。接下来,Karpathy描述了纯视觉方法的历史及其背后的逻辑,展示了特斯拉处理其图像数据的视频。他说,过去的FSD虽然很好,但事实证明,这样的制度并不完善。每个摄像头都可以检测到工程师期望的目标,但是背后的神经网络的向量空间是不够的。因此,如果说特斯拉重新设计了神经网络,就是上面的“九头蛇”。此外,最大程度简化了相机标定、缓存、排队和优化。特斯拉还对比了多摄像头方案和单摄像头方案的区别。在同一场景下,单摄像头方案的识别率明显低于多摄像头方案。在特斯拉汽车上的八个摄像头获取原始输入后,系统会为各种功能和目的创建各种分辨率的图像。这些不同的图像会被馈送到处理不同任务的神经网络中,作为整个自动驾驶系统的决策依据。接着,Karpathy介绍了特斯拉的“终极建筑师”,即车辆在行驶过程中可以实时对车道和环境进行建模。车道线实时建模其实是特斯拉自带的高精度地图能力。很多中国自动驾驶玩家强调“高精地图”,但特斯拉的思路是,“现成资源”不是必备能力,必备能力应该是“创造资源”的能力。最后,Karpathy谈到了AI公司常见的数据标注问题。他认为将数据外包给第三方进行人工标注并不好,因此特斯拉选择了自建团队来标注数据。目前已经从二维图像标注开始。将标记升级到4D矢量空间。这也是特斯拉在自动驾驶方面持续快速进化的核心。依靠人工标注显然无法应对量产车辆上路后的海量数据,只有自动标注才能形成数据闭环。在开放日,特斯拉还展示了如何从车道线、2D图像……转向4D标注和建模。行人、车辆、树木、建筑物……一目了然,有意向识别。特斯拉还强调,基于类脑感知系统、自动标注能力和仿真,确保了特斯拉为何能实现基于纯视觉的更高维自动驾驶。仿真,简单地说,就是用真实的数据在计算机系统中重构和再现真实世界的实时动态场景。这个模拟程序,用特斯拉的话说,就是一个以自动驾驶为玩家的电子游戏。在这个系统中,可以添加任何元素,包括怪异和极端的场景。比如这里,人太多很难标出目标,车辆太多:特斯拉还不忘在这里补毫米波雷达——纯视觉也能做的很好,而且所谓的雷达冗余的作用有限。特斯拉还透露,目前的标签和模拟系统最多可以模拟3.71亿个数据和场景。当然,自动驾驶最终还是要解决从比特世界到原子世界的应用问题。此次特斯拉主要披露了控制和规划方面的进展。特斯拉自动驾驶总监AshokElluswamy分享了特斯拉针对复杂场景的规划解决方案——“混合规划系统”。主要思想和技术方法是基于蒙特卡洛树搜索实现最优路径规划。最后,整个特斯拉自动驾驶,从感知到决策规划,可以用一张图概括如下:再说一件事:特斯拉“机器人”的末日,就在大家以为发布会都是关于自动驾驶的时候……在“短暂的茶歇”中,还跳起了“机器人舞”——穿得像个模特,很“硅基”。这是特斯拉的行为艺术吗?不不不,又是出乎意料。马斯克再次走上舞台,宣布了一件庄严的事情:特斯拉机器人。身高5英尺8英寸,约172cm;体重125磅,约56.7kg;承载能力为45磅,约20公斤。它的脸是显示重要信息的显示器。从外观上看,四肢与人相似。为了保持平衡和敏捷性,四肢使用了40个机电致动器。同时,特斯拉的各种AI和芯片技术也会得到应用。比如使用Autopilot的摄像头作为感知系统,将特斯拉自研芯片内置于胸口——与FSD同款车型,还会加入多项特斯拉自研技术,如多摄像头视频神经网络、规划能力和标记。而且马斯克强调,这不是玩具周边,它最终会实现——说不定会在明年正式推出,这是特斯拉电动汽车的下一步。硅谷钢铁侠还表示,他将是一个非常有用的机器人,由人建造,为人服务,并确保他始终对人友好,并将人们从危险、重复、枯燥的工作中解放出来。它甚至可以与已经高度自动化的特斯拉汽车生产进一步结合。但在马斯克看来,首要任务应该是“家务”。有趣的是,随着特斯拉“机器人”的发布,太平洋两岸都将“机器人”视为智能汽车转型的下一步。在中国,百度的李彦宏刚刚推出了一款“汽车机器人”,但它更像是一辆“车”而不是“人”。在美国的另一边,马斯克的特斯拉机器人更像是“人”而不是“车”。这种差异也可能与马斯克的庸医外号有关。伊隆马斯克不是现实生活中的钢铁侠吗?
