马斯克亲自敲响了实锤。在今年12月初的神经信息处理系统会议NIPS上,马斯克承认特斯拉自动驾驶硬件工程副总裁吉姆凯勒正在领导AI芯片的开发。同时,他表示坚信凯勒能够打造出“世界上最好的AI定制硬件”。凯勒如此受马斯克信任也不是没有原因的。他堪称天才建筑师。最初在DEC工作时,参与了Alpha21164和21264处理器的设计,应用于多台大型机,包括中国济南中芯国际的神威蓝光超级计算机;AMD时期设计了K7、K8等知名架构。业界第一个突破GHz的CPU架构就出自他手;后来,苹果设计了A4和A5处理器,这是iPhone的核心部件;回到AMD后,Keller致力于Zen架构,基于该架构的Ryzen在2017年让AMD翻身。2016年跳槽到Tesla后,JimKeller从AMD带走了一批架构师和高管。据CNBC9月报道,特斯拉有50多人从事AI芯片的开发,从中我们也可以看出特斯拉期待已久的自研AI芯片的野心。AI芯片关系到特斯拉自动驾驶的未来。直到自动辅助驾驶系统Autopilot8.0版本,特斯拉一直在使用Mobileye的EyeQ3芯片。Mobileye是一家成立于以色列的公司,专注于ADAS(高级驾驶辅助系统)的软硬件开发。其独特的EyeQ视觉识别芯片和ADAS软件已经应用于沃尔沃、宝马、奥迪等多家汽车制造商。Mobileye的优势显而易见:自由空间标记、启发式寻路、道路避障、路牌识别。不过,特斯拉并没有完全采用Mobileye的软件,而是用自己的软件结合Mobileye和Nvidia的硬件,实现了自己的自动辅助驾驶。Mobileye的Amnon博士亲口证实,特斯拉的自动辅助驾驶使用了EyeQ3的部分计算能力,但没有使用其自身的功能,如红绿灯识别、无中间黄线的双向街道识别等;此外,去年5月发生的首起自动辅助驾驶事故也证明了这一点。当时,一名驾驶特斯拉ModelS的司机在佛罗里达州一条未封闭的高速公路上与一辆过马路的大货车相撞身亡。Mobileye的一位发言人澄清说,其系统主要是对追尾造成的碰撞做出反应,但不能胜任这种碰撞检测,这种情况会在2018年左右在新系统中得到解决,而特斯拉发言人回应称,虽然特斯拉使用了Mobileye的芯片,但在技术上已经覆盖了这种碰撞处理,但只是由于错误发生时的环境条件,未能阻止悲剧的发生。此次车祸发生时,恰好在太阳下山时摄像头遇到强烈的逆光,导致识别能力不足,采集到的数据不完整,不完整的2D数据通过图像识别处理成错误的3D场景,导致汽车错过。判断前方路况,酿成大祸。这场车祸是各种负面因素在非常极端的情况下累积的结果。这是系统的“漏报”,但也暴露了Mobileye技术的短板。这个教训让特斯拉推迟了计划中的8.0系统的发布,直接加速了雷达主导的自动辅助驾驶时代的到来。2016年7月,特斯拉与Mobileye分道扬镳。同年10月,搭载Autopilot2.0自动驾驶辅助系统的车型开始量产。Autopilot1.0基于Mobileye的图像识别技术,主要数据来自车顶的Mobileye摄像头,车头雷达和周边雷达仅提供辅助信息;而Autopilot2.0基于雷达识别环境,主要数据来自车身上的雷达,辅助数据则来自车队学习到的高精地图和白名单。硬件部分,Autopilot2.0采用了3个前置摄像头(广角、长焦、中等不同视角)、2个侧置摄像头(一左一右)、3个后置摄像头、12个超声波传感器(感应距离加倍)、一个前置雷达(加强版),后置倒车摄像头,芯片采用NvidiaDrivePX2(40xAutopilot1.0处理速度)。英伟达CEO黄仁勋曾表示:“NvidiaDrivePX2是全球首款专为自动驾驶汽车设计的AI超级计算机,其计算能力相当于150台MacBookPro。”马斯克在接受采访时表示,在芯片选择方面,AMD和英伟达并没有太大的区别,当然最后特斯拉选择了英伟达。但这一说法似乎表明,特斯拉在芯片选择上非常灵活。不过,特斯拉投资英伟达的计划时间还很短,何必去感同身受呢?这要从GPU架构的固有局限性说起。GPU功耗极大,推理能力差。基于GPU架构的自动驾驶解决方案也存在同样的问题。拿自动驾驶最常用的CNN卷积神经网络来说,NVIDIA的DrivePX2推理性能其实并不是特别好。为了实现L3甚至L4以上的自动驾驶功能,DrivePX2全自动驾驶版的功耗为250w,性能却只有20TFLOPS。因此,特斯拉要求英伟达为其定制一个特殊版本。*端版本规模减半,性能仅为10TFLOPS,功耗也大幅降低至100W左右,减少对续航的影响,避免续航里程过低。不过也正因如此,它的自动驾驶能力只能勉强达到L3级别,达不到号称的L5。据称,英伟达推出的下一代Xavier自动驾驶平台可以在大幅降低功耗的同时提升性能。理论上,特斯拉只需直接升级即可。它只能通过共同努力来实现。这样一来,成本负担又会增加。完整版的DrivePX2售价15,000美元,而Xavier只会更贵。要实现L5级自动驾驶,必须使用两套Xavier和外围传感器,成本可能是天价。此外,曾经的好伙伴Mobileye也即将推出更新一代的EyeQ4和EyeQ5。前者在3W功耗下可达到2.5TFLOPS的效率,后者在10W功耗下可达24TFLOPS。EyeQ系列使用CPU混搭矢量加速单元来进行自动驾驶所需的卷积神经网络计算。严格来说,它是一种将CPU与ASIC处理单元相结合的异构产品。下一代EyeQ4方案要到2018年才会量产。不久前发布的蔚来首款量产车ES8,是全球首款搭载MobileyeEyeQ4芯片的车型;唯一有竞争力的EyeQ5要到2019年甚至更晚才能面世,急于推出更高级别的机型。拥有自动驾驶功能的特斯拉不能继续等待,这大概也是特斯拉决定自研AI芯片的原因之一。自动驾驶的火热,引燃了AI芯片大战。特斯拉、Mobileye、英伟达只是自动驾驶芯片大战的冰山一角。英特尔、高通等其他巨头也在开足马力加速创新。2016年,英特尔以167亿美元的价格完成了对全球第二大FPGA公司Altera的收购。目前主流的自动驾驶芯片方案主要包括GPU、FPGA、DSP和ASIC。相对而言,FPGA实时性高、功耗低、编程灵活,这些都符合自动驾驶计算芯片的要求。英特尔在年初推出的自动驾驶计算平台IntelGo中使用了FPGA芯片。奥迪全新A8自动驾驶所依赖的核心计算单元zFAS也采用了Altera的FPGA芯片,内置英特尔收购的Movidius视觉算法,负责物体数据与地图数据的融合,实现自动泊车功能.此外,结合FPGA,英特尔可以在云端处理大量的并发实时计算。这种模式特别符合人们对智慧城市大脑的想象:每辆无人驾驶汽车的数据都上传到一个集线器,集线器处理并了解每辆车的状态,然后命令它们如何行驶。为此,需要5G高带宽、低延迟的数据通道。为此,英特尔在今年推出了首款车载5G通信平台。不过,这套思路虽然很超前,但目前很难在短期内实现。今年3月,英特尔以153亿美元收购以色列ADAS公司Mobileye,率先参与自动辅助驾驶技术落地。一方面,Mobileye为英特尔提供了进入自动驾驶市场的渠道——前者在全球ADAS市场占有率超过70%;计算芯片方案——Intel的Atom/Xeon+Mobileye的EyeQ+Altera的FPGA。153亿美元实际上是英特尔自动驾驶的入场券。至于高通,由于专注于移动终端,在高性能计算方面的积累不如英特尔和英伟达。虽然骁龙SoC在单位能耗方面比英特尔和英伟达计算平台有优势,但其峰值性能输出受限于自身功耗。此外,骁龙SoC并非专门为ADAS打造的计算平台,因此在打开自动驾驶汽车市场时面临着很大的阻力。去年10月,高通宣布与全球最大的汽车半导体制造商恩智浦达成收购协议。NXP在宣布被高通收购之前,已经推出了ADAS专用芯片S32V234,主要用于处理视觉信号,可以同时处理两路视频。值得一提的是,考虑到ADAS的安全需求,S32V234在设计之初就加入了ECC(ErrorCheckingandCorrection)和FCCU(FaultCollectionandControlUnit)等安全机制。然后,在此基础上,恩智浦发布了BlueBox车载电脑。除了S32V234芯片外,还加入了8核A72高性能处理器LS2088等传感器芯片。除了支持ADAS,还可以实现多传感器数据。融合。据恩智浦介绍,BlueBox可以为L4级自动驾驶提供计算支持,同时功耗不超过40W。然而,高通收购恩智浦并非一帆风顺。由于双方未能提供相关文件,欧盟反垄断机构于今年6月暂停了对此次收购的反垄断调查。Pu整体实施战略。此外,持有恩智浦半导体股份的ElliottManagement认为,高通低估了恩智浦半导体股票的价格,要求将收购价格从每股110美元提高至135美元。110美元的股价是公平合理的,此事为此次收购又增添了风波。幸运的是,高通也可以专注于V2X车联网。今年9月,高通推出了新一代V2X通信芯片组9150C-V2X,符合3GPP标准,同时支持4G和5G网络。可实现车对车(V2V)、车对基础设施(V2I)、行人通讯(V2P)三种场景。如果能利用5G的高速传输,将数据发送到云端,然后快速处理下发,高通或许可以通过车联网实现自动驾驶功能,也算是在这方面的另一种方式激烈的筹码竞争。说到自动驾驶,我们也不得不提到谷歌。谷歌的自动驾驶解决方案采用了英特尔的至强处理器、Altera的ArriaFPGA芯片和英特尔的XMM通信芯片。不过,目前还不清楚负责推理的部分是使用谷歌自家的TPU、英特尔的芯片,还是英伟达的GPU。需要注意的是,Google的TPU是专用于推理阶段的ASIC。当然,在其第二代CloudTPU上,谷歌也加入了深度学习训练能力。在国内,地平线近期正式发布了两款计算机视觉嵌入式AI芯片——旭日和征途,分别面向智能驾驶和智能摄像头。这是中国第一颗嵌入式人工智能芯片。与其他芯片相比,RisingSun和Journey在性能、功耗、面积等方面都有了很大的提升。不仅可以同时识别200个物体,而且芯片倍增器的利用率峰值高达100%,可以在各种应用场景中实现强耦合。不难看出,随着AI产业的快速发展,算力成为技术发展和应用落地的关键因素,而主要承载硬件计算功能的芯片也成为“创新”的对象。”。如今,AI芯片正处于不断突破的黄金时代。创新与创新成为现阶段AI芯片的主题。
