当前位置: 首页 > 科技观察

自动驾驶的困境与选择

时间:2023-03-19 02:15:02 科技观察

过去几年,人们对自动驾驶汽车充满热情。这确实在情理之中。自动驾驶汽车有望带来深远的好处:提高燃油效率、缩短行程时间、改善乘客体验和工作效率、为可能无法驾驶的老年人和残疾人提供行动自由,最重要的是,提高道路安全。尽管人们对经济实惠的全自动驾驶汽车寄予厚望,但技术复杂性、成本和监管挑战一再推迟了自动驾驶汽车成为主流的步伐。智能化、自动化、移动计算平台……这些关键词承载着我们对未来汽车的想象。汽车制造业的所有参与者都在推动这一变革。如果你问:2022年会发生什么?谁知道?但有一点可以肯定:2022年,汽车行业的军备竞赛将迅速升级。曾几何时,算力竞争如火如荼,博世、大陆、德尔福、采埃孚……这些国际巨头的一线供应商,都是自主品牌车企仰望的存在。他们掌握着整车的核心技术,拥有绝对的议价能力,甚至他们的研发进度直接决定了车型的研发周期。从动力总成到底盘,Tier1巨头在这些传统的汽车电子产品上具有无可匹敌的竞争力。自动驾驶时代,巨头Tier1的策略逐渐开始失效,因为他们暴露了一个共同的缺陷——算法能力的不足。ADAS在过去两年进入了高光时刻。除了在云领域占据垄断地位的英伟达之外,华为、高通等巨头的入局,或者地平线、黑芝麻的竞争,甚至寒武纪跑分的入局,都引起了业界的高度关注。算力的不断提升,也让各大车企急于进入算力“军备竞赛”。在这场算力“军备竞赛”的背后,最直接的推动力是车企原有计算平台(芯片)算力不足的问题逐渐凸显:一方面,各大车企都在全力以赴为高级自动驾驶做准备。量产、多传感器融合成为高级别自动驾驶应对复杂场景和安全冗余的必然趋势。处理这些数据需要非常强大的计算能力。L2级自动驾驶所需算力约为10+TOPS,但到了L4/L5级自动驾驶,算力需要达到1000+TOPS,比去年同期提升100倍.另一方面,包括安波福、博世等Tier1巨头,以及大众、宝马等车企,都开始探索新的电子电气架构。传统的分布式汽车电子电气架构正在向领域集中式架构演进,推动了高性能大计算芯片的发展。需求急剧上升现阶段,汽车行业已经进入芯片厂商驱动的算力竞争时代:英伟达最新的智能汽车和自动驾驶芯片组——DRIVEAtlan,单芯片算力可达1000TOPS,将应用于L4和L5级别的自动驾驶特斯拉推出了超级计算机Dojo,它使用720个80GB版本的8xA100节点构建了一台总计算能力为1.8EFLOPS(EFLOPS:petaflopspersecond)的超级计算机。10PB存储空间,1.6TBps读写速度黑芝麻华山2号A1000Pro,算力达到106(INT8)-196TOPS(INT4),单芯片可支持高级别自动驾驶功能地平线推出高级别自动驾驶征程5,算力高达128TOPS,支持16路高清摄像头,实际性能超越特斯拉FSD寒武纪进入自动驾驶领域,将发布智能驾驶芯片超过200TOPS的计算能力。芯片大厂悄然兴起,追求TOPS算力真的那么重要吗?是否可以通过堆叠芯片的计算能力来达到目的?业界似乎进入了“算力论”的误区。不可否认,随着ADAS和自动驾驶技术的兴起,以及软件定义汽车的逐步深入,对智能汽车的计算能力和海量数据处理能力的需求猛增。“解决方案已经无法满足自动驾驶对算力的要求,作为现代科技产业的集大成者和数字经济基础设施的芯片,它汇集了最复杂、最前沿、最精密的基础技术,作为以及高端人才和资金,无疑是未来竞争的焦点。芯片最终服务于车企的车载计算平台。业界需要思考的一个问题是:在“软件-definedcars”,智能驾驶系统计算平台的支撑问题是否只能通过芯片算力叠加来解决?难道只有芯片算力跟风?显然不是。提升硬件固然重要,但也不能陷入“算力论”的怪圈。我们说“数据是生产资料”,提供数据处理的芯片是工具,工具不可能把客户变成核心。工具是必须的,但更重要的核心是运行在其上的软件。芯片是软件的舞台。衡量一个芯片好坏的标准,就是看芯片上的软件能否发挥最大的作用。当然,并不是说算力不重要。计算能力和软件之间需要有效匹配。比较两个具有相同计算能力的芯片,能够使软件运行更高效的芯片就是“好芯片”。决定算力真值的最重要因素是内存(SRAM和DRAM)带宽、实际工作频率(即电源电压或温度)、算法的batchsize。谷歌第一代TPU的理论值是90TOPS算力,最差的实际值只有1/9,也就是10TOPS算力,因为第一代的内存带宽只有34GB/s。提升至600GB/s(单芯片,TPUV2板显存总带宽2400GB/s)最新的NvidiaA100采用40GB2ndgenerationHBM,带宽提升至1600GB/s,比V100提升约73%Tesla是128位LPDDR4-4266,内存带宽:2133MHz*2DDR*128bit/8/1000=68.256GB/s。略优于第一代TPU(这些是理论上的最大峰值带宽),其最差的实际估计值为2/9。那就是8TOPS左右,为什么会这样?这就涉及到MAC计算效率的问题。如果你的算法或者CNN卷积需要1TOPS的算力,而计算平台的算力是4TOPS,那么利用效率只有25%,计算单元大部分时间都在等待数据传输,尤其是batch的时候尺寸小,这个时候存储带宽不足会严重限制性能。但是,如果超过平台的计算能力,延迟会大大增加,存储瓶颈也很严重。当效率在90-95%时,存储瓶颈的影响最小,但这并不代表没有影响,影响还是存在的。但平台并非只计算一种算法,计算利用效率很难稳定在90-95%。这也是大多数人工智能算法公司想要定制或制作自己的计算平台的主要原因。计算平台厂商也需要推出匹配的算法,软硬件是一体的,真的很难分开。自动驾驶之争,本质上是软硬平台之争。单颗芯片的算力TOPS是一个关键指标,但不是唯一。自动驾驶是一个复杂的系统,需要车辆、道路和云之间的协作。因此,除了核心之外,它还比拼软件和硬件,还有平台和工具链。自动驾驶芯片的竞争壁垒在于算力利用率和可用性。芯片厂商以软件为基础提供底层硬件支持,在整车设计上提供更高的价值,在供应链上拥有更强的议价能力。与特斯拉自主研发的汽车中央计算设备相比,软硬件开放平台的解决方案潜力巨大。以PC时代的WinTel联盟为例。在WinTel架构下,英特尔芯片与Windows操作系统高度协同,最终可以产生垄断市场份额的效果。两者缺一不可。百度前总裁陆奇博士提出了“母生态”的概念。智能汽车将是继PC、智能手机之后更大的母生态,也是中国汽车产业和科技产业最大的机遇。而且,芯片所在的科技产业逐渐成熟的标志之一,就是完整生态的形成。作为车企,还有芯片的成本问题。计算能力既重要又昂贵。据相关机构评估,制造一颗车规级AI芯片,即L2+和L3级AI芯片,成本约为5亿至7亿,时间为2至3年。现在算力的军备竞赛已经打响,但芯片的算力本质上是智能驾驶系统的必要非充分条件。现在大家比较关心峰值算力。我们经常看到优化不好的芯片号称拥有10TOPS的算力,但实际运行的应用相当于只有3~4TOPS的算力。现在的一个趋势是“L4硬件+L2软件”,硬件“预置”达到或超过标准,软件慢慢积累。但另一方面,这不是浪费吗?恐怕,还是要慎用每一个TOPS。芯片算力的无限扩展和硬件预嵌入不会是未来的趋势,硬件也需要与实际相匹配。有业内人士表示:尤其是在SoC上,我们需要精准高效的计算能力来适应电子电气架构。改变。另外,车企在消费端是不是马上就需要这么高端的算力?不必要。自动驾驶的计算能力主要体现在感知层面的融合。L3的话100~200就够了,L4可能需要200~300。关键是如何使用计算能力。并不是说越多越好,如果要做1000个,其实是没有必要的,高算力的背后是高功耗和低利用率的问题。高功耗、低利用率的问题日益突出,算力也不能说是无限增长。芯片PPA(功耗、成本、面积)非常重要。这是因为,对于车载AI芯片来说,算力指标很重要,能效比更重要。在传统芯片行业,PPA是最经典的性能衡量指标。但由于自动驾驶对算力的追求,业界仍将“峰值算力”作为衡量AI芯片的主要指标,导致“算力论”存在偏差。评价一个芯片,其实有几个指标:性能,也就是所谓的计算能力,成本,功耗,易用性,或者说易开发性,同构性,也就是芯片平台与其他系统的兼容性.功耗和利用率是两个概念:功耗就是整个板级和芯片级的功耗如何平衡。但对于芯片企业来说,芯片的功耗不仅仅包括AI部分,因为目前很多芯片都是多核异构的。利用率是AI算法优化使用算力的能力。跟各个公司神经网络的架构有关。对于一些高吞吐量和并行计算,它的利用率肯定有一个上限。在ASIC方案中,每个公司的架构不一样,算法也不一样。同一种算法要运行在不同的芯片平台上,算子库越丰富,算法跨平台移植的效果就越好,所以ASIC的利用率肯定要高于GPU。以英伟达芯片为例,其GPU消耗性能最高。Orin和Xavier的利用率基本是30%,怎么优化基本是30%。与英伟达的GPU方案不同,高通、mobileye、华为以及国内的创业公司都走ASIC路线。ASIC芯片可以针对不同的神经网络模型进行优化,基本上在60%到80%之间,更好的可能达到80%甚至更高。在手机领域,英伟达基本输给了高通,在个人电脑领域,英伟达输给了英特尔。在专业芯片领域,英伟达其实并没有太多成功的案例和经验,但本质上与其整个GPU生态有关。目前Nvidia的所有开发工具,包括其算子库的丰富性,都非常不错。客户用的是Nvidia的芯片,除了功耗和利用率,其他都很流畅。所以我们现在看到Nvidia可以在整个行业如火如荼的存在,但是未来在市场上肯定是没落的。在使用率、功耗等关键指标上,笔者预测高通可能会在2024-2025年的三年时间里抢走一大片市场。同时,这也是国内初创企业的一个起步机会。这个用户痛点,赢得市场。Horizo??n提出了一种新方法MAPS(MeanAccuracy-guaranteedProcessingSpeed,保证精度范围内的平均处理速度)来评估AI芯片的真实性能。在行业内没有统一的评价标准的情况下,目前只能算是一家之言。不过地平线在功耗方面还是有着巨大的优势。以2020年第一颗商用量产芯片Horizo??n2为例。搭载自研计算架构BPU2.0(大脑处理单元),可提供超过4TOPS的等效计算能力,典型功耗仅为2瓦,并且,每分钟输出的AI能力TOPS可达到同等算力GPU的10倍以上。对于车企来说,在最高性能模式下,如果自动驾驶控制器的芯片功耗水平高,即使其自身性能再强,也会带来一些难以预料的隐患,比如发热成倍、功耗、等等,功率倍增,这些成绩对于智能电动车来说无疑是一记“惊雷”。高算力AI芯片的致命一击如今自动驾驶领域使用的视觉识别算法基本都是基于卷积神经网络,视觉算法的运算本质上就是一个接一个的卷积运算。这种计算并不复杂,本质上只涉及加减乘除,是一种乘积运算。然而,这种简单的运算在卷积神经网络中大量存在,对处理器的性能提出了很高的要求。以ResNet-152为例。这是一个152层的卷积神经网络。处理一张224*224的图像需要大约226亿次计算。如果这个网络要处理一个1080P30帧的摄像头,他需要的计算能力高达每秒33万亿次,非常庞大。事实上,自动驾驶领域99%的视觉数据在AI处理中都是无用的背景。这就像检测幽灵探针。变化的区域是一小部分,但是传统的视觉处理还是要处理99%没有变化的背景区域。这不仅浪费了大量的计算能力,也浪费了时间。或者像砾石中有一颗钻石,AI芯片和传统摄像头需要识别每一粒沙子,筛选出钻石,但人类一眼就能发现钻石,AI芯片和传统摄像头花费的时间是人类的100倍或1000次。事件相机的工作机制是当某个像素的亮度变化到某个阈值时,相机会返回一个上述格式的事件,其中前两项是事件的像素坐标,第三项是事件发生的最后一项的时间戳,最后一项的值为polarity(极性)0、1(或-1、1),代表亮度是从低到高还是从高到低,也常称为正事件或负事件,以及称为开或关事件。这样,在整个摄像头视野中,只要有一个像素值发生变化,就会返回一个事件,而这些事件都是异步发生的(无论时间间隔多小,也不可能完全同时),所以事件的时间戳都是不一样的,因为回传简单,所以和传统相机相比,具有低延迟的特点,可以在很短的时间间隔内捕捉到像素变化,并且延迟在微秒级。事件相机的灵感来自人眼和动物视觉,也称为硅视网膜。生物视觉只对变化的区域敏感。例如,如果一个物体突然落在眼前,人眼会忽略背景而将注意力集中在这个物体上。事件相机用于捕捉事件或变化的发生。在传统视野中,摄像头传回的信息是同步的。所谓同步,就是在某个时刻t,相机曝光,把此时此刻的所有像素填入一个矩阵并发回,一张照片就此诞生。向上。照片中的所有像素对应于同一时刻。至于视频,它只是一张很多帧的图片,相邻图片之间的时间间隔可大可小。这就是我们常说的帧率,也就是时间延迟。事件相机类似于人的大脑和眼睛,跳过不相关的背景,直接感知场景的核心,创造纯粹的事件而非数据。除了减少冗余信息和几乎没有延迟的优点外,事件相机的优点是由于低延迟,传统相机在拍摄高速物体时会模糊(由于一定的曝光时间),而事件相机几乎不会.然后是真正的高动态范围。由于事件相机的特性,传统相机在光线强度强或弱(高曝光和低曝光)的环境中都会“失明”,但像素变化仍然存在,所以事件相机我仍然可以看到我面前的东西。传统相机的动态范围不能加宽,因为放大器有线性范围,照顾低照度就不能适应强光,适应强光就不能兼顾低照度。事件相机在物体追踪、动作识别等领域具有压倒性优势,尤其适用于自动驾驶。一个球在空中的轨迹,扔一个球,看两个摄像头的轨迹记录:事件摄像头的出现对高算力AI芯片是致命一击,只需要1%甚至0.1%的传统高算力AI芯片的计算能力完美运行,功耗以毫瓦为单位。事件相机根据管道时间戳处理数据,而不是逐帧处理单个像素。传统的卷积算法可能没什么用,AI芯片最擅长的乘法和累加运算也不一定有用。为了准确检测行人并预测他们的路径,需要进行多帧处理,至少10帧,也就是330毫秒。这意味着相关系统可能需要数百毫秒才能实现有效检测。以时速60公里行驶的车辆,行驶5.61米需要330毫秒,事件相机理论上不会超过1毫秒。.技术路线展望中国自动驾驶呈现三大主流技术路线:特斯拉路线:纯视觉路线、特斯拉芯片+特斯拉算法+视觉传感器英伟达路线:融合感知路线、英伟达芯片+多传感器+OEM自研算法华为路线:集成感知路线,华为芯片+华为算法+多传感器特斯拉目前最顶级的FSD,8个摄像头的分辨率只有130万像素,已经需要144TOPS的算力,而目前英伟达的自动驾驶测试模型使用的摄像头已经是8个百万像素,因此需要1000TOPS的计算能力。这么大的算力带来的不仅是成本高,而且发热量也高。除非能开采出来,否则太浪费了。今年1月初,瑞典初创公司Terranet宣布获得汽车行业巨头戴姆勒奔驰的Voxelflow原型机采购订单,订单金额为3.1万欧元。该采购订单是Terranet与戴姆勒于2020年10月签署的谅解备忘录(MoU)的延续,涵盖ADAS和防撞解决方案的原型设计、产品开发和产业化。下一步是将VoxelFlow集成到梅赛德斯-奔驰的测试车辆中。实际Terranet的核心是一个基于事件的图像传感器(Event-basedCameraSensor,或Event-drivenCameraSensor)。事件相机仍然无法替代激光雷达或双目系统,因为它们无法提供深度信息,因此事件相机必须与激光雷达配对才能实现完美的3D感知。VoxelFlow技术可以用非常低的计算能力以非常低的延迟对动态移动物体进行分类。它每秒可以生成1000万个3D点云,提供快速的边缘检测,没有运动模糊。基于事件的传感器的超低延迟性能可以确保车辆能够及时响应“幽灵探针”问题,采取紧急制动、加速或绕过突然出现在车辆后方的物体,避免碰撞事故的发生。当前的人工智能本质上是一种蛮力计算,依赖于海量数据和海量计算能力,对数据集和计算能力的需求不断增加。这显然离初衷越来越远了。文明的每一次进步都会带来效率。很大的提升,只有效率的提升才是进步,而依赖海量数据和海量计算能力的AI则完全相反,效率越来越低,事件相机才是正确的方向。