我一直对特斯拉的“纯视觉路线”持怀疑态度。疑点在于:算法的进步能否弥补相机物理性能的局限?比如当视觉算法足够强的时候,摄像头有测距能力吗?晚上能看到吗?此前的疑虑在2021年7月被打消——当时,特斯拉被爆出研发出“纯视觉测距”技术。后一个问题仍然存在。笔者甚至一度认为,如果把摄像头比作人的眼睛,将视觉算法比作人脑中“与眼睛配合的部分功能”,那么“当视觉算法足够强大时,激光雷达可能是不必要的。”相当于在说“只要我脑子够聪明,我眼睛高度近视也没关系”。但前段时间,马斯克提到HW4.0将“干掉ISP”计划,却颠覆了笔者的认知。马斯克在接受Lex采访时表示,特斯拉整车摄像头的原始数据将不再经过ISP处理,而是直接输入到FSDBeta的NN推理中,这将使摄像头变得超级紧急和强大。带着这个话题,笔者采访了地平线BPU算法负责人罗恒、鱼万智家CTO刘宇、君联智行首席架构师王浩伟、智图首席科学家黄宇。技术,车友智能联合创始人。经过一系列的交流,我意识到我之前的怀疑纯粹是“聪明”。视觉算法的进步确实在一步步拓展相机物理性能的边界。一。什么是互联网服务提供商?ISP的全称是ImageSignalProcessor,即图像信号处理器。通俗地说,只有依靠ISP,司机才能借助摄像头“看到”场景的细节。基于第一性原理,自动驾驶公司也使用ISP,主要是根据周围环境的实际情况,对摄像头数据进行白平衡、动态范围调整、滤波等操作,以获得最佳质量的图像。例如,调整曝光以适应明暗变化,调整焦距以聚焦不同距离的物体等,使相机表现尽可能接近人眼。(图为特斯拉的FSD芯片)然而,让摄像头“尽可能靠近人眼”显然不能满足自动驾驶的需求——算法要求摄像头在强光和弱光下“失灵”。工作正常。为了实现这一目标,一些自动驾驶公司不得不定制一款ISP,能够增强摄像头在强光、弱光和干扰情况下的性能。2020年4月8日,阿里巴巴达摩院宣布,依托独有的3D降噪和图像增强算法,自主研发车载摄像头ISP,确保自动驾驶车辆在夜间拥有更好的“视野”,“看见”更清楚。根据达摩院自动驾驶实验室的路测结果,采用该ISP,在夜间最具挑战性的场景下,车载摄像头图像目标检测识别能力较国内主流处理器提升10%以上。行业。不清楚的标记也可以被清楚地识别。二。扼杀ISP的动机和“可行性”然而,ISP的初衷是为了在多变的外部环境中获得一张“好看”的图片,但这是否是自动驾驶最需要的图片形式,业界尚无定论.按照马斯克埃隆的说法,神经网络不需要漂亮的图片,它需要的是传感器直接获得的原始数据,也就是原始光子计数(Rawphotoncounts)。在马斯克看来,无论ISP采用何种处理方式,在通过镜头到达CMOS并转化为可见光子的过程中,都会损失一些原始光子。对于原始光子丢失和未丢失的区别,智图首席科学家黄宇表示:“当光子转换为电子信号时,确实有噪声被抑制,更何况ISP做了很多处理在原始电信号上。”AI联合创始人在《From photon to control——从光子到控制,Tesla的技术口味越来越重》一文中类比了人眼处理感知信息的过程,并给出了更为详尽的解释。人类视觉系统和电子成像系统在逻辑上是相同的。视网膜颜色和像素矩阵其实更能代表外部客观世界的信息,而真正的人类对颜色的感知需要大脑的参与(相当于ISP和更高级的后端处理)。(图取自公众号《车友智能》)上图左侧是饱和度渐变和强度渐变的标准色图,右侧是其对应的元色原图框。从对比中可以看出,以人的视觉感官为核心设计的成像系统,会给我们提供愉悦的、主观的图像信息,但未必能完全反映客观现实世界。马斯克认为,为了让它“更好看”、更适合“给人看”,很多原本有用的数据都在ISP负责的“后处理”环节进行了处理。但如果只是给机器看,这些处理过的数据其实是有用的。因此,如果能够省略“后处理”这一步,有效信息量就会增加。按照鱼玩CTO刘宇的解释,马斯克的逻辑是:1、由于原始数据更丰富,未来摄像头的探测范围可能会比人眼更大,也就是光线强度低的时候或者高,我们人眼可能看不到(因为太暗或者太亮),但是机器还是可以测出光子数的,所以还是可以有图像输出的;2、相机的光强分辨率可能更高,也就是看起来很相似两个光点,人眼可能分辨不出这么小的亮度或颜色差异,但机器可能可以。一位AI四虎工程师的解释是:好的相机的动态范围要比人眼(相对静止状态下)大很多,也就是相机“从最亮到最暗”的范围。可以观察到大于人眼。观察范围更广。在极度黑暗的情况下,人眼什么都看不见(几乎看不到光子),但是相机的CMOS可以接收到很多光子,所以在黑暗状态下也能看到东西。很多专家在采访《九章智驾》时都表示认可马斯克的逻辑。地平线BPU算法负责人罗恒解释说:“特斯拉目前的数据标注包括人工标注和机器自动标注。其中,人工标注不全是基于当前的图像信息,还包括人类对世界的认识,在这种情况下,机器也有概率使用信息更丰富的原始数据;而机器的自动标注是结合事后观察和大量几何分析的一致性得到的。使用时,机器很有可能找到更多的相关性,从而做出更准确的预测。”此外,君联智行首席架构师王浩伟解释说:“特斯拉在进入DNN网络之前就已经将原始图像数据进行了拼接,因此没有必要对每个摄像头的感知结果进行后处理。”通过杀死ISP来提高摄像头在夜间的识别能力,这似乎与阿里达摩自研ISP的思路背道而驰。那么,这两者是否矛盾呢?据曾视觉算法专家介绍,一家自动驾驶公司,两家公司的诉求其实是一样的。本质上,阿里达摩院和特斯拉都希望通过芯片和算法的合作来提升摄像头的能力。但两者的区别在于,阿里达摩院是用各种算法对原始数据进行处理和增强,使人眼可以看到;而特斯拉为了“照顾”人眼,去掉了算法处理数据的部分已经完成的工作已经转向开发在弱光和强光环境下增加相机算法所需的数据和相应能力。此外,马斯克还表示,13毫秒的延迟减少可以不需要ISP处理就可以实现,因为有8个摄像头,每个摄像头ISP处理会产生1.5-1.6毫秒的延迟。一旦马斯克的想法被证明可行,其他芯片厂商也应该“跟进”。甚至一些芯片制造商已经在这样做了。例如,安霸中国区总经理冯玉涛在1月份接受言之采访时提到:“如果客户想将原始数据直接送入神经网络进行处理,CV3完全可以支持这种方式。”三。相机的“物理性能”也有待提升。并非所有人都完全相信马斯克的计划。一家robotaxi公司的技术VP表示:“特斯拉说得对,但我觉得算法的研发会非常困难,周期会很长,研发时间可能会很长。如果加上激光雷达,首先总而言之,三维问题是可以直接解决的,当然,用纯视觉构建三维也是可以的,只是会消耗大量的算力。车友智能联合创始人认为,马斯克是一个“煽动大师”,“他的宣传方式就是让你头晕目眩,让你不由自主地产生技术崇拜”。他说:“一些成像专家认为,放弃所有ISP级别的后处理是不现实的,比如获取强度和颜色的debayer图像,这会给后续的NN识别头部造成很多困难。”在最近的《车右智能》文章中提到,原始数据通过ISP染色后直接进入神经网络的方案在什么场景下可行?它是否与特斯拉现有的摄像头兼容,或者我们是否需要更好的视觉传感器?是否存在于FSDbeta的所有NNhead任务或局部NNhead任务中?这些都是不确定的答案。让我们回到一开始作者提出的问题:视觉算法的提升能否突破相机本身物理性能的瓶颈?有视觉算法出身的Robotaxi公司CEO表示:“逆光或者车辆出隧道突然面对强光的感知,人眼很难解决,摄像头也不好。这个时候,激光雷达就很有必要了。”刘宇认为,从理论上讲,如果不考虑成本,完全可以打造出性能能够超越人眼的摄像头,“但我们现在在这些车上使用的低成本摄像头,似乎还远远达不到这种水平的表现。“言下之意,要解决摄像头在弱光或强光下的感知,不能只靠视觉算法的提升,还要围绕摄像头的物理性能‘做文章’。比如,如果摄像头要在夜间探测目标,不能通过可见光成像,必须基于红外热成像原理(夜视摄像头)。“AI四虎”的一位工程师认为,光子控制是很有可能意味着特斯拉搭配HW4.0芯片的摄像头将升级为多光谱,工程师表示:目前行车摄像头会过滤掉不可见光,但现实中物体发出的光谱范围很广,这可以用来进一步区分物体的特征,比如白色卡车和白色云朵在红外波段可以很容易的分辨出来;如果有行人或者大型动物为了避免碰撞,用红外线更容易照相机,因为温血动物发出的红外线很容易分辨。《车右智能》在文章中也提到了这样一个问题:Tesla是否会针对光子控制的概念更新摄像头硬件,推出真正的光量子摄像头,或者在现有摄像头的基础上进行ISPbypass?同时,作者还指出,如果要升级摄像头硬件,“那么特斯拉将不得不从头开始彻底重新训练其神经网络算法,因为输入如此不同。”此外,再先进的摄像头技术,也未必能摆脱鸟粪、泥水等污垢的影响。激光雷达采用主动光源,先发光后受光。像素点很大,一般的污垢很难完全覆盖。根据一家激光雷达厂商提供的数据,当表面脏污时,其激光雷达的探测范围仅衰减不到15%;而且,当有污垢时,系统会自动发出警报。但摄像头是被动传感器,每个像素点都非常小,一个小灰尘就能挡住几十个像素点,所以表面脏了就会“瞎”。如果不能解决这个问题,试图通过视觉算法的进步来节省激光雷达的成本,岂不是痴人说梦?几点补充:1.芯片厂商如何设计只是问题的一方面,但如果客户无法充分利用原始数据,就无法绕过ISP。2.即使芯片厂商和客户有能力绕过ISP,大部分厂商还是会在未来很长一段时间内保留ISP。信息显示在屏幕上,方便交互,也能给司机“安全感”。3、是否绕过ISP,依然是“纯视觉派”和“激光雷达派”两条技术路线之争的延续。对此,上面提到的Robotaxi公司技术VP的观点很有指导意义:其实纯视觉方案和激光雷达方案不是在打“谁能行谁不行”。真正的较量是纯视觉方案的算法开发需要多长时间才能达到激光雷达方案的水平,激光雷达的成本会降到纯视觉的水平,当成本达到多少时,需要多长时间?程序大致相同。总之,是前者技术进步快,还是后者成本下降快。当然,如果以后纯视觉派需要增加传感器,而激光雷达派需要减少传感器的数量,对算法的影响有多大,修改算法需要多长时间,需要多少时间?成本会如何,这些都是需要进一步观察的问题。
