通过传感器计算打造视觉雷达是下一代自动驾驶系统的关键组成部分,是各大车企市值的总和。特斯拉在资本市场的成功,刺激了投资者的神经,促使市场再次聚焦自动驾驶领域,进一步思考自动驾驶技术路线的发展方向。本文希望从技术角度客观分析和回答以下问题:提升自动驾驶水平需要解决哪些关键问题?什么样的自动驾驶解决方案更有可能实现大规模无人驾驶?自动驾驶作为现实世界的AI问题,难点在哪里?上述问题促使我们理性、客观地思考如何实现自动驾驶这一承载太多期待、不断挑动大众神经的科技生产力变革,从而推动行业从容务实地前行。1、自动驾驶之眼:基于高质量图像成像的视觉雷达智能驾驶系统也将扩大人类的感知范围。接管车辆的自动驾驶。因此,智能驾驶系统对物理世界环境的理解要求是完全不同的,从对物理世界中部分信息的提取,到对每一个细节的全面感知和理解。而这种变化主要是由于对2D图像成像和3D建模的要求越来越高:1)具有更高分辨率和环境适应性的2D图像成像;2)物理世界的准确和密集的实时3D建模。模具。摄像头是自动驾驶感知物理世界最重要的传感器。其分辨率的提高将大大增加图像的信息承载能力,使自动驾驶系统能够感知更细致、更远距离的驾驶环境。目前主流的自动驾驶前视摄像头分辨率已经达到800万像素以上,未来必然会出现更高的分辨率。自动驾驶汽车面临着开放的外部环境。除了提高分辨率外,还需要提高自动驾驶汽车在各种驾驶条件下的图像质量,例如不同的光照环境、傍晚、夜晚等,以及不同的气候环境。、雨、雪、雾等。与传统汽车应用的车载成像相比,自动驾驶对车载成像质量的要求将大大提高。如何通过成像计算得到更高质量的图像,成为亟待解决的关键问题。自动驾驶汽车在三维物理世界中运行,这不可避免地需要对物理世界进行更深入的三维理解。目前高级别辅助驾驶在路上发生的事故种类繁多。这些事故很大程度上是由于无法识别样本库未涵盖的异常形状和不标准物体等物体。比如汽车拉着A树,卡车等等,这些cornercase是不能穷尽的。行车环境的实时密集3D建模,不仅可以识别不规则、不标准的物体,还可以判断路面的坑洼和起伏,这无疑将大大提高自动驾驶的安全水平。目前自动驾驶的3D环境感知主要依靠激光雷达等主动投影测量设备,但其分辨率远低于Camera,且不具备颜色信息。随着深度学习的发展,单目深度估计、双目立体视觉、SFM、MVS等问题都可以通过深度神经网络进行建模,从而通过AI方法基于多眼视觉实时生成3D点云.点云与图像自然对齐,其分辨率可以达到图像的分辨率。因此,如何通过多眼视觉即视觉雷达实现高分辨率实时密集3D建模是另一个需要解决的关键问题。视觉传感器的信息承载能力极高,目前还远未得到充分利用。然而,无论是二维图像成像还是实时密集的3D建模,都需要强大的算法和算力来支撑,这就需要算法和算力的协同设计。视觉传感器+算力+算法的传感器计算模式,将更本质地推动解决当前自动驾驶面临的关键问题,即从2D、3D层面对物理世界的细致感知和理解。简智机器人核心团队在图像处理、AI算法、算力设计等方面拥有十余年的行业经验。以视觉传感器为核心,解决车载ISP、视觉雷达等视觉传感器2D、3D成像的核心问题。自动驾驶的强大眼睛,从而推动自动驾驶安全水平的提升。1.1从手机ISP到车载ISPISP(ImageSignalProcessor)是指通过一系列数字图像处理算法对数字图像进行成像处理。在相机成像的整个过程中,ISP负责接收感光元件的原始信号数据,可以理解为整个相机图像输出过程的第一步。ISP在提高图像质量和增强数据一致性方面起着极其关键的作用。得益于智能手机的发展和手机摄像头的像素越来越高,手机ISP在过去几年得到了快速发展和完善。比如在夜晚等场景,可以拍出比人眼所见更清晰、光线更充足、色彩更丰富的照片;清晰的视频。这些效果不仅仅得益于手机摄像头的硬件升级,特殊的AIISP处理算法和处理芯片起到了至关重要的作用。随着自动驾驶对车载成像质量的逐步提升,车载ISP,尤其是针对驾驶场景优化的AIISP处理算法和处理芯片,将迎来爆发式发展。AI在车载ISP的整个过程中会越来越重要,尤其是在降噪、去模糊、HDR等问题上。超人眼的成像效果,同时最大程度解决Sensor带来的噪点、模糊等问题。将AI计算放在ISP计算流水线之前,通过流式计算,ISP计算流水线不会中断,AIISP的性能功耗比将得到大幅提升。简智机器人具备全链路芯片级ISPIP的设计能力,将解决车载场景中ISP尤其是AIISP的核心问题,让车载摄像头的图像更加清晰,从而进一步提升车机的生成能力。视觉雷达点云与图像语义感知。后续任务的准确性。图1:简智机器人具备全链路ISP算法和算法硬核设计能力1.2从2D感知到视觉雷达面对大规模自动驾驶,3D点云的信息密度、场景泛化、性能可靠性在可扩展性方面提出了更高的要求。基于视觉雷达,通过双目或多眼立体视觉计算生成实时密集的3D点云是更好的方法。双目立体视觉是机器视觉的一种重要形式,类似于人眼,它是基于视差原理,通过计算图像对应点之间的位置偏差,获得物体的三维几何信息,而基于TOF和结构光的原理,与深度相机不同的是,它不主动向外界投射光线,完全依靠拍摄的两张图片(彩色RGB或灰度)来计算深度。传统的双目立体匹配算法对弱纹理、反光等区域效果较差。同时,它使用较少的对象语义信息。算法适用范围有限,点云效果上限比较明显。随着深度学习技术的发展,基于CNN、CostVolume、Transformer的立体匹配算法展现出了强大的算法效果和潜力。目前在知名自动驾驶数据集KITTI上排名靠前的立体匹配任务基本都是基于深度学习的算法。基于深度学习的双目立体匹配算法对计算芯片的AI算力提出了比较高的要求,也对研发模型提出了新的要求。硬组合、数据驱动的研发模式。在双目立体视觉的基础上更进一步,充分利用相机运动信息和多个相机之间的几何约束,通过相机位姿估计、深度估计、光流估计、MVS等算法,以及一系列监督每个相机的自监督其他任务间算法,可以获得360度的点云数据,即视觉雷达,从而形成与图像分辨率相匹配的密集点云。同时,以摄像头+算力+算法为核心的视觉雷达还具有产业链成熟可控、成本可控、设备稳定性有保障、满足车规等优势,更容易实现大-规模化预装量产上车使用。图2:简智机器人视觉雷达路线图2。自动驾驶大脑:全流程数据驱动的强单车智能自动驾驶大脑负责从感知到决策的整个驾驶过程,也是自动驾驶最复杂、最核心、难度最大的部分。传统的基于规则的软件1.0工程体系在可维护性、可扩展性和演进性方面存在一定的局限性。以AI和软件2.0为核心,全流程数据驱动的感知、预测、调控算法和强大的单车智能化解决方案,无疑是大规模无人驾驶更具可行性的解决方案。简智机器人核心团队在AI算法与应用、软件2.0基础架构、数据驱动的大规模实践等方面有着丰富的经验。它将通过全流程数据驱动的自动驾驶大脑建立强大的单车智能,从而减少对外部基础设施的需求。对设施的依赖更有利于自动驾驶的复制和推广。2.1深度学习带来的二维感知技术的突破感知是自动驾驶获取信息的第一步。所谓感知,是指通过摄像头或其他传感器识别出看到的物体,并了解物体是什么,这对自动驾驶至关重要。重要环节。自动驾驶车辆首先需要识别车道线,然后识别红绿灯和标志牌。此外,他们还需要识别前后左右是否有车辆、是否有行人等障碍物,以便进一步规划行车路线。过去十年是人工智能技术的黄金十年。深度学习改变了整个计算机视觉领域,带来了二维感知各个方面的突破。二维感知主要包括图像分类、图像(物体)识别、细粒度识别(人脸识别)等方向。采用的技术也从最早的模板匹配、线性分类,到现在广泛使用的深度卷积神经网络,再到最近刷新主要视觉任务榜单的Transformer。随着硬件计算能力的不断提升、算法范式的不断完善、可用数据资源的不断增长,基于摄像头的二维感知已经成为乘用车智能驾驶的主流解决方案,也成为众多解决方案的核心差异化.观点。简智机器人核心团队在国内率先开展基于深度学习的二维视觉感知全方向系统研究和规模化应用。多次在全球最具影响力的二维感知AI竞赛和评测中获得冠军,发表顶级会议和期刊发表论文数十篇,实现了人工智能二维感知技术的大规模应用。多个业务领域。(a)目标检测,人体骨骼点(b)全景分割(c)360°视觉感知(d)单目测距说到4D感知,如果2D感知还是检测、识别、分割平面上的物体,然后在加入深度信息后,将基本的2D感知转化为3D感知。如果在3D的基础上再增加时间维度,进化出来的就是4D感知。在自动驾驶领域,4D感知可以完整、连续地检测车辆周围的物体。基于深度学习和3D视觉技术的不断发展,随着CostVolume、OpticalFlow、differentiableHomography、Transformer等技术的成熟,以及多传感器融合、众包重建、密集重建、自动化标签等,它可以高效地提供高质量、大规模的4D场景数据,端到端的4D感知正在成为一种技术趋势。与传统2D感知+后融合方案相比,端到端4D感知具有诸多优势,可以解决测距抖动大、多摄像头拼接不准确、时序结果不稳定、迭代效率低等一系列问题.此外,基于端到端的4D感知,可以做出更好的4D预测。一方面可以为交通参与者做出更好的轨迹预测,从而实现更好的规划控制;另一方面,它可以用于道路驾驶区域。预测更精细的3D结构化信息,在线生成本地实时3D地图,减少对高精度地图等基础设施的依赖。图4:健智机器人在复杂路口驾驶场景的4D感知结果自动驾驶被认为是最重要的硬技术创新之一。在汽车产业发生百年未有之大变局的历史时刻,由于中国在电动汽车领域布局较早、全面开花,以及完整产业链的巨大优势,国内企业迎来了非常好的机遇以及自动驾驶方向的产业优势。作为最重要的支柱产业,百年汽车产业有机会通过电动化和智能化实现反超和领先。然而,自动驾驶的发展速度仍低于公众和市场的预期。影响自动驾驶水平提升的若干关键问题亟待解决。驾驶成像计算和下一代自动驾驶解决方案的关键问题,从而推动自动驾驶的创新发展。作者简介杜大龙:简智机器人联合创始人,硕士毕业于中科院计算技术研究所,目前在读博士。清华大学候选人。曾任AI科技公司研发副总裁,地平线算法总监,百度IDL架构师。深度参与了国内首款AI芯片的产品研发,实现了AI2B产品的大规模落地。因其在卷积神经网络、序列学习、神经网络训练框架方面的杰出贡献,连续两次获得百度工程师的最高荣誉——“百度百万奖”。在人工智能领域国际顶级会议上发表论文数十篇,带领团队在MSCOCO、FRVT等多项人工智能竞赛中取得世界级成绩。黄冠:简智机器人算法负责人,拥有十年深度学习/机器学习/计算机视觉经验,率先开始深度学习在目标检测、分割、关键点方向的系统研究和应用在中国。多次获得FRVT、COCO等全球最具影响力的AI竞赛冠军,发布全球最大的公共人脸数据集WebFace260M,在人工智能顶级会议和期刊发表论文十余篇,支持人工智能技术在多个领域的发展大规模落地应用,具有丰富的学术研究和产业落地经验。目前致力于下一代自动驾驶解决方案的全流程数据驱动算法的研发。
