数据闭环研究:自动驾驶的发展已经从技术驱动转向数据驱动。1、自动驾驶的发展正逐步从技术驱动转向数据驱动。如今,自动驾驶传感器解决方案和计算平台日趋同质化,供应商之间的技术差距正在缩小。近两年,自动驾驶技术迭代突飞猛进,量产加速。据左思数据中心预测,2021年,我国L2级辅助驾驶乘用车累计保有量将达到479万辆,同比增长58.0%。2022年1-6月,我国L2级辅助驾驶在新乘用车市场渗透率将攀升至32.4%。对于自动驾驶而言,数据贯穿于研发、测试、量产、运维的全生命周期。随着智能网联汽车传感器数量的快速增加,ADAS和自动驾驶汽车数据的产生也呈指数级增长,未来从GB到TB、PB、EB再到ZB。只有数据驱动汽车进化,满足用户个性化需求,车企才能走得更远。根据《汽车采集数据处理安全指南》,汽车采集数据是指汽车传感设备和控制单元采集的数据,经过处理后产生的数据,可细分为车外数据、座舱数据、运行数据、位置数据跟踪数据。根据国家互联网信息办公室2021年8月颁布的,对车辆数据采集、分析、存储、传输、查询、应用、删除的全过程进行了详细规定。在车载数据处理过程中,坚持“车载处理”、“默认不采集”、“适用精度范围”、“脱敏处理”的数据处理原则,减少无序采集和违法行为滥用汽车数据。在自动驾驶技术的发展过程中,数据的收集和处理首先要合法合规。数据采集??/清理从汽车摄像头、毫米波雷达、激光雷达和超声波雷达收集的大量非结构化数据(图像、视频、语音)可能是原始的和混乱的。为了使数据有意义,需要对其进行清理、结构化和组织。来自多个来源的数据首先导入到适当的存储库中,数据格式标准化,并根据相关规则聚合。然后检查损坏、重复或丢失的数据点,并丢弃可能影响数据集整体质量的不需要的数据。最后,标签用于对在不同条件下拍摄的视频进行分类,例如白天、夜晚、晴天、下雨等。这一步提供了清洗后的结构化数据,将用于训练和验证。数据标注数据采集后经过清洗的结构化数据需要进行标注。标注是给原始数据赋予编码值的过程。编码值包括但不限于分配类标签、绘制边界框、标注对象边界等。需要高质量的注释来教导监督学习什么是模型对象并衡量训练模型的性能。在自动驾驶领域,数据标注处理场景通常包括变道超车、过路口、无红绿灯无保护左转右转,以及闯红灯车辆、行人过马路、路边等一些复杂的长尾场景。车辆违章停放等。常用的标注工具有图片总图框、车道线标注、驾驶员人脸标注、3D点云标注、2D/3D融合标注、全景语义分割等。由于大数据的发展和越来越多的大型数据集,数据注释工具的使用继续快速扩展。数据传输如今,数据采集的频率已经进入毫秒级,需要的是数千个信号维度(如总线信号、内部传感器状态、软件埋点、用户行为和环境感知数据、等),在避免数据丢失、乱序、跳跃和延迟的同时,在高精度、高质量的前提下,大大压缩传输/存储成本。车联网数据上下行链路较长(从车端MCU、DCU、网关、4G/5G到云端),需要保证各链路节点的数据传输质量。针对数据传输的新变化,一些企业已经能够提供高效的数据采集和车云一体化传输解决方案。例如智协汇通EXCEEDDATA柔性数据采集平台解决方案,基于车辆边缘计算环境下的实时数据,实现了10毫秒实时计算,用于触发柔性数据采集上传功能。上传的数据已经过计算和过滤,大大减少了上传的数据量。此外,对车端原始信号进行100-300倍无损压缩存储,云管理平台保存车端优质信号无损高压缩比,支持数据分发采集算法,多种采集模式触发,采集数据实时上传一键下载至业务桌面,按车辆、事件、时间段灵活筛选,随时解题、存储计算分离,实现车云同构数据采集-计算-上传-处理闭环;2021年,国内首款搭载智协汇通EXCEEDDATA解决方案的量产车型落地(高合HiPhiX)。Source:WisdomCollaborativeWisdomDataStorage为了更清楚地感知周围环境,自动驾驶汽车配备了更多的传感器并产生了大量的数据。一些高级别的自动驾驶系统甚至配备了40多个各类传感器,准确感知车辆周围环境。自动驾驶系统的研发需要经历数据采集、数据聚合、清洗标记、模型训练、仿真、大数据分析等多个环节。模型训练时读写海量数据。数据面临存储瓶颈的新挑战。为此,众多云服务商在这方面的技术和能力成为了助力车企制胜的关键。比如以自动驾驶数据湖为核心的亚马逊云技术AWS,帮助车企构建自动驾驶数据端到端的闭环。借助AmazonSimpleStorageService(AmazonS3,云端对象存储服务)构建自动驾驶数据湖,实现数据采集、数据管理与分析、数据标注、模型与算法开发、仿真验证、地图开发、DevOps和MLOps,车企更容易实现自动驾驶全流程的开发、测试和应用。资料来源:国内科技巨头中,AWS以百度的数据闭环解决方案为例。其数据存储提供路侧及车辆多源数据信息的数据检索服务,用于业务平台海量数据检索,具有多维检索(车辆信息、里程、自动驾驶时长等)、管理数据从生产到销毁的全生命周期,支持全景数据查看、数据溯源、数据开放共享。百度自动驾驶数据闭环解决方案架构来源:百度2.自动驾驶的高效发展需要构建数据闭环体系。自动驾驶的发展已经从技术驱动转向数据驱动,但数据驱动的商业模式面临诸多困难。海量数据处理困难:高级别自动驾驶测试车每天采集的数据量达TB级,开发团队需要PB级的存储空间。然而,可用于训练的价值数据只占这些数据的不到5%。此外,车载摄像头、激光雷达、高精度定位等传感器采集的数据都有严格的安全合规要求,这无疑给海量数据的接入、存储、脱敏和处理带来了极大的挑战。数据标注成本高:数据标注占用大量人力和时间。随着高级别自动驾驶能力的发展,场景的复杂度不断增加,将会出现更多困难的场景。提高车辆感知模型的准确率对训练数据集的规模和质量提出了更高的要求。在效率和成本上,传统的人工标注已经难以满足模型训练对海量数据集的需求。仿真测试效率低:虚拟仿真是加速自动驾驶算法训练的有效手段,但仿真场景构建难度大,还原度低,尤其是一些复杂、危险的场景构建难度大。此外,并行仿真能力不足,仿真测试效率低,算法迭代周期过长。高精地图覆盖面小:高精地图主要依靠自采自制地图,在试验阶段仅满足指定道路场景。未来将走向商业化,扩展至全国各大城市的城市街道。它将在覆盖、动态更新、成本和效率等方面面临非常突出的挑战。为了解决各种困难和问题,自动驾驶的高效发展需要构建高效的数据闭环系统。Source:Freetech就自动驾驶数据闭环而言,在自动驾驶实施过程中需要不断解决CornerCases。为此,需要有足够的数据样本和便捷的车端验证手段。Shadow模式是解决CornerCases的最佳解决方案之一。shadow模式由特斯拉于2019年4月提出,应用于汽车端,用于比对相关决策并触发数据上传。利用售出车辆上的自动驾驶软件,不断记录传感器检测到的数据,并在适当的时候有选择地返回,用于机器学习,改进原有的自动驾驶算法。Dojo超级计算机可以利用海量视频数据进行无监督标注和训练。2021年,特斯拉全球交付量为93.62万辆,其中中国工厂交付量为48.41万辆。2022年上半年交付56万辆,特斯拉利用量产优势,通过影子模式不断优化算法。利用影子模式,以百万辆售出的车辆作为测试车辆,捕捉周围感知和特殊路况,不断加强对不确定事件的预测、规避和学习能力。因为百万销量车型的支持,CornerCases和极端工况的覆盖会更加全面,灵活触发采集到的高质量数据可以迭代出更好的算法,算法迭代的优劣决定了软件的价值。在软件升级订阅服务方面,数据闭环的爆发力刚刚显现。3、数据闭环成为自动驾驶迭代升级的核心。自动驾驶系统不断迭代的前提是算法的不断优化,算法的优劣取决于数据闭环系统的性能。数据的高效流动在自动驾驶发展的各个场景非常重要,数据智能将成为加速自动驾驶量产的关键。2021年12月,陌陌智行正式发布国内首个自动驾驶数据智能系统MANASnowLake,从感知、认知、标注、模拟、计算五大能力加速自动驾驶技术演进。未来3年,辅助驾驶系统可搭载超过100万辆乘用车。陌陌智行依托完全自主研发的自动驾驶系统,在数据积累、处理、应用等方面取得显着优势。海量数据带来技术迭代优势。降本增效优势明显。再比如,Momenta实现了领先的全流程数据驱动技术能力,包括感知、融合、预测、调控等算法模块,可以数据驱动高效迭代更新。它的闭环自动化(ClosedLoopAutomation)是一套工具链,可以让数据流驱动数据驱动的算法自动迭代。CLA可以自动筛选出海量黄金数据,驱动算法自动迭代,让自动驾驶飞轮越转越快。来源:Momenta在软件定义汽车的背景下,数据、算法和算力是自动驾驶发展的三驾马车。自动驾驶企业可持续发展的关键在于车企研发周期的缩短和功能迭代的加速。未来能够低成本、高效率、高效率地持续采集数据,通过真实的数据迭代算法,最终形成数据闭环和业务闭环。
