现代搭载激光雷达和TI芯片的L3级自动驾驶架构解析图为测试样机,两颗激光雷达清晰可见。G90自动驾驶谍照来源:网络这是在韩国首尔拍摄的G90自动驾驶谍照。激光雷达好像是后来加的。搭载激光雷达的G90谍照图片来源:互联网标准版G90谍照图片来源:互联网现代汽车全球销量稳定在600万辆以上,2020年销量下滑12%,但仍达到635万辆,算得上独立厂商如果不算联盟的话,现代的销量排在第三位,略高于排名第四的通用汽车,所以现代的自动驾驶还是值得一看的。图片来源:网上L3级自动驾驶传感器布局如上。在激光雷达方面,现代汽车旗下现代摩比斯曾向老牌激光雷达公司Velodyne投资5000万美元,与Velodyne共同研发并量产低成本激光雷达。现代摩比斯代工Velodyne的激光雷达,但相差甚远,现代没有选择Velodyne的激光雷达,而是选择了更老的法雷奥激光雷达,即二代Scala。图片来源:网络更详细的参数如下。图片来源:互联网有效距离的参数特别精确。不像大多数厂家简单的说几百米,没有限制条件的参数是没有意义的。一直往前,扫描密度增加了,专为双激光雷达设计。图片来源:互联网L3系统的计算架构如上图。与大多数制造商不同,现代的解决方案力求低成本。就连前视摄像头FRCMR其实也是通过CAN-FD总线连接的,而不是常见的Ethernet或者SerDes,所以像素肯定很低,估计不超过150万像素。FRRDR是前置主毫米波雷达,FRCRDR和RRCRDR是4角毫米波雷达。FRCLDRLH是左激光雷达,FRCLDRRH是右激光雷达。CCIC是集中控和仪表于一体的座舱显示器,而CCU其实就是TCU,??通过OTA升级。韩文标注的是调试用的,量产时不存在。PHY是物理层芯片,最有可能是Marvell的88Q211,使用7个PHY,价格在105-140美元左右。两个以太网交换机,很可能是Marvell的88Q5050。MCU为英飞凌的TC397XP,目前无货。虽然是L3,但依然是双系统设计,拥有两套供电系统。如果换成其他厂商,你肯定会说是L4。右边的方框是主系统,左边的方框是应急备用系统。其实一共有三套,还有一套自动泊车。该系统应该由现代汽车和Aptiv的合资企业Motional设计和生产。图片来源:互联网首先看备份系统。CPU是Intel的Denverton,也就是凌动C3000系列。C3000系列的16核只有三种型号,分别是C3950、C3955和C3958。其中C3950的TDP功率最低,仅为24瓦,C3958为31瓦,C3955为32瓦。现代很可能会选择C3958。C3000系列主要是面向IoT领域,不是面向汽车领域,而是面向汽车领域的A3900系列。不过两者应该是高度相似的,都属于Atom3000系列。与A3900系列不同,C3000系列没有GPU,只有CPU。C3950目前的零售价约为160美元,批量估计约为100美元。4核@2.0GHzA3950的CPU算力为42160DMIPS,C3958为16核@2.0GHz,算力应该是168.6K,大致略高于高通的5nmSA8295,但C3958是14纳米。另外,X86的乱序执行能力远高于ARM。虽然DMIPS相当,但X86的实际性能往往更好。BMW的L3系统也选择了Denverton,估计是16核。在传统的激光雷达ICP算法中,主要依赖于CPU。这可能是选择丹佛顿的原因。主系统的核心部件是德州仪器的TDA4VMID,这是德州仪器推出的一款用于ADAS和自动泊车的芯片。目前量产的芯片只有一颗,TDA4VMID,2022年上半年还会有两款样品,一款是TDA4VMIDPlus,一款是TDA4VLow。如果一个芯片的计算能力不够,可以并联四个芯片。图片来源:网络2022年,德州仪器也有一款TDA4AH提供样品。这是德州仪器的旗舰芯片。采用8颗A72@2.4GHz,算力100KDMIPS,4颗MMA,算力36TOPS@INT8,4颗C7xDSP,算力320GFLOPS。TDA4VMID内框图片来源:网络TDA4VMID使用两片A72,运算能力约25KDMIPS,MMA运算能力8TOPS,C7xDSP运算能力80GFLOPS,GE8430运算能力100GFLOPS。看板子,现代的L3应该是4块TDA4VMID,CPU总算力100K,NPU有32TOPS,还不错。图片来源:互联网3ARMCortex-R5F实时锁步系统,让芯片整体达到ASIL-D级别。图片来源:网上预装了与底层抽象层MCAL关联的Autosar驱动,由Vector开发。图片来源:KPIT开发的AUTOSAR互联网预装,包括网关、安全岛、OTA、V2X、诊断、IPC通信。图片来源:互联网在深度学习方面,德州仪器开发了TI深度学习(TIDL),优化了三大推理深度学习模型,尤其是微软开放的神经网络交换ONNX。在硬件方面,DSP加入了MMA,即矩阵乘法加速器。在深度学习方面,DSP有一个NPU等加速器无法比拟的优势,就是DSP采用哈佛结构,将内存空间一分为二,分别存储指令和数据。它们有两组总线连接到处理器内核,允许同时访问它们,每个内存都是独立寻址和独立访问的。这种安排使处理器的数据吞吐率提高了一倍,更重要的是,同时向处理器内核提供数据和指令。在这种布局下,DSP可以实现单周期MAC指令。NPU除DSP外,一般采用冯诺依曼架构,数据和程序共享总线和存储空间。在深度学习推理的卷积运算中,一条指令同时取两个操作数。有一个取指令操作。如果通过总线访问程序和数据,就会出现取指令和取数据的冲突,非常不利于计算量大的循环的执行效率。哈佛结构基本上可以解决取数和计数的冲突。它没有存储瓶颈,并且本质上是流水线的。最终的结果是DSP的深度学习推理加速计算值几乎没有水分,而NPU专用的深度学习推理加速性能不稳定,需要高度定制化,软硬件集成,针对其架构开发的某款机型一般来说,加速器的利用率是90%,但换个型号可能只有10%或5%。比如英伟达的Orin,如果它的理想算力是254TOPS,但在某些机型上,算力会下降到12.7TOPS。事实上,考虑到存储瓶颈,任何基于冯诺依曼的加速器都无法达到理想值的80%。DSP的通用性强,任何型号都有90%的利用率。现代L3系统不依赖于深度学习计算能力,而是更多地依赖CPU和传统的可确定和可解释算法。可靠性远高于依赖深度学习的自动驾驶系统,这是一种不确定且无法解释的算法。TDAV4MID的视觉加速管线图片来源:网络
