当前位置: 首页 > 科技赋能

地平线是黄色的!为什么BPU比CPU-GPU更适合自动驾驶? - GITC 2018

时间:2024-05-22 12:44:42 科技赋能

车东溪(公众号:车东溪) 正文 | 3月9日,上周五,由车动力兄弟单位智动力主办的GTIC全球AI芯片创新峰会在上海举行。

大会邀请了来自芯片、安防、汽车、消费电子等领域的近40位行业领袖出席,分享他们开发AI芯片的经验和想法。

▲整个GTIC大会报名人数??超过一万人,现场观众数千人,以至于大量观众因没有座位而不得不站在会场外观看电视直播。

下午的大会,自动驾驶加速,AI芯片引领计算平台。

地平线公司联合创始人、算法副总裁黄畅发表了主题为《AI芯片在自动驾驶的应用实践》的主题演讲,讨论了地平线公司的产品研发流程、AI芯片与传统计算芯片的区别等关键问题。

下面对黄畅讲话要点进行详细分析。

▲黄昌毅,AI算法和AI芯片齐头并进。

Horizo??n由前百度研究院副院长、百度深度学习实验所领导。

办公室主任余凯成立于2018年7月,致力于为B端用户提供涉及算法和硬件的完整嵌入式人工智能解决方案(机器人大脑)。

说白了,它的完整解决方案既有AI算法,又有AI芯片、工具链和云服务。

▲于凯和黄畅表示,机器人大脑不仅需要完成图像和视频感知,还需要完成语音、语义处理、决策、规划等更复杂和高级的任务。

人工智能程序还需要高度关注解决方案的性能、成本和功耗的平衡。

因此,地平线在研发之初也遇到了一些困难。

那么地平线为何选择这样一条看似复杂且艰难的道路呢? ?黄畅解释说,他受到图灵奖获得者、现代计算机创始人艾伦·凯的影响。

据黄畅介绍,Alan Kay不仅提出了面向对象编程的概念,还说了一些对当前IT行业有影响的话。

那句影响深远的名言——“如果你真的关心软件,就应该制造自己的硬件”,正是促使乔布斯坚持软硬件融合的产品开发策略,打造出苹果这样的顶级科技巨头。

同样,Alan Kay的名言也激励了Horizo??n团队,包括余凯、黄畅等人,走上了软硬件结合的道路。

2、地平线第三代AI芯片架构黄畅在GTIC现场谈到。

如果按照智能决策处理的顺序,AI可以分为三个阶段:感知、建模、决策和规划。

基于这个分类,Horizo??n还规划了高斯、伯努利、贝叶斯三代BPU架构。

▲ Horizo??n第三代BPU架构 2019年12月,Horizo??n正式推出两款AI芯片——Journey 1.0和Rising Sun 1.0。

虽然两者都是基于高斯架构构建的,但是它们的用途却截然不同。

征程瞄准智能驾驶后市场,旭日则专注于智能摄像头领域。

黄畅表示,从AI处理器的发展变化可以看出,面向计算的芯片架构越专业,功耗和性能比就能达到越好,所以地平线同时推出了这两款芯片基于高斯架构的时间。

,每颗芯片都是针对相应领域专门设计的,有利于最大化计算性能。

性能方面,Journey 1.0处理器可处理摄像头拍摄的P@30帧视频流,对多达+个物体进行实时跟踪识别,涉及行人、机动车、非机动车、车道线等交通标志。

、红绿灯等各类交通要素,可实现FCW前方碰撞预警、LDW车道偏离预警等驾驶辅助功能。

此外,地平线还推出了基于Journey 1.0芯片的量产后市场ADAS产品。

黄畅表示,地平线第一代芯片的生产比较顺利,但也存在制约和限制。

Horizo??n在第二代BPU架构伯努利中增加了其图像识别的细粒度并增加了建模能力。

在基于FPGA的验证阶段,伯努利架构已经可以同时处理来自摄像头、雷达、激光雷达等传感器的多达8通道的数据,希望能够执行自主驾驶所需的传感器数据融合功能其上的车辆。

由于细粒度的提升,黄畅表示,他的第二代BPU架构可以在像素级别进行感知,可以更准确地区分路面、人体、汽车、建筑物、树木等物体,并进行图像分割。

此外,更准确、多路径的感知结果最终将服务于环境的建模,可以从各个角度进行观察。

▲ 第二代BPU感知能力演示。

从黄畅现场通过视频演示基于伯努利架构的早期产品(FPGA)在高速公路和城市道路上的感知测试的视频来看,第二代BPU架构的计算能力确实是强,无论是识别、跟踪还是语义分割,都有不错的效果。

3、利用BPU提升AI计算效率。

黄畅在视频演示后表示,利用BPU为自动驾驶提供感知能力的核心理念是融合不同尺度空间的信息,使用非常底层的配准。

对齐、使用冗余来降低复杂性和其他软件技术。

但他也强调,仅靠算法的进步是不够的。

“如果只有算法的进步,而原有的计算设备(处理器)没有相应迭代,新技术的优势就无法体现出来。

即使经过精确的设计,当前的CPU和GPU通用处理器也远远不能满足当今的计算需求,使得设备利用率非常低。

“为此,地平线推出了自主设计开发的BPU架构。

黄畅介绍,地平线的BPU是典型的异构多指令、多数据系统。

该架构中央处理器是一个完整的系统。

内存架构设计经过专门优化,可实现数据自由传输并执行各种计算。

让不同的组件同时运行,提高AI运行的效率。

▲BPU架构 那么为什么通用处理器的运算性能不如BPU呢?除了上述异构多指令多数据流计算架构对多种算法的支持外,黄畅解释道,“如果按照通用处理器的方法,会很难做出选择。

如果脱离了应用场景,算法的不断迭代,以及估算算法的时候,你其实不知道每个东西的权衡和规模,但是我们更关注应用和算法的权衡,所以。

我们对芯片架构的权衡、规模和组件有了更好的把握。

”结语:AI芯片时代开始的这两年,人工智能这一有着几十年历史的老技术迅速普及起来,不仅在科技圈,而且在电视、手机、音箱、 APP、甚至政府工作报告中的热情都可见一斑。

这股人工智能热潮的兴起与深度学习、神经网络等底层技术密切相关。

在深度学习框架、AI算法等软件技术不断发展的同时,AI相关的硬件也在发生变化。

2017年,谷歌等AI先行者主要利用CPU来推动AI项目。

2017年,百度深度学习实验室推出了业界最前沿的在GPU上运行深度学习算法的方法。

不过需要指出的是,虽然适合并行计算的GPU本质上比CPU更适合深度学习运算,但GPU和CPU本质上都是通用处理器。

因此,在深度学习这样的单一领域,它们的单元计算性能还不如ASIC这样的专用处理器强大,甚至不如可编程FPGA。

随着深度学习、神经网络等底层技术的不断演进以及AI技术在自动驾驶、智慧城市、智慧金融等领域的落地和部署,AI技术对算力的需求持续快速增长。

因此,百度深度学习实验室在2018年将FPGA引入AI计算; Horizo??n于2018年推出BPU架构;谷歌于2018年推出TPU等专用AI芯片,从而正式开启AI芯片时代。