车东溪(公众号:车东溪) 正文 | 3月9日,上周五,由车动力兄弟单位智动力主办的GTIC全球AI芯片创新峰会在上海举行。
大会邀请了来自芯片、安防、汽车、消费电子等领域的近40位行业领袖出席,分享他们开发AI芯片的经验和想法。
▲整个GTIC大会报名人数??超过一万人,现场观众数千人,以至于大量观众因没有座位而不得不站在会场外观看电视直播。
下午的大会,自动驾驶加速,AI芯片引领计算平台。
地平线公司联合创始人、算法副总裁黄畅发表了主题为《AI芯片在自动驾驶的应用实践》的主题演讲,讨论了地平线公司的产品研发流程、AI芯片与传统计算芯片的区别等关键问题。
下面对黄畅讲话要点进行详细分析。
▲黄昌毅,AI算法和AI芯片齐头并进。
Horizo??n由前百度研究院副院长、百度深度学习实验所领导。
办公室主任余凯成立于2018年7月,致力于为B端用户提供涉及算法和硬件的完整嵌入式人工智能解决方案(机器人大脑)。
说白了,它的完整解决方案既有AI算法,又有AI芯片、工具链和云服务。
▲于凯和黄畅表示,机器人大脑不仅需要完成图像和视频感知,还需要完成语音、语义处理、决策、规划等更复杂和高级的任务。
人工智能程序还需要高度关注解决方案的性能、成本和功耗的平衡。
因此,地平线在研发之初也遇到了一些困难。
那么地平线为何选择这样一条看似复杂且艰难的道路呢? ?黄畅解释说,他受到图灵奖获得者、现代计算机创始人艾伦·凯的影响。
据黄畅介绍,Alan Kay不仅提出了面向对象编程的概念,还说了一些对当前IT行业有影响的话。
那句影响深远的名言——“如果你真的关心软件,就应该制造自己的硬件”,正是促使乔布斯坚持软硬件融合的产品开发策略,打造出苹果这样的顶级科技巨头。
同样,Alan Kay的名言也激励了Horizo??n团队,包括余凯、黄畅等人,走上了软硬件结合的道路。
2、地平线第三代AI芯片架构黄畅在GTIC现场谈到。
如果按照智能决策处理的顺序,AI可以分为三个阶段:感知、建模、决策和规划。
基于这个分类,Horizo??n还规划了高斯、伯努利、贝叶斯三代BPU架构。
▲ Horizo??n第三代BPU架构 2019年12月,Horizo??n正式推出两款AI芯片——Journey 1.0和Rising Sun 1.0。
虽然两者都是基于高斯架构构建的,但是它们的用途却截然不同。
征程瞄准智能驾驶后市场,旭日则专注于智能摄像头领域。
黄畅表示,从AI处理器的发展变化可以看出,面向计算的芯片架构越专业,功耗和性能比就能达到越好,所以地平线同时推出了这两款芯片基于高斯架构的时间。
,每颗芯片都是针对相应领域专门设计的,有利于最大化计算性能。
性能方面,Journey 1.0处理器可处理摄像头拍摄的P@30帧视频流,对多达+个物体进行实时跟踪识别,涉及行人、机动车、非机动车、车道线等交通标志。
、红绿灯等各类交通要素,可实现FCW前方碰撞预警、LDW车道偏离预警等驾驶辅助功能。
此外,地平线还推出了基于Journey 1.0芯片的量产后市场ADAS产品。
黄畅表示,地平线第一代芯片的生产比较顺利,但也存在制约和限制。
Horizo??n在第二代BPU架构伯努利中增加了其图像识别的细粒度并增加了建模能力。
在基于FPGA的验证阶段,伯努利架构已经可以同时处理来自摄像头、雷达、激光雷达等传感器的多达8通道的数据,希望能够执行自主驾驶所需的传感器数据融合功能其上的车辆。
由于细粒度的提升,黄畅表示,他的第二代BPU架构可以在像素级别进行感知,可以更准确地区分路面、人体、汽车、建筑物、树木等物体,并进行图像分割。
此外,更准确、多路径的感知结果最终将服务于环境的建模,可以从各个角度进行观察。
▲ 第二代BPU感知能力演示。
从黄畅现场通过视频演示基于伯努利架构的早期产品(FPGA)在高速公路和城市道路上的感知测试的视频来看,第二代BPU架构的计算能力确实是强,无论是识别、跟踪还是语义分割,都有不错的效果。
3、利用BPU提升AI计算效率。
黄畅在视频演示后表示,利用BPU为自动驾驶提供感知能力的核心理念是融合不同尺度空间的信息,使用非常底层的配准。
对齐、使用冗余来降低复杂性和其他软件技术。
但他也强调,仅靠算法的进步是不够的。
“如果只有算法的进步,而原有的计算设备(处理器)没有相应迭代,新技术的优势就无法体现出来。
即使经过精确的设计,当前的CPU和GPU通用处理器也远远不能满足当今的计算需求,使得设备利用率非常低。
“为此,地平线推出了自主设计开发的BPU架构。
黄畅介绍,地平线的BPU是典型的异构多指令、多数据系统。
该架构中央处理器是一个完整的系统。
内存架构设计经过专门优化,可实现数据自由传输并执行各种计算。
让不同的组件同时运行,提高AI运行的效率。
▲BPU架构 那么为什么通用处理器的运算性能不如BPU呢?除了上述异构多指令多数据流计算架构对多种算法的支持外,黄畅解释道,“如果按照通用处理器的方法,会很难做出选择。
如果脱离了应用场景,算法的不断迭代,以及估算算法的时候,你其实不知道每个东西的权衡和规模,但是我们更关注应用和算法的权衡,所以。
我们对芯片架构的权衡、规模和组件有了更好的把握。
”结语:AI芯片时代开始的这两年,人工智能这一有着几十年历史的老技术迅速普及起来,不仅在科技圈,而且在电视、手机、音箱、 APP、甚至政府工作报告中的热情都可见一斑。
这股人工智能热潮的兴起与深度学习、神经网络等底层技术密切相关。
在深度学习框架、AI算法等软件技术不断发展的同时,AI相关的硬件也在发生变化。
2017年,谷歌等AI先行者主要利用CPU来推动AI项目。
2017年,百度深度学习实验室推出了业界最前沿的在GPU上运行深度学习算法的方法。
不过需要指出的是,虽然适合并行计算的GPU本质上比CPU更适合深度学习运算,但GPU和CPU本质上都是通用处理器。
因此,在深度学习这样的单一领域,它们的单元计算性能还不如ASIC这样的专用处理器强大,甚至不如可编程FPGA。
随着深度学习、神经网络等底层技术的不断演进以及AI技术在自动驾驶、智慧城市、智慧金融等领域的落地和部署,AI技术对算力的需求持续快速增长。
因此,百度深度学习实验室在2018年将FPGA引入AI计算; Horizo??n于2018年推出BPU架构;谷歌于2018年推出TPU等专用AI芯片,从而正式开启AI芯片时代。
。