当前位置: 首页 > 科技赋能

2018 年 GTIC - NVIDIA 西蒙 看到了!揭秘提升AI芯片能效的两大法宝

时间:2024-05-22 10:50:16 科技赋能

文章| 3月9日,由智东西主办、集果科技、AWE协办的中国首届AI芯片峰会在上海浦东成功举办。

本次大会共吸引了近万名观众,参会人数比预期增加了三倍。

虽然是下午的演出,但现场依然座无虚席,有些观众宁愿站着听完整场演出。

会议现场,近40位人工智能及AI芯片行业领军人物齐聚一堂,系统探讨2020年AI芯片的技术前景和行业趋势。

上午演讲中,人工智能芯片亚太区首席技术官Simon See博士芯片巨头英伟达AI技术中心,发表了主题为《端到端的AI计算》的演讲,深入探讨了深度学习在越来越多行业的应用,同时数据量也随之增加,给人工智能带来了许多新的挑战。

AI芯片制造商;此外,Simon See博士还详细讲解了压缩神经网络、提高芯片效率的两种方法:降低计算精度和剪枝网络(Purne)。

以下为Simon See博士的演讲要点摘要。

1、人工智能产业应用大幅拓展,催生各类新兴人工智能芯片。

Simon See博士首先介绍,从2016年的ImageNet竞赛开始,深度神经网络开始逐渐进入人们的视线,并持续发展。

包括图像分类在内的深度学习应用正变得越来越准确、功能越来越强大、应用领域也越来越广。

基于这些技术,逐渐衍生出基于图像的物体检测、场景检测、风格检测等不同能力,并涌现出智慧城市、智慧医疗、安防监控等不同行业的应用。

由于人工智能的广泛普及,市场上涌现了一大批新兴的人工智能芯片初创公司。

PPT中的大部分人都是具有代表性的国外公司,而中国研发新型AI芯片的公司也几乎有数十家。

2、深度神经网络越来越复杂,对芯片的要求越来越高。

那么为什么需要这样的芯片呢?首先我们需要看看算法。

魏老师刚才说了,这个算法一直在变化,无论是CNN、DNN、GAN,还是其他Deep Q-Learning,尤其是用在AlphaGo上。

各种AI芯片兴起的另一个原因是AI对算力要求的不断提高。

2016年,10层神经网络的计算需要30多个GPU;第一个版本的 AlphaGo(不是最新的 AlphaZero)需要 50 个 GPU 进行三周多的训练。

在此期间,CNN、RNN、GAN、Deep Q-Learning等算法不断变得更加复杂,对深度学习计算硬件提出了新的挑战。

与去年相比,翻译神经网络的复杂度增加了10倍;与去年相比,语音神经网络的复杂度增加了30倍;与去年相比,图像深度神经网络的复杂度增加了10倍。

除了深度神经网络的复杂性不断增加之外,数据量也在不断增加。

例如,自动驾驶汽车的摄像头采集图像并使用ResNet-50网络需要Gops/30fps计算,需要运行77.2亿次计算。

一辆无人驾驶汽车需要12-24个摄像头,其计算量呈指数级增长。

综合以上原因,人工智能对硬件计算的要求越来越高。

但如果我们仔细研究神经网络,我们会发现深度学习中的基本处理就是最简单的矩阵运算。

如果可以将它们全部放在一起,则可以执行高度并行的计算。

最早以图像处理起家的NVIDIA,设计了针对矩阵运算的GPU芯片。

后来,NVIDIA在GPU中加入了深度学习相关的加速。

3、神经网络压缩的两大发展方向。

神经网络的压缩和简化是学术界和工程界正在研究和讨论的重要问题。

目前的深度神经网络普遍较大,无论是在云端还是在终端,都会影响网络速度并增加功耗。

Simon See博士在演讲中提到了优化AI芯片效率的两大方向:一是降低计算精度。

图中不同精度的值的计算功耗可以看出,精度越高,功耗越大。

为此,NVIDIA推出了TensorRT,这是一款可编程推理加速器,可加速现有和未来的网络架构,其中包括一个为优化生产环境中部署的深度学习模型而创建的库,可以获得经过训练的神经网络(32位或16位数字) ,并通过降低精度来优化网络操作。

此外,还可以通过网络进行网络剪枝(Purne),首先构建整个算法网络,然后尝试消除冗余节点,压缩网络规模。

结论:从云到端,从硬到软。

Simon See博士在演讲中对AI芯片保持了非常积极的态度。

他认为,从交通到健康,越来越多的行业开始拥抱人工智能;而随着数据量的激增,AI芯片变得越来越重要。

但由于AI芯片仍属于技术早期的前沿技术产品,在芯片硬件面世后,配套的软件生态系统(如编译器、模拟器、开发套件等)也需要跟上。

创建云到云的生态系统。

端到端、从硬到软的人工智能环境。