当前位置: 首页 > 科技观察

AI芯片黑科技盘点

时间:2023-03-12 02:35:05 科技观察

随着大数据和深度学习的应用越来越广泛,对底层硬件和芯片提出了新的要求。与强调“处理能力”的传统处理器不同,大数据和深度学习应用往往强调“计算能力”和“能效比”。由于大数据和深度学习应用算法中的特征提取和处理往往需要实际计算,因此需要具有高计算能力的芯片在最短的时间内完成计算。另一方面,能效比也是一个重要指标。能效比是指完成计算所需的能量。能效比越好,完成同样的计算消耗的能量就越少。对于终端芯片而言,由于数据隐私、网络传输带宽和处理延迟等问题,越来越多的数据无法传输到云端数据中心完成计算,这就需要终端芯片能够在终端上完成计算;同时,终端设备的电池容量往往是有限的,因此终端芯片在完成计算的同时不能消耗过多的能量,即需要良好的能效比。对于云数据中心的芯片,同样需要有良好的能效比,因为散热成本是数据中心的一项重要开支,所以芯片的散热量一定不能太大。在大数据和深度学习应用中,数据往往是相互独立的,因此可以进行并行计算。传统CPU并行计算能力有限,难以满足计算能力需求。GPU虽然具有很高的计算能力(10TOPS数量级)并在数据中心得到应用,但其功耗也非常大(数百瓦),其架构决定了它无法达到数据中心所需的更低功耗。终端(如100mW以下场景)。同时,即便是在数据中心领域,由于GPU设计的初衷是为了图像渲染而非大数据计算,所以还有很大的提升空间。因此,我们看到了很多AI芯片领域的项目,来自学术界和工业界,试图挑战CPU和GPU。这些项目大致可以分为两类,一类是在传统数字处理器模型的基础上,改进处理器架构,提高计算能力和能效比;一种完全不同的执行计算的方式,导致在某些领域的性能远高于传统处理器。今天给大家带来的是对第二类技术的总结。我们期待一些第二类技术能够经受住时间的考验,最终成为主流技术。神经形态计算神经形态技术(neuromorphic)有着悠久的历史。它是由加州理工学院电路大师CarverMead在1980年代和90年代提出的。当时,米德教授注意到MOS器件中的电荷流动现象类似于人体神经元的放电现象,于是提出用MOS管模拟神经元,组成神经网络进行计算,称为“神经拟态”。需要注意的是,神经拟态中的神经网络与目前深度学习算法中的神经网络略有不同。神经形态电路中的神经网络是高度模拟生物神经元和突触,包括改变神经电位和发射脉冲的过程。这个过程可以用异步数字电路或混合信号电路来实现;而深度学习中的神经网络是对生物学中神经组织的抽象数学模拟,只描述其电位变化的统计特征,而没有详细描述其充放电过程。然而,这种充电和放电过程可能是人类大脑如此节能的关键。人脑中复杂的神经网络可以实现极其复杂的推理和认知过程,但其功耗却远小于GPU。2017年5月,美国橡树岭国家实验室发表了神经形态研究的重要综述。应该说,人们对神经形态研究的研究还处于起步阶段。许多神经形态架构的潜力还没有被人们发现。同时,如何训练神经形态电路也是一个重要的挑战。从目前的研究中发现,神经形态神经元在未被激活时消耗的功率更少,从而可以实现更低的平均功耗,这是一个重要的优势。例如,当我们部署摄像头加人工智能系统来识别是否有人进入摄像头的视野时,往往视野中并没有人出现。在这种情况下,使用传统的深度学习算法,无论相机内部发生什么,都需要进行相同的计算,因此功耗保持不变;而对于神经形态芯片,神经元只有在有人进入摄像头时才会被激活,而当没有人进入视野时,神经元处于待机状态,功耗非常低,因此它的平均功耗可以低很多比传统的深度学习芯片。也就是说,神经形态电路的能效比可以远高于传统的GPU/CPU芯片。此外,终端使用的低功耗神经形态芯片也可以完成在线学习,而传统终端使用的深度学习推理加速芯片往往不具备在线学习能力。这些只是神经形态电路的一些好处,神经形态电路的其他潜力还在等待人们去挖掘。神经形态电路芯片的潜力也是一些大公司开始布局的原因。IBM和英特尔都推出了自己的神经形态芯片(IBM和TrueNorth以及英特尔的Loihi),可以达到非常高的能效比。我们期待在未来看到更多神经形态电路芯片的发布,可以挖掘神经形态的潜力。光电计算硅光子技术目前在数据中心和5G高速数据传输中得到越来越多的应用。除此之外,硅光子学还可用于以超低功耗直接加速深度学习计算。2017年,麻省理工学院的MarinSolijacic教授及其研究团队在《自然·光子学》期刊上发表了一篇关于利用光学器件加速深度学习计算的论文。在深度学习中,大部分计算都可以归一化为矩阵运算(这也是GPU用于深度学习的原理),实际应用中的矩阵可以使用SVD分解为若干个特征矩阵的乘积。使用SVD分解后,可以使用光学设备(移相器、分束器、衰减器和Mach-Zehnder干涉仪)实现两个矩阵的相乘。更重要的是,两个矩阵相乘的过程可以转化为两束光的干涉,所以深度学习的计算可以光速完成,理论功耗为零!本文提出的设计是先将两路输入调制到两束光上,然后让两束光在光子芯片的器件上完成SVD分解和干涉倍增,最后转换成将光信号转换成数字信号并读出结果。最后,这些光学器件都可以集成在同一个硅光子芯片上,实现高性能的光计算模块。麻省理工学院的光学模块用于计算深度学习。如前所述,一旦利用光干涉实现深度学习计算,其计算速度就变成了光速。此外,矩阵计算的功耗变为0。因此,一旦光可以用于调制、光信号读出等光信号处理和接口模块的性能和功耗,则可以提高光的性能和能效比。可以快速改进整个系统。MIT光计算团队孵化的初创公司Lightelligence,已完成A轮融资。让我们拭目以待,光电子对深度学习的前景。内存计算传统的AI加速器几乎都是基于冯诺依曼架构,即内存访问和计算分离。冯诺依曼架构的问题是内存访问,因为内存访问的功耗和延迟很难降低,所以内存成为了处理器性能和功耗的瓶颈,也就是所谓的“内存墙”。为了解决内存墙问题,许多学者提出了内存计算的概念。这个概念在今年的ISSCC上有专场,可见学术界还是认可这个方向的。最新研究属于麻省理工学院AnanthaChandrakasan小组。AnanthaChandrakasan在芯片领域享有盛誉。她是经典数字电路教材《Digital Integrated Circuits: A Design Perspective》的作者之一。她还是低功耗数字电路设计、UWB系统等多个领域的先驱。有一篇论文发表。Chandrakasan小组今年在ISSCC发表的内存计算论文针对的是权重压缩到1-bit的神经网络。当权重只有1-bit时,卷积可以减少到多个数据的平均,而这个平均可以很容易地使用经典DAC中常用的电荷平均法来实现。所以,内存计算的论文本质上是在片上SRAM上接一个类似于DAC中电荷平均的电路,直接在内存中进行模拟计算来计算卷积,这样就不用花很多钱了处理器和内存之间的时间。移动数据的时间和精力。可以使用ADC将计算结果再次转换为数字信号。与传统数字电路AI加速器相比,采用内存计算加模拟计算的电路可将能效比提高60倍以上,潜力巨大。当然,该电路只能用于1位权重的网络。未来内存计算如何扩展到更多的应用场景,让我们拭目以待。量子计算量子计算是一种真正改变游戏规则的范式——当然,前提是可以先建造一台量子计算机!量子计算与经典计算最大的区别在于,量子计算使用的是量子态。不同的量子态可以相互线性叠加,因此一个量子比特在测量前可以同时处于多个态的叠加。量子计算可以同时对多个叠加态进行运算,因此相当于进行了大量的并行计算。量子计算仍处于非常早期的研究阶段。目前,只有少数量子算法可以利用量子特性实现指数加速。所谓“量子霸权”,是指某种算法可以制造出相应的量子计算机,其运行速度比经典计算机还快。.那么,量子计算如何加速人工智能?首先,目前正在积极研究量子版本的线性代数算法,有望实现指数级加速,而AI算法中很多计算的基础都是线性代数,所以一旦量子版本的线性代数算法开发完成后,可以大大加速人工智能计算。此外,以D-Wave为代表的量子退火算法有望加速优化问题,而人工智能训练中最重要的问题之一实际上就是寻求最优解。因此,量子计算有望加速人工智能。谷歌和UCSB联合开发的20量子位芯片目前有很多量子计算芯片的实现,包括工作在超低温下的离子阱和超导电路,以及工作在常温下的非线性光学器件。应该说,这些芯片还处于非常早期的阶段。虽然有些芯片可以实现很多量子比特,但量子退相干时间和量子门保真度仍然是性能瓶颈。量子计算的实用化还有很长的路要走,但一旦成功,将成为一种颠覆性的发展,这也是谷歌、IBM、微软等巨头都在积极布局量子计算的原因。结论本文介绍了一些新的人工智能芯片技术,包括神经形态、光电计算、内存计算和量子计算。传统的基于冯·诺依曼架构的人工智能加速器芯片存在内存墙等各种局限性。我们期待在几年内看到这些新技术正式登场并得到广泛应用。让我们拭目以待!