近两年,为满足机器学习,尤其是深度神经网络的需求,掀起了创新研究的热潮架构。我们在《The Next Platform》中报告了训练和推理方面的许多架构选项,因此,我们开始注意到一个有趣的趋势。许多为机器学习市场定制ASIC的公司似乎都在沿着同样的路线发展——内存是处理的核心。Processing-in-memory(PIM)架构其实并不是什么新鲜事物,但是内存正在成为未来的下一个平台,因为内存中相对简单的逻辑单元很好地迎合了神经网络(尤其是卷积网络)的训练需求。我们介绍了很多公司的深度学习芯片,比如NervanaSystems(2016年被Intel收购)和WaveComputing,还有其他有望碾压benchmark的新架构比如AlexNet。内存是其性能和效率的关键驱动因素。今天,我们还向这个内存驱动的深度学习架构家族介绍了一个新成员。那就是Neurostream,它由博洛尼亚大学提出,在某些方面类似于Nervana、Wave和其他使用下一代存储器(例如混合存储器立方体(HMC)和高带宽存储器(HBM))的深度学习架构。此外,该架构还提供了一种新的思维方式,以进一步了解我们刚刚提到的公司如何设计深度学习架构。在过去的介绍中,我们从Nervana、Wave等发布的架构中提取了一些设计细节,而该架构的设计团队为我们带来了更多关于内存驱动设备为何会成为未来深度学习定制硬件主流的信息更深入的见解。“虽然卷积神经网络是计算密集型算法,但其可扩展性和能量效率受到主存的极大限制,而且这些网络中的参数和通道都比较大,因此需要存储在主存中。基于以上原因,它在不考虑主存瓶颈的情况下提高卷积网络加速器的性能和效率将是一个错误的设计决策。”Neurostream使用其内存处理方法来扩展卷积神经网络。该设计使用了他们称为“智能内存立方体”的混合内存立方体的变体。“SmartMemoryCubes”增强了名为NeuroCluster的多核PIM平台。NeuroCluster使用基于NeuroStream浮点协处理器(用于卷积密集型计算)和通用处理器RISC-V的模块化设计。他们还提到了一种易于DRAM排列的机制和可扩展的编程环境。这种架构最吸引人的方面是它实现了240GFLOPS的性能,HMC仅占芯片面积的8%,而其总功耗仅为2.5瓦。“该平台能够以较小的系统功耗将卷积神经网络计算任务完全卸载到内存库。这意味着可以释放主SoC中的计算逻辑来做其他事情。并且,与基本的HMC系统相比,额外的开销可以忽略不计。”设计团队正在宣传其Neurostream架构的每瓦性能数据。“在单个三维堆叠封装中,我们实现了每瓦22.5GFLOPS(每秒22.5G浮点计算)的计算能效,这是目前可用的最新GPU性能的5倍以上。”他们还提到,系统级的小功率增加和可忽略不计的面积增加使该PIM系统成为具有成本效益和能效的解决方案,可以轻松扩展到955通过4个SMC的网络。GFLOPS。”他们用于比较的GPU是NvidiaTeslaK40,它在235瓦时可以达到1092GFLOPS的处理速度。“Neuro阵列可以在42.8瓦时达到955GFLOPS,并且在能效方面比竞争对手高出4.8倍,”团队还评论说,由于减少了对串行链路的需求,该架构还可以扩展到更多节点。Neurostream的创建者希望通过进行一些面向应用的调整和降低算术计算的精度来进一步提高其能效比较.正如他们强调的那样,“降低计算精度有望降低高达70%的功耗。”在他们的下一次改进中,他们将专注于在硅中实现具有四个NeuroClusters的架构,这将使它能够监控它如何反向传播和自我训练。我们已经展示了许多协处理器、ASIC、GPU和带有additi的x86处理器的性能和效率基准分数深度学习框架的软件优化。虽然我们对这些持保留态度并尽可能多地进行比较,但时间最终会证明哪种架构胜出。这里我想谈的不是基准分数,而是架构本身。与Nervana、Wave和其他产品一样,Neuro阵列充分利用了HMC和HBM——内存处理能力有限,而且其结果几乎可以很好地处理卷积神经网络计算。不仅如此,深入了解此类架构可以帮助我们更好地评估我们提到的机器学习芯片初创公司在做什么。我们预计2017年将通过初创公司和学术研究的共同努力,在深度学习框架领域引发许多内存驱动处理器的设计。
