基于多个忆阻器阵列的内存计算集成系统在处理卷积神经网络时,能效比图形处理器芯片高两个数量级。很多童鞋可能不知道什么是忆阻器?在开始今天的话题之前,雷锋网小编先给大家普及一下什么是忆阻器。所谓忆阻器,全称记忆电阻器(Memristor),是继电阻、电容、电感之后的第四种基本电路元件。它表示磁通量与电荷之间的关系。电流量的变化,即使电流停止,它的阻值还是会停留在之前的值,直到接收到反向电流才会被推回去,相当于说它可以“记住”之前的值电流量。简而言之,忆阻器在断电后仍然可以“记住”通过的电荷。这一特性与突触的相似性使其具有获得自主学习功能的潜力。潜在的。因此,基于忆阻器的神经形态计算系统可以为神经网络训练提供快速和节能的方法,然而,作为图像识别模型之一的卷积神经网络尚未完全利用忆阻器交叉阵列进行硬件实现。不过,近日,雷锋网获悉,未来芯片技术高精尖创新中心清华大学微电子研究所钱禾教授、吴华强教授团队及其合作者在网上发表了题为《Fullyhardware-implementedmemristor卷积神经网络”研究论文,报告了基于忆阻器阵列芯片的卷积网络的完整硬件实现。他们提出用高能效、高性能的均匀忆阻器交叉阵列来实现CNN。本实现共集成了8个PE,每个PE包含一个2048个单元的忆阻器阵列,以提高并行计算效率。此外,研究人员还提出了一种高效的混合训练方法,以适应设备缺陷并提高整体系统性能。研究人员构建了一个基于忆阻器的五层CNN来执行MNIST图像识别任务,识别准确率超过96%。除了使用不同的内核对共享输入执行并行卷积之外,忆阻器阵列还复制多个相同的内核以并行处理不同的输入。基于忆阻器的CNN神经形态系统的能效比当前最先进的图形处理单元(GPU)高一个数量级,并且通过实验证明可以扩展到大型网络,例如残差神经网络。结果可能会导致基于忆阻器的非冯诺依曼硬件解决方案用于深度神经网络和边缘计算,在处理卷积神经网络(CNN)时能效比GPU芯片(GPU)高两个数量级,大大提高计算设备的计算能力,以更少的功耗和更低的硬件成本成功完成复杂的计算。1、第一个完全基于忆阻器的CNN硬件实现据介绍,目前国际上对忆阻器的研究还局限于简单网络结构的验证,或基于少量器件数据的仿真。基于忆阻器阵列的完整硬件实现仍然面临许多挑战。比如在设备方面,需要准备高度一致可靠的阵列;在系统方面,忆阻器由于其工作原理(如器件间波动、器件电导卡住、电导状态漂移等)存在固有缺陷,会导致计算精度降低。;在架构上,忆阻器阵列的卷积函数需要以串行滑动的方式对多个输入块进行连续采样和计算,无法匹配全连接结构的计算效率。在这些研究成果的基础上,何谦和吴华强团队逐步优化材料和器件结构,制备出高性能忆阻器阵列。在设备端,该研究成功地为MNIST手写数字图像识别任务实现了完整的五层mCNN。优化的材料堆叠可在2048个单晶体管单忆阻器(1T1R)阵列中实现可靠且统一的模拟开关行为。采用本研究提出的混合训练机制后,实验在整个测试集上的识别准确率达到96.19%。mCNN使用混合训练方法此外,该研究在三个并行忆阻器卷积中复制了卷积核,从而将mCNN的延迟降低了约2/3。本研究中获得的高度集成的神经形态系统弥合了基于忆阻器的卷积运算与全连接VMM之间的吞吐量差距,从而为大幅提高CNN的效率提供了可行的解决方案。在架构上,以前基于忆阻器的演示依赖于单个阵列,这主要是由于生成高度可重复阵列的挑战。忆阻器器件的可变性和不完善性被认为是神经形态计算应用的主要瓶颈。该研究提出了一种基于忆阻器的灵活计算架构,适用于神经网络。内存计算集成系统架构忆阻器单元采用TiN/TaO_x/HfO_x/TiN材料叠层,通过调制电场和热量,在增强(SET)和抑制(RESET)条件下表现出连续的电导率调谐能力。材料和制造工艺兼容传统CMOS工艺,使忆阻器阵列可以轻松嵌入晶圆后道工艺,减少工艺变更,实现高重现性。生成的交叉开关在相同的编程条件下具有统一的模拟开关行为。因此,基于定制印刷电路板(PCB)和FPGA评估板(ZC706,Xilinx)构建了多忆阻器阵列硬件系统。在系统方面,该系统主要由八个基于忆阻器的处理单元(PE)组成。每个PE都集成了一个由2048个单元组成的忆阻器阵列。每个忆阻器都连接到晶体管的漏极端子,即1T1R配置。核心PCB子系统具有八个忆阻器阵列芯片,每个具有128×161T1R单元。水平方向有128条平行字线和128条源极线,垂直方向有16条位线。基于忆阻器的硬件系统具有可靠的多级导电状态。该阵列展示了高度可重复的多级电导态,成功证明了内存计算集成架构的全硬件实现的可行性。2.有什么优势?众所周知,CNN是最重要的深度神经网络之一,在图像识别、图像分割、目标检测等图像处理相关任务中发挥着关键作用。CNN的典型计算步骤需要大量滑动卷积运算。从这个角度来看,CNN需要支持并行乘法累加运算(MAC)的计算单元。这需要重新设计传统的计算系统,包括通用应用平台(如GPU)、专用加速器等,以运行更高性能和更低能耗的CNN。然而,计算效率的进一步提高最终受到系统的冯诺依曼架构的限制,在该架构中,内存和处理单元在物理上是分离的,导致不同单元之间数据移动的大量能量消耗和高延迟。相比之下,基于忆阻器的神经形态计算可以提供非冯诺依曼计算范式,即存储数据,从而消除数据迁移的费用。忆阻器阵列直接使用欧姆定律进行加法运算,使用基尔霍夫定律进行乘法运算,从而实现并行内存MAC运算,模拟内存计算),实现速度和能效的大幅提升,减少错误。
