当前位置: 首页 > 科技观察

具有生物启发训练方法的物理深度学习:物理硬件的无梯度方法

时间:2023-03-14 12:53:29 科技观察

对人工智能不断增长的需求推动了对基于物理设备的非常规计算的研究。虽然此类计算设备模仿大脑启发的模拟信息处理,但学习过程仍然依赖于为数字处理优化的方法,例如反向传播,这不适合物理实现。在这里,来自日本NTT设备技术实验室(NTTDeviceTechnologyLabs)和东京大学的研究团队通过扩展一种名为直接反馈对齐(DFA)的受生物学启发的训练算法,展示了物理学中的深度学习。与原始算法不同,所提出的方法基于具有替代非线性激活的随机投影。因此,可以在不知道物理系统及其梯度的情况下训练物理神经网络。此外,这种训练的计算可以在可扩展的物理硬件上进行模拟。研究人员使用称为深水库计算机的光递归神经网络展示了概念验证。确认了在基准测试中具有竞争性能的加速计算的潜力。这些发现为训练和加速神经形态计算提供了实用的解决方案。该研究题为“Physicaldeeplearningwithbiologicallyinspiredtrainingmethod:gradient-freeapproachforphysicalhardware”,该研究于2022年12月26日发表于《Nature Communications》。基于物理深度学习人工神经网络(ANN)的机器学习已成功展示它在图像处理、语音识别、游戏等方面具有破纪录的卓越性能。尽管这些算法类似于人脑的工作方式,但它们本质上是使用传统的冯诺依曼计算硬件在软件层面实现的。然而,这种基于数字计算的人工神经网络在能耗和处理速度方面面临着问题。这些问题促使人们使用替代物理平台来实施人工神经网络。有趣的是,即使是被动物理动力学也可以用作随机连接的ANN中的计算资源。被称为物理储层计算机(RC)或极限学习机(ELM),该框架的易于实施极大地扩展了可实现材料的选择及其应用范围。这种物理实现的神经网络(PNN)能够将特定任务的计算负载外包给物理系统。构建更深层次的物理网络是进一步提高性能的一个有前途的方向,因为它们可以成倍地扩展网络表达能力。这激发了使用各种物理平台的深度PNN的提议。他们的训练基本上依赖于一种称为反向传播(BP)的方法,该方法在基于软件的人工神经网络中取得了巨大成功。但是,BP在以下几个方面不适用于PNN。首先,BP操作的物理实现仍然很复杂且不可扩展。其次,BP需要对整个物理系统有一个准确的认识。此外,当我们将BP应用于RC时,这些要求破坏了物理RC的独特属性,我们需要准确理解和模拟黑盒物理随机网络。与PNN中的BP一样,BP在生物神经网络中的难点也被脑科学界指出;BP在大脑中的合理性受到质疑。这些考虑推动了生物学上合理的训练算法的发展。最近一个有前途的方向是直接反馈对齐(DFA)。在该算法中,使用最终输出层误差信号的固定随机线性变换来代替逆误差信号。因此,该方法不需要了解误差信号或权重的逐层传播。此外,据报道,DFA可扩展到现代大型网络模型。这种以生物学为动机的训练的成功表明,有一种比BP更适合训练PNN的方法。然而,DFA仍然需要非线性函数f(x)的导数f'(a)进行训练,这阻碍了DFA方法在物理系统中的应用。因此,更大范围的DFA扩展对于PNN应用很重要。DFA及其对物理学深度学习的增强在这里,研究人员通过增强DFA算法展示了物理学中的深度学习。在增强DFA中,标准DFA中物理非线性激活函数f'(a)的微分被任意非线性g(a)代替,并且性能对g(a)的选择具有鲁棒性。由于此增强功能,不再需要对f'(a)进行精确建模。由于所提出的方法基于具有任意非线性激活的并行随机投影,因此可以按照与物理ELM或RC概念相同的方式在物理系统上执行训练计算。这使得推理和训练的物理加速成为可能。图:PNN的概念及其通过BP和AugmentedDFA进行的训练。(来源:论文)为了展示概念验证,研究人员构建了一个FPGA辅助的光电深度物理RC作为工作台。尽管简单,但benchtop可以应用于仅需要软件级更新的各种物理平台,但其性能可与大型复杂的最先进系统相媲美。图:具有增强型DFA训练的光电深度RC系统。(来源:论文)此外,比较了包括数字处理在内的整体处理时间,揭示了训练过程物理加速的可能性。图:光电深RC系统的性能。(来源:论文)RC工作台的处理时间预算细分如下:~92%用于FPGA处理(数据传输、内存分配和DAC/ADC);~8%用于预处理/后处理的数字处理。因此,现阶段处理时间主要由FPGA和CPU上的数值计算决定。这是因为光电平台仅使用一条非线性延迟线实现了单个储层;未来可以通过使用完全并行和全光计算硬件来放宽这些限制。可以看出,由于数据传输瓶颈,CPU和GPU上的计算显示节点数为O(N^2)的趋势,而benchtop显示为O(N)。对于BP和增强型DFA算法,CPU外部的物理加速度分别为N~5,000和~12,000。然而,就计算速度而言,由于GPU内存限制,尚未直接观察到GPU目标有效性。通过推断GPU趋势,可以观察到GPU的物理加速在N~80,000。据我们所知,这是整个训练过程的第一次比较,也是第一次使用PNN进行体能训练加速演示。为了研究所提出的方法对其他系统的适用性,使用广泛研究的光子神经网络进行数值模拟。此外,实验证明的基于延迟的RC被证明非常适合各种物理系统。关于物理系统的可扩展性,构建深度网络的主要问题是它们固有的噪声。通过数值模拟研究噪声的影响。发现该系统对噪声具有鲁棒性。所提出方法的可扩展性和局限性在这里,考虑了基于DFA的方法对更现代模型的可扩展性。深度连接深度学习最常用的模型之一是深度连接卷积神经网络(CNN)。然而,据报道,DFA算法很难应用于标准CNN。因此,所提出的方法可能难以以简单的方式应用于卷积PNN。对SNN的适用性也是考虑模拟硬件实现的一个重要主题。已经报道了基于DFA的训练对SNN的适用性,这意味着本研究中提出的增强型DFA可以使训练更容易。虽然基于DFA的算法有可能扩展到比简单的MLP或RC更实用的模型,但将基于DFA的训练应用于此类网络的有效性仍然未知。在此,作为本研究的一项额外工作,研究了基于DFA的训练(DFA本身和增强DFA)对上述模型(MLP-Mixer、Visiontransformer(ViT)、ResNet和SNN)的可扩展性。发现基于DFA的训练即使对于实际的探索模型也是有效的。尽管基于DFA的训练可达到的准确度远低于BP训练,但对模型和/或算法进行一些调整可以提高性能。值得注意的是,对于探索的所有实验设置,DFA和AugmentedDFA的准确性是相当的,这表明DFA本身的进一步改进将直接有助于改进AugmentedDFA。结果表明,该方法可扩展到PNN实用模型的未来实现,而不仅仅是简单的MLP或RC模型。表1:增强型DFA对真实网络模型的适用性。(Source:Paper)BPvs.DFAinPhysicalHardware一般来说,BP很难在物理硬件上实现,因为它需要计算图中所有的信息。因此,物理硬件的训练是通过计算模拟来完成的,这会产生巨大的计算成本。此外,模型与实际系统之间的差异会导致准确性下降。相反,增强型DFA不需要关于物理系统的准确先验知识。因此,在深度PNN中,基于DFA的方法在准确性方面比基于BP的方法更有效。此外,物理硬件可用于加速计算。此外,DFA训练不需要逐层计算顺序误差传播,这意味着每一层的训练都可以并行进行。因此,更优化和并行的DFA实施可能会带来更显着的加速。这些独特的特征证明了基于DFA的方法的有效性,特别是对于基于物理硬件的神经网络。另一方面,AugmentedDFA训练的模型的准确性仍然不如BP训练的模型。进一步提高基于DFA的训练的准确性仍然是未来的工作。进一步的物理加速物理实现演示了使用大节点数的RC循环处理的加速。然而,它的优势仍然有限,需要进一步改进。当前原型的处理时间表示为FPGA的数据传输和内存分配。因此,将所有流程集成到一个FPGA中将以牺牲实验灵活性为代价极大地提高性能。此外,未来,机载光学方法将大大降低传输成本。大规模光集成和片上集成将进一步提升光计算本身的性能。