世界上最先进的神经网络模型是什么?那绝对是人脑。人脑中有860亿个神经元,相互结合形成的神经网络不仅在性能上超越了人工神经网络,而且消耗的能量也少得惊人。当前的人工智能系统试图通过创建多层神经网络来模仿人脑,旨在将尽可能多的神经元塞入尽可能小的空间。虽然这种方法取得了性能提升,但这样的设计不仅需要大量的电力,而且输出的结果与人脑相比相形见绌。据估算,OpenAI在微软数据中心使用NvidiaGPU训练神经网络GPT-3时,需要约19万度电,相当于丹麦126户家庭每年的用电量。如果换算成化石燃料产生的二氧化碳含量,相当于开着汽车从地球到月球往返。神经网络的数量以及用庞大的数据集训练它们所需的硬件数量也在不断增长。以GPT为例,GPT-3中已经有1750亿个参数,是前身GPT-2的100倍。这种“越大越好”的神经网络设计显然不符合可持续的科学发展观。柏林工业大学的一个多学科研究团队最近创建了一种新型神经“网络”。但是称它为网络还是比较勉强的,因为它又新又新,只有一个神经元!研究人员提出了一种新方法,能够将任意大小的深度神经网络折叠成具有多个延时反馈的单个神经元回路。这种单神经元深度神经网络仅包含一个非线性且经过适当调整的反馈信号,可以充分代表标准深度神经网络(DNN),包括稀疏DNN,以及将DNN概念扩展到动力系统的实现。这种新模型,也称为Folded-in-timeFit-DNN,在基准测试任务上也表现出相当强的性能。一棵树能造就一片森林吗?传统的神经网络需要申请多个节点在空间上相互连接,而单个神经元模型在时间维度上是弥散连接的。研究人员为多层前馈DNN设计了一种完全时间折叠的方法,该方法只需要一个具有反馈调节延迟回路的神经元。任意深度或宽度的DNN可以通过时序非线性操作来实现。在传统的神经网络中,比如GPT-3,每个神经元都有一个权重值来微调结果。但是这种方法的结果通常是更多的神经元,产生更多的参数,只有更多的参数才能产生更准确的结果。但柏林技术大学的团队发现,他们可以通过在不同时间对同一神经元进行不同加权来实现类似的功能,而不是在空间上分散不同加权的神经元。这就好比在宴会上,你可以快速调换座位,假装不同的客人说不同的部分来模拟餐桌上的对话。听起来有点“人格分裂”,但通过这种时间上的扩展,一个人(神经元)也可以完成多人可以完成的事情。刚刚提到“快速”切换,柏林队表示这个说法已经很低调了。事实上,他们的系统使用激光激活神经元中基于时间的反馈回路,理论上可以达到接近宇宙极限的速度——即神经网络以光速或接近光速切换。据研究人员称,这对于人工智能来说意味着可以显着降低训练超大型神经网络的能源成本。为了实现上述想法,研究人员假设系统状态根据微分方程的一般形式在连续时间内演化。这里x(t)表示神经元在时间t的状态;f是一个非线性函数,其参数a(t)结合了数据信号J(t)、时变偏置b(t)和函数Md(t)调制延迟反馈信号x(t-τd)。可以明确考虑具有不同延迟长度τd的多个循环。由于存在反馈回路,系统成为所谓的延迟动力学系统。直观上,Fit-DNN中的反馈回路导致神经元重新引入已经通过非线性f的信息,这允许非线性f被多次链接。经典DNN通过逐层使用神经元来组成它们的可训练表示,而Fit-DNN通过向同一神经元重复引入反馈信号来实现相同的目的。在每次传递中,时变偏置b(t)和延迟线上的调制Md(t)确保系统的时间演化以所需方式处理信息。为了获得数据信号J(t)和输出y,这两个变量都需要进行适当的预处理或后处理操作。为了进一步说明Fit-DNN在功能上等同于多层神经网络,可以看出Fit-DNN可以将具有多个延迟循环的单个神经元的动力学转化为DNN。x(t)的时间演化可以分为长度为T的区间,每个区间模拟一个隐藏层。在每个间隔中,选择N个点。使用具有小时间间隔θ的等距时间网格。对于有N个节点的隐藏层,θ=T/N。在每个时间网格点tn=nθ,将系统状态x(tn)作为自变量。每次网格点tn将代表一个节点,而x(tn)代表其状态。还可以假设数据信号J(t)、偏置b(t)和调制信号Md(t)是步长为θ的阶跃函数。作为一个非常稀疏的网络,研究人员首先将Fit-DNN应用于图像去噪任务:将方差为1的高斯噪声添加到Fashion-MNIST数据集的图像中,并将其视为值为0(白色)的一个向量介于和1(黑色)之间。然后将生成的向量条目在阈值0和1处截断以获得噪声灰度图像。去噪的任务是从噪声版本重建原始图像。实验结果比较了原始Fashion-MNIST图像的示例、它们的噪声版本和重建图像。可见恢复效果还是相当不错的。但Fit-DNN的真正问题是随时间循环的单个神经元能否产生与数十亿个神经元相同的结果。为了展示Fit-DNN和时间状态的计算能力,研究人员选择了五个图像分类任务:MNIST40、Fashion-MNIST41、CIFAR-10、CIFAR-100和SVHN。实验对比了Fit-DNN在每个隐藏层的节点数分别为N=50、100、200和400时在上述任务中的表现。从结果可以看出,单个神经元在相对较高的精度上取得了较高的准确率。简单的MNIST和Fashion-MNIST任务。但对于更具挑战性的CIFAR-10、CIFAR-100和SVHN任务,准确率较低。虽然这些结果显然无法与最先进的SOTA模型创下的性能记录相提并论,但它们是在一种新颖且完全不同的架构上实现的。特别是,此处Fit-DNN仅使用权重矩阵可用对角线的一半。对于测试任务,增加N显然会提高性能。随着进一步的发展,科学家们相信该系统可以扩展到时间维度上“无限数量”的神经元连接。他们说,这样的系统是可行的,它可以超越人脑,成为世界上最强大的神经网络,也就是人工智能专家所说的“超级智能”。
