反向传播技术是深度学习的核心,驱动AI在视觉、语音、自然语言处理、游戏、生物预测等诸多领域取得成功。反向传播的运行机制是反向计算预测误差对神经网络连接权值的梯度,通过微调每一层的权值来降低预测误差。尽管反向传播非常高效,是人工智能成功的关键,但相当多的研究人员并不认为反向传播的学习方式与大脑的工作方式一致。随着深度学习技术的发展,大家也逐渐看到了反向传播的一些弊端,比如过度依赖标签数据和计算能力,一系列对抗性的安全问题,以及只能针对特定任务等,解决了大家对发展的顾虑大模型。例如,反向传播的作者之一、深度学习的先驱Hinton就曾多次表示,“要想取得实质性的进步,就必须放弃反向传播,从头开始[2]”,“我目前的信念是那个反向传播,也就是现在深度学习的工作方式和大脑做的完全不一样,大脑获取梯度的方式不同[3]”,“我相信大脑使用了很多局部小的目标函数,它不是一个端到端的端到端系统链,通过训练优化目标函数[3]”。同样是图灵奖获得者的LeCun表示,“目前的深度学习模型可能是未来智能系统不可或缺的一部分,但我认为它缺少必要的部分。我认为它们是必要的,但还不够[4]”.他的老对手、纽约大学教授加里·马库斯表示,同样的内容之前也说过,“如果我们要实现通用人工智能,深度学习必须辅以其他技术[4]”。1如何借助大脑的灵感从零开始?人工智能技术的发展无疑离不开理解大脑对我们的启发。虽然我们还远未完全了解大脑的工作机制——核心是如何根据外部信息调整神经元之间的连接权重,但我们仍然可以对大脑有一些初步的认知,这可以启发我们设计新的模型.首先,大脑的学习过程与赫布法则有着千丝万缕的联系,即同时激活的神经元之间的连接权重会加强,这可以说是神经科学最重要的基本法则。已被大量生物学实验所证实。其次,大脑中的学习主要基于无监督学习,可以从少量样本中获得丰富的局部表示和表示之间的关联,反馈信号在学习过程中也起着重要作用。此外,大脑是一个支持一般任务的学习系统。大脑学习到的特征应该是和特定的任务相对对立的。一个合理的目标是大脑可以学习各种输入信号的统计分布和不同内容之间的关系。之间的联系。近日,山东大学研究员周洪超在arXiv投稿《ActivationLearningbyLocalCompetitions》,提出了一种类脑AI模型,称为激活学习。其核心是构建多层神经网络,使网络输出的激活强度能够反映输入的相对概率。该模型完全摒弃了反向传播方法,而是从改进基本的赫布法则(一种更接近大脑的方法)入手,建立了一套新的神经网络训练和推理方法。它用于小样本学习实验。它可以取得比反向传播明显更好的性能,也可以作为图片的生成模型。这项工作表明,受生物学启发的学习方法的潜力可能被大大低估了。论文链接:https://arxiv.org/pdf/2209.13400.pdf2LearningrulesforlocalcompetitionHebblearning在反向传播出现之前一直是神经网络学习研究的核心方向,激发了一系列关于学习的工作系统,但最终并没有成为广泛使用的方法。一个可能的原因是人们没有完全理解赫布规则中的一些机制,特别是神经元之间的竞争机制,而竞争在神经网络特征学习和权重调整过程中起着非常重要的作用。一个直观的理解是,如果每个神经元都尽力去竞争激活,同时有某种抑制使得不同神经元表征的特征尽可能不同,那么神经网络将倾向于通过最对下一层有用的信息(是不是很像社会经济学?当一个大的社会群体中的每个个体都最大化自己的收入,并且群体足够大时,整个群体的总收入在一定的规律下趋于最大化。这时候每个人的行为不同)。事实上,大脑中存在着大量的抑制性神经元,神经元之间的竞争和抑制在大脑的学习过程中起着重要的作用。反向传播(认知科学领域的最高奖项是Rumelhart奖)的第一作者Rumelhart是这一思想的推动者。他还与反向传播(1985)同时提出了一种称为竞争学习(CompetitiveLearning)的方法。[5]的模型,其核心是将每一层的神经元分成若干个簇,只有每个簇中最强的神经元才会被激活(称为赢者通吃)并通过赫布法则进行训练。但相比之下,反向传播在实际应用中表现出了更好的网络训练效率,此后引起了大多数人工智能研究者的关注,推动了深度学习的出现和成功。然而,一些研究人员仍然相信受生物学启发的学习方法的潜力。2019年,Krotov和Hopfield(是的,Hopfield网络的创建者)表明,赢家通吃规则结合Hebb学习可能达到与反向传播相同的水平。性能与[6]相当。但赢者通吃的规则,即只允许激活一个神经元,也在一定程度上限制了神经网络的学习和表达能力。这篇论文的研究者直接将竞争机制引入到赫布学习规则中,得到了一个简洁的局部学习规则:这里,假设神经元i是其上一层神经元j的输入,并且是神经元j的输入i和神经元j。连接权重是权重在某个训练样本下的调整量。它是神经元i的输出和神经元j的输入。它是神经元j的总加权输入(或神经元j的输出)。它是一个相对较小的学习率,遍历与神经元j同层的所有神经元。如果只考虑,它是最原始的赫布规则。这里的一个关键是引入一个来自同一层的输出反馈项。它有两个作用:第一个是保证所有的权重不会无限增加,学习过程是收敛的;二是引入神经元j与本层其他神经元之间的竞争,以提高特征表达。多样性。对上述局部学习规则进行数学分析(假设学习率足够小,学习步数足够大),可以得到一些有趣的结论。(1)给定每一层,可以重构输入,使得重构误差尽可能小。这种逐层重建的能力可以提高模型对抗对抗性攻击的安全性,防止在某些物体图片中加入对抗性噪声而被识别为其他物体。(2)基于局部学习规则的各层特征提取与主成分分析(PCA)类似,它们的重构损失相同,但与PCA不同的是,局部学习规则得到的各个成分是不同的。正交是必需的。这是一件很合理的事情,因为主成分分析是提取每一层的主要信息,但是如果最重要的成分对应的神经元失效,就会影响整个网络的性能,而局部学习规则解决了这个问题鲁棒性。性问题。(3)各层连接权值的平方和趋于不超过本层神经元个数,保证了网络学习过程的收敛性。(4)每层的输出强度(输出的平方和)往往不会高于该层的输入强度(输入的平方和),输出强度一般会更高对于近似典型的输入,因此可以通过输出强度来近似比较输入的概率。这个结论对于要提出的激活学习模型来说是非常关键的一点。3激活学习基于上述局部学习规则,可以自下而上逐层训练多层神经网络,实现自动无监督特征提取。训练好的网络可以作为识别、翻译等各种监督学习任务的预训练模型,提高学习任务的准确率。这里,各种监督学习任务仍然是基于反向传播模型训练,微调无监督预训练模型。但更有趣的是,基于上述局部学习规则,可以构造出一种完全不使用反向传播的新AI模型,称为激活学习(ActivationLearning),其核心是让整个网络输出强度(输出的平方和)可以估计输入样本的相对概率,即对于更频繁出现的输入样本,输出强度通常会更强。在激活学习中,输入样本在归一化后被送入多层神经网络。每层都包含可以通过本地学习规则进行训练的线性变换。每层的非线性激活函数需要保证输入强度(平方和)和输出强度恒定。例如,可以使用绝对值函数作为激活函数,使得网络的输出强度在经过激活函数时不会衰减或增加,最后整个网络的输出强度可以反映输入样本的相对概率。如果在局部学习规则中加入一个非线性激活函数,即第j个神经元的输出,该激活函数不要求输入输出强度恒定,可以使用RELU等其他非线性函数作为激活函数.激活学习的推理过程是根据输入的已知部分推导出缺失的部分,从而使网络最终的输出强度最大。例如,激活学习网络可以将数据和标签(例如one-hot编码)作为输入。这样一个经过训练的网络,当给定一个数据和正确的标签输入时,它的输出激活强度通常高于这个数据和错误标签的输出激活强度。这样的激活学习模型既可以用作判别模型,也可以用作生成模型。当用作判别模型(discriminativemodel)时,它从给定的数据中推断出缺失的类别;当用作生成模型(generativemodel)时,它从给定的类别结合一定??随机性的缺失数据进行推断。此外,实验发现,如果引入识别反馈信息,比如对错误识别的样本给予更高的全局学习率,则可以提高判别模型的学习效果。4小样本分类和图像生成在MNIST数据集(黑白手写数字图像)上的实验表明,如果训练样本足够多,反向传播的准确率要高于激活学习的准确率。例如,在60000个训练样本的情况下,基于类似复杂度的神经网络,反向传播可以达到1.62%左右的错误率,而激活学习只能达到3.37%左右的错误率(如果将识别结果引入激活学习,错误率可降至2.28%)。但是随着训练样本的减少,激活学习可以表现出更好的性能。例如在6000个训练样本的情况下,激活学习的错误率已经低于反向传播;在600个训练样本的情况下,反向传播的识别错误率高达25.5%,而激活学习的错误率仅为9.74%,也明显低于结合无监督预训练的方法训练好的模型(错误率约为20.3%)。为了探索少样本激活学习的性能,我们继续将样本数量减少到几个样本。这时候激活学习还是表现出了一定的识别能力。当每个类别有2个样本时,识别准确率达到60.2%;当每个类别有10个样本时,识别准确率可达85.0%。一个值得注意的现象是,当每个类至少有2个样本时,在整个训练过程中测试准确率没有下降。这与许多基于反向传播的模型不同。从一个方面来说,它反映了激活学习可能具有更好的泛化能力。给定一个经过训练的激活学习网络,尝试在待识别图像中加入一些噪声。如下图,覆盖图片一定比例的像素或者添加一些随机线条。模型在训练过程中并没有遇到这些扰乱的图片,但是激活学习还是表现出了一定的识别能力。比如当图片被1/3(下部)覆盖时,激活学习可以达到7.5%左右的识别错误率。同样经过训练的激活学习网络也可以用于图像生成。给定一个类别,可以通过梯度下降或迭代的方法得到局部最优的生成图像,使得整个网络的输出激活强度最大。在图像生成过程中,可以根据随机噪声控制部分神经元的输出,从而提高生成图像的随机性。下图是基于激活学习网络随机生成的图片。在大脑的视觉感知层,神经元的感受野是有限的,即神经元只能在一定的空间范围内接收来自其他神经元的输入。这启发了卷积神经网络(CNN)的提出,它被广泛应用于大量的视觉任务。卷积层的工作机制与人类视觉系统还是有很大区别的。一个本质的区别是卷积层是参数共享的,即权重参数在每个二维位置都是相同的,但是很难想象人类视觉系统中会有这样的参数共享。以下实验基于CIFAR-10数据集(10种物体的彩色图片)研究局部连接对激活学习的影响。这里实验中的神经网络由两层组成。第一层为局部连接层,与卷积核大小为9的卷积层具有相同的连接结构,但每个位置都有自己的权重参数;第二层是全连接层,每层的节点数与输入图像的维度相同。实验表明局部连接可以使学习过程更加稳定,在一定程度上可以提高学习性能。基于这个两层神经网络结合识别结果的反馈,激活学习在CIFAR-10上可以达到41.59%的错误率。Krotov和Hopfield建立了先前的生物启发模型基准,报告的错误率为49.25%。他们使用双层神经网络,第一层包含2000个节点,并通过受生物学启发的方法进行无监督训练,第二层输出层通过反向传播进行监督。作为对比,同样的网络如果完全通过反向传播训练可以达到44.74%的错误率,而激活学习完全不使用反向传播,效果更好。如果使用包括随机裁剪在内的数据增强,将第一层的节点数增加到,激活学习的识别错误率可以降低到37.52%。5通向一般任务为什么大多数深度学习模型只适用于特定任务?一个原因是我们人为地将样本分为数据和标签,将数据作为模型的输入,标签作为输出的监督信息,这使得模型更倾向于只保留对预测更有用的特征标签,同时忽略一些对其他任务有用的特征。激活学习以所有可见信息为输入,可以学习到训练样本的概率和统计分布以及各部分之间的关??系。这些信息可以用于所有相关的学习任务,因此激活学习可以看作是一个通用的任务模型。.事实上,当我们人类看到一个物体,别人告诉我们它是什么时,我们很难定义大脑必须以声音信号作为输出标签,以视觉信号作为输入;至少这种学习应该是双向的,即当我们看到这个物体时,我们会思考它是什么,而当我们被赋予这是什么时,我们也会思考这个物体长什么样。激活学习也可以用于多模态学习。例如,当给定的训练样本包含图片和文本模态时,它可能会在图片和文本之间建立关联;当给定的训练样本包含文本和声音模态时,它可能会在文本和声音之间建立关联。激活学习有可能成为一种联想记忆模型,它在各种相关内容和查询之间建立关联,或者通过传播激活相关内容。人们普遍认为,这种联想记忆能力在人类智力中起着非常重要的作用。但是,这里也需要解决本地输入数据训练的问题和灾难性遗忘的问题。除了作为一种新的人工智能模型,激活学习的研究还有其他的价值。例如,更容易支持光神经网络、忆阻器神经网络等基于物理实现的神经网络系统的片上训练,避免因基础物理元器件精度或精度下降导致整个系统的计算精度下降。编程噪音。也可能与生物实验相结合,启发我们更好地理解大脑的工作机制,比如局部训练规律是否存在一定的生物学解释。周洪超研究员说:“我相信大多数复杂的系统都是由简单的数学规则支配的,而大脑就是这样一个奇妙的系统;最终我们的目标是设计出更智能的机器。”
