“如果我们能够揭示大脑的一些学习机制或学习方法,那么人工智能将迎来进一步的发展,”Bengio说。深度学习依赖于巧妙设计的算法。一行行巧妙的公式让冰冷的计算机能够学习只有人脑才能执行的任务。虽然深度学习算法的灵感来自人脑的结构单元和学习机制,但这种简单的“模拟”实际上并不是人脑实际运作的方式。在最新的研究进展中,科学家正在破茧而出,利用人工神经网络的算法机制,揭示人脑的工作方式。时间回到14年前,2007年,当时神经网络和深度学习还是一个冷门领域。一群深度学习的先驱研究人员在一次人工智能学术会议后秘密会面,召开了一场“非法”的学术研讨会。之所以被称为“非法”,是因为主会场不允许他们举办正式的神经网络相关研讨会。毕竟当时神经网络还是一个异类的小众群体,支持向量机、随机森林等传统的机器学习算法还只是其一。也就是所谓的“主流正道”。在本次非正式研讨会的最后,来自多伦多大学的GeoffreyHinton教授做了总结发言。那时,欣顿还没有今天这样出名和知名度。那时,他还是一名认知心理学家和计算科学家,在深度学习网络的研究泥潭中挣扎。在演讲开始时,他幽默地说:“大约一年前,当我回家吃晚饭时,我说,‘我想我终于弄清楚大脑是如何工作的了!’,然后我15岁了。我的女儿无奈地撅着嘴嘲笑我,“爸爸,你又来了,我们别这样了,好吗?”全场大笑,Hinton接着说,“原来如此,大脑就是这样工作的。”这次成功复出的故事又让大家捧腹大笑,Hinton笑话的背后是神经网络领域一直苦苦挣扎的话题:用人工智能理解人脑。是当之无愧的新时代浪潮,其背后最大的功臣之一就是著名的反向传播算法Backpropagation,有时人们也简称为Backprop算法。该算法允许深度学习网络的权重根据学习目标和输入的数据来学习知识,并赋予算法各种能力,如图像分类、语音识别、自然语言翻译、自动驾驶中的路况识别、或其他人。更神秘的能力。多伦多大学的认知心理学家和计算科学家GeoffreyHinton领导了深度学习网络技术的许多重大突破,包括反向传播算法。但多年的生物学研究表明,生物大脑不太可能使用反向传播来学习。“与深度学习算法相比,人脑更强大,它具有更好的泛化和学习能力”。而且,各种证据表明,就大脑的解剖生理结构而言,尤其是在皮质层,人脑几乎不可能使用反向传播机制进行学习。YoshuaBengio是蒙特利尔大学的人工智能研究员和计算科学家,他是研究生物学上合理的学习算法的科学家之一,这些算法既可以学习又可以反向传播,但在生物学上也是合理的。更合理可信。在深度学习领域,Bengio和许多同样受到Hinton启发的研究人员一直在思考一个更生物学的问题,即人脑是如何工作和学习的。与简单的深度学习算法相比,人脑是一个更完美的有机学科。如果能够理解它的学习机制,必将推动深度学习的发展。因此,相关研究人员一直在努力寻找这种人脑中与“反向传播”学习算法相匹配的生物学机制。近年来,人们在相关方面取得了一些进展,最有前途的三个发现包括——反馈对齐、均衡传播和预测编码。一些研究人员甚至将生物学中某些类型的皮层神经元的特征和注意机制体现在他们的算法中,力求揭示人脑神经元学习背后的奥秘。研究人员取得的每一项进步都让我们更接近于理解大脑如何学习。“大脑是一个巨大的谜团,人们普遍认为,如果我们能够揭示大脑中的一些学习机制或学习方法,那么人工智能将迎来进一步的发展,”本吉奥说,“但揭示工作机制人脑的研究也具有极高的研究价值。”1利用反向传播学习深度学习网络的基础之一是生物学中的神经元模型理论,由加拿大心理学家DonaldHebb提出。几十年来,深度学习网络算法的研究都是在这一理论的指导下进行的。理论模型通常可以简单地概括为“一起发射并相互连接的神经元”。具体来说,这意味着活动越相关,神经元之间的联系就越强。这个简单的“道理”启发了后世无数的研究,由此衍生出的若干规则和算法也成功落地到一些学习和视觉分类任务中。但是当神经网络的规模变得非常大时,由于需要从大量数据中的误差中逐渐学习到最优权值,反向传播算法的效果会差很多。对于那些在更深层次的深层神经元,它们很难通过残差梯度发现自己的错误,因此不能很好地更新权重和减少错误。所以在这种情况下,深层神经元往往会出现不学习、不收敛、不拟合的问题。这个问题称为梯度消失。“赫布定律是一种非常有限的反馈利用机制,只在一些非常特殊的情况下有效,并且对错误非常敏感,”斯坦福大学计算神经科学家和计算科学家丹尼尔亚明斯说。DanielYamins,斯坦福大学的计算神经科学家和计算科学家。他正在研究如何识别哪些算法在生物大脑中“运行”。然而,这是迄今为止神经科学家能够发现和利用的最佳人脑学习模型。即使在20世纪50年代,当深度学习算法和思想尚未主导人工智能领域时,赫布定律也启发了第一个神经网络模型的诞生。在那个古老的时代,神经网络中的每个神经元只能接受一个输入,只能产生一个输出,就像生物神经元一样。神经元通过将输入乘以所谓的“突触权重”来进行计算,“突触权重”表示连接输入的重要性,然后对加权输入求和。这个总和构成了每个神经元的输出。到1960年代,神经元被组织成网络,形成一个具有输入层和输出层的全连接网络。具有这种原型结构的神经网络模型可以用来解决一些简单的分类和回归问题。在训练过程中,神经网络的目标是使输出与真实值之间的误差最小,并相应地调整每个神经元的权值。1960年代,由于神经网络增加了输入输出层,网络的结构开始从三明治演变为多层三明治巨无霸,即网络层数开始增加。然后是深层神经元的梯度消失问题。当时,没有人知道如何高效地训练这些深层神经元,也没有什么好的方法可以高效地训练隐藏层很多的神经网络。这个困境直到1986年才得到解决,解决的标志是Hinton、已故的DavidRumelhart和美国东北大学的RonaldWilliams联合发表的反向传播算法论文。反向传播算法可以分为两个阶段,前向传播和反向传播。在前向阶段,当网络得到一个输入数据时,会根据当前模型的权重得到一个输出,输出与理想的目标输出之间存在一定的误差。然后在反向阶段,学习算法会根据误差值更新每个神经元的权值,使输出与目标值的误差变小。为了理解这个学习过程,我们将网络实际输出与理想输出之间的误差表示为“损失函数”,它描述了模型正向输出与预期输出之间的差异。这个损失函数就像一个二维的“山谷和山丘”图像。当一个网络的实际输出与预期输出误差较大时,对应二维图的丘陵部分;当误差很小时,它对应于图中的谷。当网络根据指定的输出进行前向推理时,得到的输出对应的误差会对应二维图像中的一个精确点,学习过程就是让误差从“山”的位置沿着“山坡”“山谷”过程。山谷中的位置误差和损失值很小。反向传播算法是一种更新神经元权重以减少损失和错误的方法。从计算的角度和算法的本质来看,在反向传播阶段,算法会计算每个神经元的权重对误差的贡献,然后根据误差结果修改更新这些权重,从而提高性能的网络,降低损失值,得到想要的输出。这个计算过程是从输出层传递到输入层,方向是从后层到前层,所以人们称之为反向传播。反向传播算法使用由输入和输出期望组成的数据集反复调整网络的权重以获得一组可接受的收敛权重。2、人脑不可能使用反向传播机制。在许多神经科学家眼中,反向传播算法是一种非常粗糙和幼稚的机制。他们认为大脑永远不会基于反向传播机制进行学习。这些反对者中最著名的是弗朗西斯克里克,他是诺贝尔奖获得者和DNA结构的共同发现者。今天,Fancis是一名神经科学家。1989年,克里克写道:“就学习过程而言,大脑不太可能使用反向传播的机制来学习”。科学家们普遍认为反向传播算法在生物学上是不可信的,主要有几个原因。首先,在计算原理上,反向传播算法分为两个明确的阶段,一个向前,一个向后。但在生物大脑的神经网络中,很难实现这样的机制。第二种是计算神经科学家所说的梯度/权重转移:反向传播算法复制或转移前向传播中的所有权重信息,并根据误差更新这些权重,使网络模型更准确,性能更好。但是在生物大脑的神经元网络中,每个神经元通常只能看到它所连接的神经元的输出,而看不到构成输出的权重分量,也看不到它内部的计算过程。从神经元的角度来看,“他们可以知道自己的权重,但问题是他们还需要知道其他神经元的权重,这从生物学的角度来看有点困难,”Yamins说。从生物神经学的角度来看,任何实用的生物模型和学习机制都必须满足神经元只能从相邻神经元获取信息的限制。但是很明显反向传播算法可能需要远处神经元的权值信息。所以“话虽这么说,大脑几乎不可能使用反向传播来计算和学习,”Bengio说。尽管探索困难重重,但欣顿等科学家也欣然接受挑战,开始研究生物学中大脑的学习过程,努力探索生物大脑中的“反向传播”学习机制。宾夕法尼亚大学的计算神经科学家KonradKording说:“可以预期,第一篇表明大脑执行类似反向传播的学习的论文可能与关于反向传播的论文一样具有革命性。”幸运的是,近十年来,随着人工神经网络的爆发,人们也开始研究生物大脑中的“反向传播”学习机制。3更符合生物特性的学习机制事实上,在深度学习领域,除了反向传播,还有一些更符合生物特性的学习算法。例如,2016年,谷歌伦敦DeepMind团队的TimothyLillicrap及其同事提出了反馈对齐算法。该算法不传递权重,因此在生物学上更“合理”。该算法不依赖前向传递的权重矩阵,而是使用随机初始反向传递矩阵。在该算法中,一旦算法为一个神经元分配了一个权重,这些权重就不会像反向传播算法那样进行微调和来回变化,因此反向传播过程不需要传递任何权重。从算法的角度来说,虽然这个算法不是很合理,但是令人惊讶的是这家伙的效果很好,网络可以通过这个算法学习到更合理的结果。由于前向推理的前向权重随着每次向后传递而更新,网络仍然降低了损失函数的梯度,但学习和优化的实现方式不同。在这个算法中,正向权值和随机选择的反向权值会慢慢对齐,最终得到正确的结果,所以该算法称为FeedbackAlignment。“事实证明,这种学习算法并不是很糟糕,”Yamins说,至少对于简单的学习任务而言是这样。但是对于那些复杂的问题,比如当网络规模很大,神经元数量很多,网络层数很深时,反馈对齐机制仍然不如传统的反向传播有效。这是因为每次前向权重更新不如反向传播得到的误差反馈信息准确,所以这样的学习机制需要更多的数据。科学家们也在探索另一个领域,就是一种既能达到反向传播的学习效果,又能满足赫布定律的生物学合理性要求的学习算法。简单的说就是如何让算法只使用其相邻神经元的信息进行学习和权值更新。例如,Hinton提出了一个想法:每个神经元同时进行两组计算。“这基本上就是Geoffs在2007年所说的,”Bengio说。在Hinton的工作基础上,Bengio的小组在2017年提出了一种学习方法,该方法需要一个具有循环连接的神经网络,即如果神经元A激活神经元B,神经元B反过来神经元A也被激活。网络在获得一些输入时会产生一些“回响”,因为每个神经元都会立即响应其邻居。最终,网络会达到一个相对稳定的状态,即网络在输入和每个神经元之间保持平衡,并产生一个输出,但这个输出与理想值存在一定的误差。该算法然后改变神经元的权重,使网络的实际输出更接近理想输出值。这将导致另一个信号通过网络反向传播,这将产生类似的效果。最终,网络将能够找到新的平衡点。“算法背后的数学之美在于,如果你比较修改前后的权重,你就会获得改变梯度所需的所有信息,”Bengio说。网络的训练只需要在大量带标签的训练数据上重复这个“平衡传播”的过程,就可以找到最终的结果。4预测性感知在生物学中,对大脑感知过程的新研究也反映了神经元只能对局部环境做出反应的特性。爱丁堡大学博士生、萨塞克斯大学访问学者BerenMilidge和他的同事们一直在研究这种大脑神经元的感知机制,也就是我们所说的预测编码(PredictionEncoding)和反向传播之间的关系.“如果生物大脑中存在真正的预测编码机制,它将为我们提供生物学上合理的背景,”Milidge说。预测编码理论假设大脑不断对输入进行预测,这一过程涉及神经处理的层次结构。为了产生一定的输出,每一层都必须预测下一层的神经活动。如果一个高级神经元认为“我需要提取一张脸的抽象特征”,它就会认为它的下一层将使用这张脸的特征来执行更高级别和更抽象的活动。如果在下一层使用了该信息,就证明我提取人脸的操作是正确的,否则就说明这个特征没有意义,因为没有被使用过。简而言之,下层会使用上层提取的有用特征,有用的特征就像落在视网膜上的光子。通过这种方式,预测从较高层流向较低层。但话说回来,网络的每一层都可能出现错误,每一层的输入输出之间或多或少都会有差异,而这些差异的叠加就会形成最终的误差。网络的底层根据接收到的感知信息调整权重以最小化错误。这种调整可能会在刚刚更新的层和上面的层之间引入误差,因此更高层必须重新调整它们的权重以最小化预测误差。这些误差逐渐累积,同时向上传播。网络产生误差,权重不断调整,来回传递,直到每一层的预测误差最小化。Millidge表明,通过适当的配置,这种学习方法的预测编码网络可以收敛到与反向传播算法非常相似的权重。“你可以训练网络以获得非常非常接近反向传播的权重结果,”他说。但相比深度学习网络传统的反向传播算法,预测编码网络需要一遍又一遍的迭代传播。,只传播一次是无法收敛的。网络的学习过程是一个逐渐修改的过程,预测编码网络通常需要数十、数百甚至数千次传播才能收敛。迭代也需要时间,因此这种迭代机制在生物学上是否合理取决于每次传播在真实大脑中花费的时间。关键是生物大脑的神经网络必须足够快,能够在外界输入发生变化之前收敛到稳定状态。Milidge说:“学习的过程一定要非常快。比如,当一只老虎向我扑过来的时候,我肯定不能让我的大脑反复计算和传播几百次,然后告诉我:跑!就这样。如果我没有放开我的腿,我会成为老虎的下午茶。”尽管如此,他说:“所以在真实的大脑中,一些错误和不准确是可以接受的,预测编码应该能够非常快速地计算。产生一个可接受的、普遍有用的和更好的结果”。5、除了上述比较“高深”的椎体神经元研究外,很多科学家还致力于基础研究,比如根据单个神经元的特性建立具有相似反向传播能力的模型。在一个标准的神经元中,有称为树突的生理结构,它从其他神经元收集信息并将信号传递给神经元的细胞体。所有输入都集成在细胞体中。这种输入到整合现象可能会导致神经元激活,从而产生从轴突到突触后神经元树突的动作电位和生物电尖峰,尽管在某些情况下不会产生相应的动作电位。但并非所有神经元都具有这种结构。特别是对于锥体神经元。锥体神经元是大脑皮层中最丰富的神经元类型,具有树状结构并具有两组不同的树突。树突的主干向上延伸并分裂成所谓的顶端树突;而神经元根向下延伸并形成基底树突。Kording在2001年独立提出了相应的神经元模型。同样,麦吉尔大学和魁北克人工智能研究所的BlakeRichards及其同事最近提出了类似的神经元模型。这些模型表明,神经元可以通过执行前向和反向计算来构成深度学习网络的基本单元。其模型的关键是从输入神经元的信号中分离前向推理和后向误差的传播分量,这些分量分别由基底树突和顶端树突处理。来自这两种信号的信息可以在神经元中同时编码、处理并作为输出发送到轴突,在那里它被转换成生物电信号。在他们团队的最新研究中,理查兹说,“我们已经验证了锥体神经元模型的可用性,我们已经使用算法来模拟锥体神经元的计算,我们已经验证了锥体神经元网络可以完成各种任务的学习。然后我们对网络模型进行了初步的抽象,利用这个由锥体神经元组成的抽象模型来执行更复杂的任务,这些任务与普通的机器学习算法和神经网络完成的任务是一样的。”6注意力机制在反向传播机制中,算法默认需要一个“老师”。具体来说,“老师”就是算法中损失值对每个权重的偏导梯度。通过老师的“指导”,算法可以相应地修改权重的大小。也就是说,我们需要一种机制来提供错误信息。但荷兰阿姆斯特丹神经病学研究所的PieterRoelfsema说:“大脑中没有老师,它没有器官或机制来告诉运动皮层中的每个神经元相应的监督信息,而每个皮质没有办法知道自己。它应该是活跃的还是不活跃的”。Roelfsema认为大脑可以利用注意力机制达到类似的效果来解决问题,尽管没有老师的信息。在1990年代后期,Roelfsema和他的同事发现,当一只猴子看着一个物体时,大脑皮层中代表该物体的神经元会变得更加活跃。猴脑中的注意力信息充当了老师的角色,向皮层神经元提供反馈监督信息。“这是一种高度选择性的反馈信号,”Roelfsema说。“这不是一个错误信号,它只是对所有这些神经元说:嘿伙计,我们要做点什么,你必须激活力量。”向上。“Roelfsema认为,当这种基于注意力的反馈信号与神经科学领域中一些已有或未发现的现象相结合时,可以在生物大脑中实现类似于反向传播的学习效果。例如,剑桥大学的WolframSchultz和还有研究表明,当动物执行某些产生比预期更好结果的动作时,生物大脑中的多巴胺系统就会被激活,从而产生积极的激励作用。“多巴胺是一种神奇的神经调节剂,可以让动物感到快乐和快乐.当我们得到多巴胺的积极刺激时,它会扩散到我们的全身,并加强神经元对这种反应和行动的识别。”Roelfsema说,理论上,注意力反馈信号只能激活那些负责某个动作的神经元,通过更新它们的神经元权重来响应整体强化信号。Roelfsema和他的同事基于这个想法实现了一个深度神经网络,并研究了它的数学性质。“事实证明,这种机制可以达到与反向传播相同的数学结果。但从生物学的角度来看,权重调整方法注意力机制显然更加合理。”Roelfsema的团队在2020年12月的NeuroIPS在线会议上发表了这项工作。他说,“我们可以使用这种方法来训练深度网络,它只比反向传播算法慢2到3倍。所以,他说,”“所有生物学上合理的学习算法,基于注意力的学习已经是最好的了。”但是我们的大脑真的使用这些看似玄学的机制来学习吗?目前的研究似乎还不足以证明这一点。这些机制只是我们的一些实证假设。本吉奥说:“我认为我们的研究遗漏了一些东西。以我的经验,这可能是一些小的机制和细节,也许我们只需要对现有的方法稍作修改,就会有奇效。“那么我们如何确定哪种学习算法在生物学上是合理的呢?Yamins和他的斯坦福同事提出了一些建议。通过分析1056个深度网络中的学习方法,他们发现神经元子集可以随时间传递。可以得到这些信息来自猴子大脑活动的记录。Yamins说:“事实证明,如果我们能够收集到正确的观察数据,就可以很容易地确定生物大脑是如何学习的。”很简单。计算神经科学家想到这些好处就暗自高兴.科尔丁说:“大脑其实有很多实现学习的方式,和反向传播一样有效。生物进化非常奇妙,我相信反向传播是有效的,进化论会推动我们朝这个方向进化!”
