当前位置: 首页 > 科技观察

人脑90%是自我监督学习,AI模型离模拟大脑还有多远?

时间:2023-03-16 15:07:08 科技观察

我们都知道,人脑90%是自我监督学习,生物会不断对接下来会发生什么做出预测。自我监督学习是在没有外部干预的情况下做出决定的能力。只有少数情况下我们会接受外部反馈,例如当老师说“你犯了一个错误”时。现在有学者发现,大型语言模型的自监督学习机制与我们的大脑非常相似。知名科普媒体量子杂志近日报道,越来越多的研究发现,自监督学习模型,尤其是大型语言模型的自学习方式,与我们大脑的学习模式非常相似。过去常见的人工智能系统是使用大量标记数据进行训练的。例如,一张图片可能被标记为“虎斑猫”或“虎斑猫”,以训练人工神经网络正确区分虎斑猫和虎斑猫。这种“自我监督”训练需要人类煞费苦心地标记数据,而神经网络通常会走捷径,学会将标签与最少的、有时是肤浅的信息相关联。例如,神经网络可能会使用草的存在来识别奶牛的照片,因为奶牛经常在田野里拍照。加州大学伯克利分校的计算机科学家AlexeiEfros说:“我们正在训练的算法就像本科生一样,他们整个学期都没有上过课,尽管他们还没有系统地学习这些材料。”但他们在考试中表现出色。此外,对于对动物智能和机器智能的交叉感兴趣的研究人员来说,这种“监督学习”可能仅限于它揭示的生物大脑。许多动物,包括人类,不使用标记的数据集来学习。在大多数情况下,他们自己探索环境,在这样做的过程中,他们对世界有了丰富而深刻的了解。现在,一些计算神经科学家已经开始探索使用很少或没有人工标记数据训练的神经网络。最近的研究结果表明,使用自我监督学习模型构建的动物视觉和听觉系统的计算模型比监督学习模型更接近大脑功能。对于一些神经科学家来说,人工神经网络似乎开始揭示使用大脑来类比机器学习的方法。有缺陷的监督大约10年前,受人工神经网络启发的大脑模型开始出现,名为AlexNet的神经网络彻底改变了对未知图像进行分类的任务。这项工作发表在AlexKrizhevsky、IlyaSutskever和GeoffreyE.Hinton的论文“ImageNetClassificationwithDeepConvolutionalNeuralNetworks”中。论文地址:https://dl.acm.org/doi/10.1145/3065386与所有的神经网络一样,该网络由多层人工神经元组成,不同神经元之间的连接权重不同。如果神经网络未能正确分类图像,学习算法会更新神经元之间连接的权重,以降低下一轮训练中错误分类的可能性。该算法多次重复这个过程,调整权重,直到网络的错误率低到可以接受的程度。神经科学家随后使用AlexNet开发了灵长类动物视觉系统的第一个计算模型。当向猴子和人工神经网络展示相同的图像时,真实神经元和人工神经元的活动表现出相似的反应。在用于听觉和气味检测的人工模型上也取得了类似的结果。但随着该领域的发展,研究人员意识到自我监督训练的局限性。2017年,德国蒂宾根大学的计算机科学家LeonGatys和他的同事拍了一张福特T型车的照片,然后在上面覆盖了豹皮图案。AI神经网络将原始图像正确分类为ModelT,但将修改后的图像分类为豹。原因是它只关注图像纹理,并不知道汽车(或豹)的形状。自监督学习模型旨在避免此类问题。在这种方法中,人类不会标记数据;相反,标签来自数据本身,瑞士巴塞尔弗里德里希米歇尔生物医学研究所的计算神经科学家FriedemannZenke说。.自监督算法本质上是在数据中制造空白,并要求神经网络填补这些空白。例如,在所谓的大型语言模型中,训练算法会向神经网络显示句子的前几个词,并要求它预测下一个词。当使用从Internet收集的大量文本进行训练时,该模型似乎学习了语言的句法结构,展示了令人印象深刻的语言能力——所有这些都没有外部标签或监督。类似的努力也在计算机视觉领域进行。2021年底,何玉明和他的同事们展示了著名的掩码自动编码器研究“MaskedAuto-Encoder”(MAE)。论文地址:https://arxiv.org/abs/2111.06377MAE将未屏蔽的部分转换为潜在表示——包含有关对象重要信息的压缩数学描述。在图像的情况下,潜在表示可能是一种数学描述,包括图像中对象的形状。然后解码器将这些表示转换回完整图像。大脑也是“自我监督”的在这样的系统中,一些神经科学家认为我们的大脑实际上也是自我监督学习的。“我认为毫无疑问,大脑90%的行为都是自我监督学习,”麦吉尔大学和魁北克人工智能研究所(Mila)的计算神经科学家BlakeRichards说。将其视为连续预测,例如,对象移动时的未来位置,或句子中的下一个单词,就像自我监督学习算法试图预测图像或一段文本中的间隙一样。计算神经科学家BlakeRichards创建了一个AI系统,该系统模仿活体大脑中的视觉网络。理查兹和他的团队创建了一个自我监督的模型来暗示答案。他们训练了一个结合了两个不同神经网络的人工智能。第一个称为ResNet架构,专为处理图像而设计;第二个称为循环网络,跟踪先前的输入序列以预测下一个预期输入。为了训练联合人工智能,该团队从一系列视频开始,比如10帧,然后让ResNet一个一个地处理它们。然后循环网络预测第11帧的潜在表示,而不是简单地匹配前10帧。自我监督学习算法将预测值与实际值进行比较,并指示神经网络更新其权重以做出更好的预测。为了进一步测试它,研究人员向AI展示了一组视频,这些视频是西雅图艾伦脑科学研究所的研究人员之前展示给老鼠看的。与灵长类动物一样,小鼠的大脑区域专门负责静态图像和运动。艾伦研究人员记录了小鼠观看视频时视觉皮层的神经活动。理查兹的团队发现人工智能和活体大脑对视频的反应方式存在相似之处。在训练过程中,人工神经网络中的一条通路变得更类似于小鼠大脑的腹侧物体检测区域,而另一条通路变得更类似于以运动为中心的背侧区域。这些结果表明我们的视觉系统有两条专门的通路,因为它们有助于预测未来的视力;单一途径不够好。人类听觉系统的模型讲述了一个类似的故事。6月,由MetaAI的研究科学家Jean-RémiKing领导的团队训练了一种名为Wav2Vec2.0的AI,它使用神经网络将音频转换为潜在表示。研究人员屏蔽了其中一些表示,并将它们输入另一个称为转换器的组件神经网络。在训练期间,Transformer预测屏蔽信息。在此过程中,整个AI都学会了将声音转换为潜在表征,同样,没有标签。该团队使用了大约600小时的语音数据来训练网络。“这是关于孩子在头两年的经历中得到什么,”金说。MetaAI的让-雷米·金(Jean-RémyKing)帮助训练了一种以模仿大脑的方式处理音频的人工智能——部分是通过预测接下来会发生什么。系统经过训练后,研究人员播放英语、法语和普通话的有声读物部分,然后将AI的性能与412人(所有三种语言的母语)的数据进行比较,这些人在MRI扫描时对自己的大脑进行成像,听相同长度的音频。结果表明,尽管fMRI图像嘈杂且分辨率低,但AI神经网络和人脑“不仅相互关联,而且以系统的方式关联”。AI早期层的活动与初级听觉皮层的活动一致,而AI最深层的活动与大脑更高层(例如前额叶皮层)的活动一致。“这是漂亮的数据,虽然不是决定性的,但却是令人信服的证据,表明我们学习语言的方式主要是预测接下来会说什么。”有人不以为然:模拟大脑?模型和算法要差得多。当然,并非所有人都同意这种说法。麻省理工学院的计算神经科学家JoshMcDermott使用监督和自我监督学习来研究视觉和听觉模型。他的实验室设计了合成音频和视觉信号,对人类来说,这些信号只是难以捉摸的噪音。然而,对于人工神经网络来说,这些信号似乎无法与真实的语音和图像区分开来。这表明即使采用自我监督学习,在神经网络深层形成的表征也与我们大脑中的表征不同。“这些自我监督的学习方法是一种改进,因为你可以在没有所有标签的情况下学习支持大量识别行为的表征,”麦克德莫特说。“但监督模型仍有很多特点。”算法本身也需要更多改进。例如,在MetaAI的Wav2Vec2.0模型中,AI只预测几十毫秒声音的潜在表征,这比人类发出噪音音节的时间还短,更不用说预测一个单词了。金说,要真正让人工智能模型像人脑一样,我们还有很多工作要做。如果迄今为止在大脑和自我监督学习模型之间发现的相似性适用于其他感官任务,那么这将更强烈地表明,无论我们大脑的惊人能力如何,都需要某种形式的自我监督学习。