编辑 |杰克智东西5月15日消息,今天,DeepMind在《Nature Neuroscience》《Prefrontal cortex as a meta-reinforcement learning system》上发表了新的研究论文。
在这项研究中,人工智能被用来探索多巴胺在大脑中的作用。
起到帮助学习的作用。
通过这项研究,DeepMind 使用元强化学习(meta-RL)算法指出,多巴胺的作用不仅仅是奖励过去行为的学习,而是发挥整体作用,尤其是在前额叶区域,这使我们能够要有效率。
学习新知识、执行新任务,无需像深度学习算法那样依赖大量数据进行训练。
多巴胺是一种常见的大脑幸福信号。
它经常被用来类比人工智能强化学习算法中使用的奖励预测误差信号。
人工智能和人类大脑通过反复试验和错误来学习和做出决策,这是由这种奖励驱动的。
1.什么是元强化学习?在谈论什么是元强化学习时,我们首先要谈谈什么是元学习。
正如我们所看到的,人工智能系统现在已经掌握了如何玩多种视频游戏,例如 Atari 的经典游戏 Breakout 和 Pong,或者学会了像 AlphaGo 一样下围棋。
虽然其性能令人印象深刻,但人工智能仍然依赖于数千小时的游戏体验来匹配并超越人类玩家的表现,人类玩家只需几分钟即可掌握视频游戏的基础知识。
大脑如何能够在少量经验的情况下如此快速地学习的问题导致了元学习理论的发展,或者说“学习如何学习”。
元学习是从示例中快速学习,并随着时间的推移从这些示例中理解事物的规则。
这被认为是人类能够比人工智能更有效地获取新知识的原因之一。
这种元学习结构是在基于强化学习算法的人工智能系统中创建的,即元强化学习(meta-RL)。
2. DeepMind 如何进行研究?研究人员在神经科学领域虚拟地重新创建了六个真实的元学习实验,以测试他们提出的理论。
每个实验都需要元强化学习代理使用相同的基本原理或技能(但在某些维度上有所不同)来执行任务。
研究人员使用标准的深度强化学习技术(代表多巴胺)来训练循环神经网络(代表前额叶),然后将循环神经网络的活动数据与之前神经科学实验研究结果的真实数据进行比较,以证明其是否正确。
理论。
DeepMind 虚拟重现的实验之一是 Harlow 实验,这是 20 世纪 90 年代提出的一项心理训练测试,旨在探索元学习的概念。
在哈洛2016年的实验训练中,研究人员首先向一组猴子展示了两个不熟悉的物体并要求它们进行选择,其中一个可以带来食物奖励。
这两个物体被展示了六次,每次展示时两个物体的左右位置都是随机的,所以猴子必须学会选择哪个物体会带来食物奖励。
然后,研究人员向他们展示了两个新物体并要求他们进行选择。
这个时候,能带来食物奖励的,只有一个人。
通过这个训练过程,猴子们形成了一种选择奖励对象的策略:猴子学会了在第一个选择上进行随机选择,然后根据奖励反馈来选择奖励对象,而不是仅仅选择左右位置。
这个实验证明,猴子可以从例子中快速学会完成任务,并学习抽象的任务规则,即元学习。
(DeepMind 的 Virtual Harlow 实验需要元强化学习代理将其焦点转向它认为与奖励相关的目标。
)DeepMind 使用虚拟计算机屏幕和随机显示的图像模拟了类似的测试。
他们发现元强化学习代理的学习方式与哈洛实验中的猴子非常相似。
即使当它显示以前从未见过的全新图像(即元强化学习代理)时,这种相似性仍然存在。
(元强化学习代理)可以快速学习解决大量具有不同规则的任务,因此它也学习快速学习的通用规则。
(上图展示了一种元强化学习算法,学习如何基于多个任务高效地解决新任务。
)更重要的是,传统神经科学认为,多巴胺可以加强前额叶系统神经元之间的突触连接,缓慢改变权重神经元之间的突触,从而加强特定的大脑行为。
DeepMind的研究结果表明,多巴胺不仅可以通过改变突触权重来强化大脑的特定行为,还可以快速编码和传输有关抽象任务规则的重要信息,让大脑更快地适应新任务。
(模拟循环神经网络中编码动作和奖励历史的独立单元)此外,神经科学家很早就发现,前额皮质中存在与上一段提到的类似的神经激活模式,它们能够快速灵活地适应,但他们我一直未能找到合理的解释。
前额皮质中的神经网络并不依赖于缓慢的突触权重变化来学习抽象任务规则,而是利用多巴胺直接编码的基于模型或示例的信息来快速学习。
这个想法为前额皮质提供了一种快速灵活的神经激活模式。
更合理的解释。
因此,DeepMind 不仅为神经科学做出了贡献,还利用元强化学习(meta-RL)算法使 AI 能够像人脑一样快速解决和适应新任务。
3. Meta-RL的意义,学会推理。
去年,DeepMind团队宣布用AI挑战电脑游戏,但失败了。
这是因为AI是通过深度强化学习的方法来学习下围棋的,而不是AI真正学习推理的。
在围棋棋盘上,提供给AI的选择数量只有几百,而提供给AI的选择数量却达到了数千万。
人工智能需要很长时间才能熟悉这些选择以及这些选择的后果。
做出正确的选择。
然而,面对数量巨大的选择,人类依然没有问题,而且人类通过策略和战术大大缩小了选择的范围。
因此,如何让AI学会思考,而不是仅仅从过去的经验中慢慢强化正确的选择,而快速构建策略来完成新的目标至关重要。
模仿人类的元学习是人工智能学习处理此类难题的一种解决方案。
使用元强化学习(meta-RL)算法的人工智能可以真正帮助人类解决各种类型的问题,而不仅仅是执行特定的任务。
这将使人工智能真正应用于人们的生活和工作。
以未来可能进入千家万户的AI机器人为例。
每个人对AI机器人的要求不同,每个家庭的环境也不同。
如果AI机器人采用元强化学习(meta-RL)算法,就不需要花费很长时间来学习,就能快速灵活地适应每个家庭的需求。