分布式强化学习是围棋和星际争霸等游戏中代理使用的技术,但DeepMind的一项研究表明,这种学习方式也为大脑中的奖励机制提供了基础。一种新的解释是大脑也应用了这种算法。这一发现验证了分布式强化学习的潜力,也让DeepMind的研究人员越来越相信“现在AI研究正走在正确的道路上”。多巴胺是一种熟悉的大脑愉悦信号。如果事情比预期的要好,大脑就会释放更多的多巴胺。人脑中存在奖赏通路,它控制我们对愉悦事件的反应,通过释放多巴胺的神经元进行调节。比如在著名的帕布洛夫狗实验中,当狗听到铃声开始流口水时,这种反应并不是奖励,而是大脑中多巴胺细胞对即将到来的奖励产生的反应。预测。先前的研究表明,这些多巴胺神经元应该以相同的方式预测奖励。但最近,DeepMind的研究人员通过使用分布式强化学习算法发现,每个多巴胺神经元对奖励的预测差异很大,它们会调整到不同程度的“悲观”和“乐观”状态。研究人员希望通过这套算法来研究和解释多巴胺细胞对大脑行为和情绪的影响。这项研究的结果昨天发表在《Nature》。Nature论文链接:https://www.nature.com/articles/s41586-019-1924-6强化学习算法与多巴胺奖惩机制研究强化学习是最早也是影响最大的连接神经科学和AI的研究之一。在20世纪80年代后期,计算机科学研究人员试图开发可以单独学习如何执行复杂行为的算法,仅依靠奖励和惩罚反馈作为训练信号。这些奖励强化了任何有利于他们的行为。解决奖励预测问题的一个重要突破是时间差分算法(TD)。TD不计算未来的整体回报,它试图预测当前回报与未来预期回报的总和。当下一刻到来时,将新的预测结果与预期结果进行比较。如果有出入,算法会计算两者之间的差异,并利用这个“时间差异”将旧版预测调整为新的预测。经过不断的训练,“期望”和“现实”会逐渐匹配,整个预测链会越来越准确。与此同时,许多神经科学研究者将注意力集中在多巴胺神经元的行为研究上。当面临迫在眉睫的奖励时,多巴胺神经元会向许多大脑区域发送“预测”和“推断”值。这些神经元的“发送”行为与奖励的大小有一定的关系,但这些反应往往依赖于外部感官信息的输入,在给定任务中的表现也会随着机体经验的丰富而发生变化。例如,随着大脑习惯了特定刺激,对奖励的预测就会减少。一些研究人员注意到,某些多巴胺神经元的反应揭示了奖赏预测中的一个漏洞:它们发送的期望总是多于或少于训练产生的期望,而训练后的期望并不相同。于是这些研究人员建议大脑利用TD算法计算奖赏预测的误差,通过多巴胺信号将其发送到大脑的各个部位,从而驱动学习行为。此后,多巴胺的奖赏预测理论在数以万计的实验中逐渐得到证实,成为神经科学中最成功的定量理论之一。自TD应用于多巴胺奖惩机制的研究以来,计算机科学家一直在不断优化从奖惩机制中学习的算法。自2013年以来,深度强化学习受到关注:在强化学习中使用深度神经网络来学习更强的表示,使强化学习算法能够解决复杂性和实用性的问题。分布式强化学习是可以使神经网络更好地进行强化学习的算法之一。在很多情况下,尤其是在很多真实情况下,未来奖励的结果实际上是根据特定的行为而不是完全已知的数量来预测的,具有一定的随机性。图1是一个计算机控制的木偶跳过障碍物的例子,不知道它是否会掉落或跳到另一端。所以这里,有两个预测奖励,一个代表掉下去的可能性,一个代表成功到达对方的可能性。图1:当未来不确定时,未来的回报可以用概率分布来描述。未来的某些部分可能是“好(绿色)”,而其他部分可能是“坏(红色)”。通过各种TD算法,分布式强化学习可以了解这种奖励期望的分布。在这种情况下,标准TD算法学习预测平均未来奖励,无法获得潜在奖励的双峰分布。但是分布式强化学习算法可以学习预测所有未来的奖励。上面的图1描述了分布式代理学习的奖励预测。因此,分布式强化学习算法在多巴胺研究中的应用进入了研究者的视野。分布式TD:一种性能更好的强化学习算法新研究采用分布式强化学习算法,与标准TD非常相似,称为分布式TD。标准TD学习单个预测(平均预期预测),而分布式TD学习一系列不同的预测。分布式TD通过计算描述连续预测之间差异的奖励预测误差,以与标准TD相同的方式学习预测,但每个预测器对每个奖励预测误差应用不同的转换。例如,一些预测器在奖励预测误差为正时选择性地“放大”或“累积”奖励预测误差(如下图2A所示)。这允许预测器学习更乐观的奖励预测,对应于奖励分布的较高部分。但与此同时,其他预测器放大了它们的负面奖励预测误差(如下图2A所示),因此学习更悲观的奖励预测。因此,具有不同悲观和乐观权重的一组预测因子形成了下面图2B和2C中的完整奖励分布图。图2:分布式TD学习对奖励分布不同部分的价值估计。除了简单之外,分布式强化学习还有另一个优势,当与深度神经网络结合时,它会非常强大。基于原始深度强化学习DQNagent的算法在过去五年中取得了长足的进步,这些算法在Atari2600游戏的Atari-57基准测试集上频繁进行评估,展示了分布式强化学习算法的性能优势。多巴胺研究中的分布式TD由于分布式TD在人工神经网络中具有良好的性能,本研究考虑采用分布式TD来尝试研究大脑的奖惩机制。在这项研究中,研究人员与哈佛大学合作,分析了小鼠体内多巴胺细胞的记录。在任务期间,小鼠获得了未知数量的奖励(如下图4所示)。研究人员旨在评估多巴胺神经元的活动是否更符合标准TD或分布式TD。先前的研究表明,多巴胺细胞会改变它们的发射率以指示预测错误——动物获得的奖励是否多于或少于预期。我们知道,当收到奖励时,预测误差应该为零,也就是说,奖励的大小应该与多巴胺细胞预测的一样,因此相应的发放率应该不会改变。对于每个多巴胺细胞,如果研究人员确定其基线放电率没有变化,则也可以确定其奖励大小。这种关系被称为细胞的“反转点”。研究人员想知道不同细胞之间的逆转点是否也不同。如下图4C所示,单元格之间存在明显差异,一些预测非常大的奖励,而另一些预测仅非常小的奖励。细胞之间的实际差异比从记录中固有的随机变化率所预期的要大得多。图4:在此任务中,大鼠收到的水奖励由随机方法确定,可以在0.1-20UL的范围内调整。在分布式TD中,奖励预测的这些差异是由正或负奖励预测误差的选择性放大引起的。放大积极的奖励预测会产生更乐观的奖励预测,而增加消极的奖励会产生更悲观的预测。因此,研究人员接下来测量了不同多巴胺细胞响应积极或消极期望而放大的程度,并发现了噪声无法解释的细胞之间可靠的多样性。至关重要的是,他们发现放大正奖励预测错误的相同细胞也表现出更高的反转点(上图4C中的右下图),也就是说,他们期望获得更高的奖励。最后,分布式TD理论预测具有不同反转点的细胞应该共同编码学习到的奖励分配。因此,研究人员想研究是否可以从多巴胺细胞的放电率中解码不同细胞的奖赏分布情况。如图5所示,研究人员发现,仅使用多巴胺细胞的放电率,确实可以重建奖励的分布(蓝线),这非常接近小鼠执行任务时的实际奖励分布(灰色区域)).图5:多巴胺细胞群对奖励分布的学习形状进行编码。总结研究人员发现,大脑中的多巴胺神经元被调整为不同程度的“悲观”和“乐观”。如果他们是一个合唱团,所有的神经元就不会从同一个音区唱歌,而是会相互合作——每个神经元都会有自己的音区,比如男高音或中音。在人工强化学习系统中,这种多样的调整创造了更丰富的训练信号,大大加快了神经网络的学习速度。研究人员推测,大脑可能出于同样的原因使用这种机制。大脑中分布式强化学习的存在可以对人工智能和神经科学的发展产生非常有趣的影响。首先,这一发现证实了分布式强化学习的潜力——一种已经被大脑使用的算法。其次,它为神经科学提出了新问题。如果大脑有选择地“倾听”乐观/悲观的多巴胺神经元会怎样?它会导致冲动或抑郁吗?大脑具有强大的表征能力,这些表征是如何通过分布式学习训练出来的?例如,一旦动物学会了分配奖励的机制,它如何在下游任务中使用这种表现形式?多巴胺细胞之间的乐观变异性如何与大脑中其他已知形式的变异性相关?这些问题需要通过后续研究进一步阐明。最后,DeepMind研究人员希望通过提出和回答这些问题来推动神经科学的发展,进而为人工智能研究带来益处,形成良性循环。
