人类已经证明,大脑中的神经系统具有改变结构的能力,以不断适应外界环境的变化。由于学习和经验的影响,大脑中神经元之间的突触和连接可以建立新的连接。相应的,人类技能树中也存在着感官代入的天赋。例如,一些先天失明的人可以通过将图像转换为声音来学习感知人体形状的能力。如果人工智能有这种能力,它也可以用耳朵通过声音和回声“看到”周围的世界,就像蝙蝠和海豚一样。近日,谷歌大脑的一篇题为《TheSensoryNeuronasaTransformer:Permutation-InvariantNeuralNetworksforReinforcementLearning》的论文证明了强化学习具有这种“感官替代”的能力。论文地址:https://arxiv.org/pdf/2109.02869.pdf具体来说,作者在论文中设计了一系列的强化学习系统,可以将环境中的每一个感官输入(sensoryinputs)转移到不同的、神经网络中具有一定的联系,值得一提的是,这些神经网络之间并没有固定的关系。我们表明,可以训练这些感官网络来整合本地接收的信息,并通过注意力机制进行交流,从而共同得出全球一致的解决方案。此外,即使在单个事件中多次随机排列输入序列,系统仍然可以执行其任务。1.证明过程现代深度学习系统通常无法适应感官输入的随机重新排序,除非重新训练模型或用户更正模型的输入顺序。然而,元学习技术可以帮助模型适应这种变化。例如自适应权重、赫布学习和基于模型的方法。在论文中,作者研究的代理都有一个共同的特点:它们在执行任务时用于处理感官输入,并且输入是突然随机重新排序的。受元胞自动机相关的自组织神经网络近期发展的启发,作者将每个感官输入(可以是连续控制环境中的单一状态,或视觉环境中的像素块)馈送到单独的神经网络整合一段时间内仅来自该特定感官输入通道的信息的模块。在本地接收信息的同时,这些单独的感觉神经网络模块还不断广播输出信息。参考SetTransformer架构,注意力机制将这些信息组合起来形成全局潜在代码(globallatentcode),然后将其转换到代理的动作空间中。注意力机制可以看作是神经网络中自适应加权的一种形式,在这种情况下,允许以任意随机顺序处理任意数量的感官输入。在实验中,作者发现每个单独的感觉神经网络模块,虽然只接收局部信息,但仍然可以共同生成全局一致的策略,并且这样的系统可以被训练来执行环境中的几个流行的强化学习(RL)任务.此外,作者设计了一个系统,能够以任何随机排列的顺序使用不同数量的感官输入通道,即使在一个情节中再次重新排列顺序也是如此。如上所示,即使以重新排列的顺序给定屏幕的一小部分(30%),pong代理也可以继续工作。另一方面,鼓励系统学习的排列不变观察空间的连贯表示使策略更加稳健和通用。研究表明,在没有额外训练的情况下,即使添加了包含噪声或冗余信息的额外输入通道,系统也能继续发挥作用。在视觉环境中,即使只从屏幕上随机选择少量的图块,在测试时,如果提供更多的图块,系统也可以使用额外的信息来更好地执行。作者还证明,尽管在单个固定背景上进行了训练,但该系统能够泛化到具有不同背景图像的视觉环境。最后,为了使训练更加实用,作者提出了一种行为克隆方案,将使用现有方法训练的策略转换为具有理想属性的排列不变策略。图注:方法概述上图中的AttentionNeuron是一个独立的层,其中每个感觉神经元只能访问一部分“无序观察”。结合agent之前的动作,每个神经元使用共享函数,然后独立产生信息。图例:符号列表在上表中,作者还提供了我们模型中针对不同强化学习环境使用的维度,以便读者了解系统的各个部分。图例:CartPoleSwingUpHarder中的置换不变代理在上面的演示中,用户可以随时重新排列5个输入的顺序,并观察代理如何适应新的输入顺序。Demo地址:https://attentionneuron.github.io/图注:汽车杆测试的作者报告了每个实验1000个测试事件的平均分和标准差。智能体仅在具有5个感官输入的环境中接受训练。图例:排列不变输出当作者按原样输入传感器阵列(顶部)或随机重新排列阵列(底部)时,注意神经元层(16维全局潜在代码)的输出不会改变。黄色代表较高的值,而蓝色代表较低的值。图注:Processinganunspecifiednumberofadditionalnoisechannels在没有额外训练的情况下,agent接收到15个重新排列顺序的输入信号,其中10个是纯高斯噪声(σ=0.1),另外5个是Actualobservationsfromthe环境。与之前的演示一样,用户可以重新排列15个输入的顺序,并观察代理如何适应新的输入顺序。图例:测试集中注意神经元层输出的2D嵌入作者在图中突出显示了几个具有代表性的组并显示了他们的采样输入。对于每个组,我们显示3个相应的输入(行)并拆开每个输入以显示时间维度(列)。CarRacing的基本任务(左),修改后的洗屏任务(右)。作者的agent就是在这个环境下训练的。如上图所示,右边的画面是agent观察到的,左边的画面是人眼观察到的。人类会发现很难通过重新排列的观察结果来驾驶,因为人类并不经常面临这样的任务,就像前面提到的“向后骑自行车”的例子一样。2.讨论和未来在这项工作中,作者研究了深度学习代理的属性,这些代理可以将他们的观察作为任意排序的、可变长度的感官输入列表。通过独立处理每个输入流,并使用注意力来整合处理过的信息。即使在一个episode中多次随机改变观察的顺序,并且没有进行任何训练,agents仍然可以执行任务。我们在下表中报告了每个环境的性能比较结果。在正在进行的工作中,重新安排了观察结果。在每一集中,作者每隔t步重新排列观察结果。CartPole任务种类繁多,因此测试了1000次。对于其他任务,报告了100次测试的平均值和标准差。除AtariPong外,所有环境都有每集1000步的硬性限制。在AtariPong中,虽然没有每集的最大长度,但据观察,每集通常持续2500步左右。通过打乱代理顺序,即使是不完整的观察也可以驱使它解释每个局部感官输入的含义及其与全局的关系,这在当前的许多应用中都有实际用途。例如,当应用于机器人技术时,可以避免由于交叉布线或复杂的动态输入输出映射引起的错误。类似于CartPole实验的设置,具有额外的噪声通道,使接收数千个噪声输入通道的系统能够识别具有相关信息的一小部分通道。局限性在于,对于视觉环境,补丁大小的选择会影响性能和计算复杂性。作者发现6x6像素的patch大小在任务中有效,4x4像素的patch大小在一定程度上也有效,但单个像素的观察不起作用。较小的补丁大小也会产生较大的注意力矩阵,除非使用近似值,否则这在计算上可能会令人望而却步。另一个限制是排列不变属性仅适用于输入,不适用于输出。虽然观察的顺序可以再次打乱,但动作的顺序不能。为了使排列不变的输出起作用,每个阶段都需要来自环境的反馈,以了解自身与环境之间的关系,包括奖励信息。一个有趣的未来研究方向是使动作层也具有相同的属性,并使用注意力连接将每个运动神经元建模为一个模块。使用作者的方法,可以训练具有任意数量的代理,或使用单一策略控制具有不同形态的机器人,该策略将奖励信号作为反馈。此外,在这项工作中,作者设计了接受先前动作作为反馈信号的方法。然而,反馈信号不限于动作。作者表示,他们期待看到未来的工作包括环境奖励等信号,这些信号不仅适应观察到的环境变化,而且适应自身的变化,以训练排列不变的元学习代理。
