当前位置: 首页 > 科技观察

模型输入不靠眼睛!一国之作:强化学习拥有和人类一样的感知能力

时间:2023-03-18 01:54:11 科技观察

人的适应能力太可怕了!盲人不能用眼睛看到世界,但是通过练习,他的手杖变成了他的眼睛。如果神经网络的眼睛只能看到混乱的世界,它会习惯吗?GoogleBrain最近在NeurIPS2021的spotlight论文中研究了这个问题,随机打乱输入图像,发现通过强化学习得到的agent仍然可以做出正确的决策!人类的感官能力实际上非常惊人。著名的神经科学家保罗·巴赫利塔曾用盲棍对盲人进行过细致的观察和研究。他发现,盲人走路时会来回扫动手杖,手杖的尖端会通过皮肤上的触觉感受器告诉盲人路况信息。Bach-y-Rita就是这样受到启发的。他认为,盲人手杖可以看作是盲人与物体之间的“接口”。通过盲人手杖在手上的压力触觉,可以反馈给盲人,形成房间摆设等空间信息。因此,手上的皮肤及其触觉感受器充当信息收集站,可以代替视网膜在大脑中形成图像。不需要用眼睛看,也不需要用耳朵听,真正的看和听都在脑子里!这种适应,也称为感觉替代,是神经科学中众所周知的现象。但一些困难的适应可能需要数周、数月甚至数年的练习,比如调整你习惯看事物的角度,学会倒着骑自行车(向后)等等。相比之下,大多数神经网络根本无法产生感官替代。例如,大多数强化学习(RL)模型要求模型的输入必须采用预先指定的格式。这些格式限制了输入向量的长度是固定的,输入的每个元素的精确含义已经预先确定,比如指定位置的像素强度、状态信息、位置或速度等。在一些流行的RL基准测试任务(例如Ant或Cart-Pole),如果模型的输入发生变化,或者如果模型提供了与手头任务无关的额外噪声输入,则使用当前RL算法训练的代理将不会继续使用。针对这个问题,Google在NeurIPS2021上发表了一篇焦点论文,探索具有置换不变性的神经网络模型。这种神经网络要求每个感觉神经元(从环境接收感觉输入的神经元)必须能够根据输入信号的上下文找到信号的真正含义,而不是明确地分配一个固定的含义。实验结果表明,这些非预先指定的代理能够处理包含额外冗余或噪声信息的损坏、不完整的观察输入。https://arxiv.org/abs/2109.02869PermutationInvariant是指特征之间没有空间位置关系,即使输入的顺序发生变化,也不会影响输出结果。例如,在多层感知器中,改变像素的位置对最终结果没有影响,但对于卷积网络,特征之间存在空间位置关系。除了适应状态观察环境中的感官替代,该研究还表明,这些代理也可以适应复杂的视觉观察环境中的感官替代。例如,在赛车游戏中,当输入图像流不断重新洗牌时,即使人眼无法再看到图像,AI仍然可以做出正确的动作。论文作者唐宇进,2007年获得上海交通大学计算机科学学士学位,2010年获得早稻田大学硕士学位。主要从事强化学习和机器人研究,热衷于将相关技术应用于现实世界的问题。这篇论文提出的研究方法在每个时间步从环境中获取一个观察值,并将观察值的每个元素馈送到一个不同但相同(identiccal)的神经网络,也称为感觉神经元(sensoryneurons),网络与彼此。每个感觉神经元仅通过其特定的感觉输入通道整合时间信息。由于每个感觉神经元只能接收到整个画面的一小部分,它们需要从组织(self-organize)信息结构中相互沟通,才能进行全局的、连贯的(coherent)决策行为。在实验中,研究人员还训练神经元使用广播消息相互通信。在接收本地信息的同时,每个感觉神经元还需要在每个时间步连续广播输出消息。使用类似于Transformer架构中使用的注意机制,可以将这些消息集成并组合成输出向量,称为全局潜在代码。然后,策略网络使用全局潜在代码生成代理与环境交互的下一个动作。动作结束后,通信回路闭合。大家可能也有疑问,为什么这个系统的输入排列变化对模型输出没有影响呢?因为每个感觉神经元都是同一个(相同的)神经网络,它们不限于处理来自特定感觉输入的信息,实际上每个感觉神经元的输入是没有定义的。相反,每个神经元必须通过关注其他感觉神经元接收到的输入来在自己的输入中找到意义。此操作还提示代理将整个输入作为未排序的集合进行处理,从而使系统保持其输入不变。此外,经过训练的代理可以根据实际需要使用多个感觉神经元来处理任意长度的输入。在实验结果中,研究人员在简单的状态观察环境中展示了该方法的鲁棒性和灵活性。常见的Ant运动任务中的agent总共需要接收28个输入,包括位置和速度信息等。研究人员多次打乱输入向量的顺序,实验仍然表明,经过训练的agent可以快速适应不同的输入的安排,仍然能够在整个游戏过程中不断前进。在车杆实验中,智能体的目标是摆动安装在车中央的车杆并使其保持向上平衡。通常情况下,代理只能看到五个输入,但研究人员修改了实验环境以提供15个混合输入信号,其中10个是纯噪声,其余是对环境的实际观察。结果表明,agent仍然能够高效地执行任务,这也证明了系统处理大量噪声输入的能力,agent只能使用它认为有用的信息通道。研究人员还将这种方法应用于高维视觉设置,其中模型输入是来自图像的像素流。实验主要研究基于视觉的RL环境的screen-shuffled版本,其中每个观察帧被分成一个patch网格,看起来像一个迷宫,agent必须按shuffle顺序处理patch以确定下一步要采取的行动。在实验中,研究人员给了智能体屏幕上补丁的随机样本,然后让游戏的其余部分保持不变。结果发现,该模型仍然可以解决这些固定随机位置的70%的补丁,并且仍然能够与内置的Atari对手保持一致。有趣的是,如果研究人员随后向代理透露额外的信息,即允许它获取更多图像块,即使没有额外的训练,它的性能也会提高。当智能体收到所有补丁时,即使顺序是随机的,它也会100%地胜过内置AI。而且这些操作虽然在训练过程中增加了一些学习难度,但也会带来额外的好处,比如提高模型的泛化能力。即使在训练过程中更换了新的图像来替换环境背景,agent仍然可以正常运行。作者认为,这种排列不变神经网络将大大促进强化学习的发展,因为它不限制输入,可以滤除大量噪声。