当前位置: 首页 > 科技观察

结合LSTM和Transformer的优势,DeepMind的强化学习代理可以提高数据效率

时间:2023-03-20 21:48:39 科技观察

近年来,多代理强化学习取得了突破。比如DeepMind开发的AlphaStar在《星际争霸2》中击败职业星际玩家,超越99.8%的人类玩家;OpenAIFive曾多次击败DOTA2世界冠军队伍,是第一个在电竞比赛中击败冠军的AI系统。但是,许多强化学习(RL)代理需要进行大量实验才能解决任务。最近,DeepMind的研究人员提出了CoBERL(ContrastiveBERTforRL)代理,它结合了新的对比损失和混合LSTM-transformer架构来提高数据处理效率。CoBERL使用来自更广泛领域的像素级信息实现高效和稳健的学习。具体来说,我们使用双向掩模预测,结合对最近对比方法的泛化,在没有手动数据增强的情况下学习RL中变换器的更好表示。实验表明,CoBERL持续改进了Atari套件、一组控制任务和具有挑战性的3D环境的性能。论文地址:https://arxiv.org/pdf/2107.05431.pdf方法介绍为了解决深度强化学习中的数据效率问题,研究人员对目前的研究提出了两个修改:首先,提出了一种新的表示学习目标是通过增强掩码输入预测中的自注意力一致性来学习更好的表示;其次,提出了一种架构改进,可以结合LSTM和transformer的优点。CoBERL整体架构图。表征学习研究人员将BERT与对比学习相结合。基于BERT方法,本研究将transformer的双向处理机制与掩码预测设置相结合。一方面,双向处理机制允许代理根据时间环境了解特定状态的上下文。另一方面,位于掩码位置的预测输入通过降低预测后续时间步长的概率来缓解相关输入问题。研究人员还使用了对比学习,虽然许多对比损失(例如SimCLR)依赖于数据扩充来创建可以比较的数据组,但本研究不需要利用这些手工制作的数据扩充来构建代理任务。相反,该研究依赖于输入数据的顺序性质来创建对比学习所需的相似点和不同点的必要分组,而不需要仅依赖图像观察的数据增强(例如裁剪和像素更改)。对于contrastiveloss,研究人员使用了RELIC,它同样适用于时域;他们通过对齐GTrXLtransformer输入和输出来创建数据分组,并使用RELIC作为KL正则化来提高所用方法的性能,例如图像分类领域的SimCLR和Atari在两个RL领域都提高了性能。CoBERL架构Transformers在自然语言处理和计算机视觉任务中连接远程数据依赖非常有效,但在RL设置中,transformers难以训练且容易过度拟合。相比之下,LSTM已被证明在RL中非常有用。虽然LSTM不能很好地捕获长程依赖,但它可以有效地捕获短程依赖。本研究提出了一个简单但强大的架构变化:在GTrXL之上添加一个LSTM层,同时LSTM和GTrXL之间的附加门控残差连接由GTrXL的输入调制。此外,该架构具有从变压器输入到LSTM输出的跳过连接。更具体地说,Y_t是编码器网络在时间t的输出,附加模块可以通过以下等式定义:这些模块是互补的,因为transformer没有最近的偏差,而LSTM的偏差可以表示最近的输入-Equation6Gatein允许混合编码器表示和变压器输出。这种内存架构独立于RL机制的选择,我们在on和off策略设置中对其进行评估。对于on-policy设置,本研究使用V-MPO作为RL算法。V-MPO使用目标分布进行策略更新,并将参数部分移向受KL约束约束的目标。对于off-policy设置,研究人员使用R2D2。R2D2代理:R2D2(循环回放分布式DQN)演示了如何为具有循环架构的代理调整回放和RL学习目标。鉴于其在Atari-57和DMLab-30上的竞争性能,研究人员在R2D2的上下文中实施了CoBERL架构。他们有效地用门控变换器和LSTM组合替换了LSTM,并添加了对比表示学习损失。因此,借助R2D2和分布式经验收集的好处,循环代理状态存储在重放缓冲区中,并在训练期间作为具有重放序列的展开网络的一部分“烧入”。V-MPOAgent:鉴于V-MPO在DMLab-30上的强大性能,特别是结合作为CoBERL关键组件的GTrXL架构,本研究使用V-MPO和DMLab30来演示CoBERL与on-policy的使用算法。V-MPO是一种基于最大后验概率策略优化(MPO)的在线策略自适应算法。为了避免策略梯度方法中经常出现的高方差,V-MPO使用目标分布进行策略更新,受制于基于样本的KL,并计算梯度以将参数部分移向目标,目标也受制于KL。与MPO不同,V-MPO使用可学习的状态值函数V(s)而不是状态动作值函数。实验细节研究人员证明1)CoBERL在更广泛的环境和任务中提高了性能,以及2)所有组件都需要最大化性能。实验证明了CoBERL在Atari57、DeepMindControlSuite和DMLab-30上的性能。下面的表1显示了当前可用的不同代理的结果。结果表明,CoBERL在大多数游戏中的表现优于人类平均水平,并显着优于同类算法的平均表现。R2D2-GTrXL的中位数略好于CoBERL,说明R2D2-GTrXL确实是Atari上的强变体。研究人员还观察到,在检查“25%和5%”时,CoBERL的性能与其他算法的差异更大,这表明CoBERL提高了数据效率。为了在具有挑战性的3D环境中测试CoBERL,该研究在DmLab30中运行,如下图2所示:下表3中的结果表明,与没有对比损失的CoBERL相比,对比损失可以显着改善Atari和DMLab-30。表现。此外,在DmLab-30等具有挑战性的环境中,没有额外损失的CoBERL仍然优于基线方法。下表4展示了本研究提出的contrastiveloss与SimCLR和CURL的对比:结果表明contrastiveloss虽然比SimCLR和CURL简单,但性能更好。下面的表5显示了从CoBERL中移除LSTM的效果(无LSTM的列),以及移除门及其关联的跳过连接(无门的列)。CoBERL的性能在这两种情况下都差得多,这表明CoBERL需要这两个组件(LSTM和Gate)。下面的表6根据参数的数量比较了模型。对于Atari,CoBERL在R2D2(GTrXL)基线上添加了有限数量的参数;然而,CoBERL仍然在性能上取得了显着的提升。该研究还尝试将LSTM移动到transformer模块之前,在这种情况下,对比损失表示取自LSTM之前。