强化学习(RL)存在很多问题,例如收敛性差。在弱实验环境下,模型测试结果似乎可以接受,很多问题没有明显暴露出来,但是大量实验证明了深度RL泛化是困难的:虽然RLagents可以学习执行非常复杂的任务,它似乎不同任务的泛化能力差。相比之下,有监督的深度网络具有更好的泛化能力。一些研究人员认为,对于监督学习来说,错误只是一张错误分类的图片。对于在MDP(MarkovDecisionProcess)假设下的RL,错误的识别会导致次优决策,甚至可能继续错误,这是RL无法在现实世界中使用的根本原因。为什么强化学习的泛化从根本上是困难的,即使从理论的角度来看也是如此?来自加州大学伯克利分校的博士生DibyaGhosh和其他研究人员共同撰写了一篇文章来解释这一现象。文章从认知POMDP(EpistemicPOMDP)和隐式部分可观察性(ImplicitPartialObservability)两个方面进行了解释。合著者DibyaGhosh的研究重点是使用强化学习进行决策。此前,他曾在蒙特利尔的GoogleBrain工作。论文地址:https://arxiv.org/pdf/2107.06277.pdfLearningbyexample在正式分析RL泛化之前,研究人员首先通过两个例子解释了RL泛化困难的原因。PictureGuessingGame在这个游戏中,RL智能体在每一集(episode)看到一张图像,并尝试尽快猜出图像标签(下图1)。在每一个时间步长(timestep)中,agent都要进行一次猜测;如果猜对了,那么这一轮就结束了。但如果它猜错了,智能体会收到负面反馈,并且必须在下一轮对同一图像进行另一次猜测。因为每个图像都有一个唯一的标签(具有正确的标签函数f_true:x—>y),代理接收图像作为观察,这是一个完全可观察的RL环境。图1:在猜图游戏中,智能体反复猜测图像标签,直到猜对为止。假设我们可以访问无限数量的训练图像并使用标准RL算法学习策略。该策略将学习如何确定地预测真实标签(y:=f_true(x)),这也是MDP中回报率最高的策略。仅给定一组有限的训练图像,RL算法仍会学习相同的策略来确定性地预测与图像匹配的标签。但是这个策略的泛化程度如何?在未见过的测试图像上,如果智能体预测标签仍然正确,则智能体将获得最高奖励;如果不正确,代理将收到灾难性的低奖励,因为它永远猜不到正确的标签。这种灾难性的失败模式一直存在,因为即使现代深度网络提高了泛化能力并减少了错误分类的机会,但测试集上的错误不能完全减少到零。我们能比这种确定性预测策略做得更好吗?因为学习RL策略忽略了猜谜游戏的两个显着特征:1)代理在一轮中收到关于其猜测是否正确的反馈,以及2)代理可以在未来的时间步长中更改其猜测。消除过程策略很好地利用了这两个特征:首先,RL选择它认为最有可能的标签,如果不正确,则消除该标签并适应下一个最有可能的标签,依此类推向前。然而,标准的RL算法永远无法学习这种基于记忆的自适应策略,因为它们优化了MDP目标并且只学习确定性和无记忆的策略。迷宫求解算法是RL泛化基准测试的主要内容。迷宫求解问题要求智能体能够导航到迷宫中的目标,并给出整个迷宫的鸟瞰图。此任务完全基于观察,其中向代理显示整个迷宫地图。因此,只要代理遵循到达目标的最短路径,最优策略就是无记忆和确定性的。就像在猜图游戏中一样,RL通过在训练迷宫的布局内最大化奖励来确定性地采取它认为到达目标的最短路径的动作。这种RL策略的泛化能力很差,因为如果学习策略选择了错误的动作,例如撞墙或原路返回,它会不断重复同样的错误,永远无法解决迷宫问题。然而,这种失败模式是完全可以避免的,因为即使RL智能体最初采取了这样一个不正确的动作,在几次跟进之后,智能体也会收到关于所采取的动作是否正确的信息(例如,基于下一次观察)。为了尽可能地概括,如果代理的初始行为导致意外结果,则代理应调整其选择的行为,但此类行为避免了标准的RL目标。图2:在迷宫任务中,RL策略的泛化能力很差:犯错时,它们会重复同样的错误,从而导致失败(左)。泛化能力强的智能体也会犯错误,但适应性强并且能够从这些错误中恢复(右)。用于泛化的标准RL目标不会学习此行为图3:有限的训练数据集会阻止代理准确地恢复真实环境。相反,存在隐含的部分可观察性,因为代理不知道一组一致的环境中的哪一个是真实环境保留的上下文。这些相互矛盾的假设代表了代理在有限训练集中的认知不确定性。更重要的是,智能体通过轨迹接收到的信息可以改变其在评估时的认知不确定性。假设对于猜谜游戏中的图像,智能体最初不确定标签“T恤/外套”。如果智能体猜测“T恤”并收到错误的反馈,智能体会改变其不确定性并对“外套”标签更有信心,这意味着它应该因此适应并猜测“外套”。具有隐式部分可观察RL代理的认知POMDP有两种方法来处理他们的认知不确定性:主动转向低不确定性区域和使用信息收集。但他们都没有回答以下问题:“有没有最好的方法来处理不确定性,如果有,我们应该如何描述它?”从贝叶斯的角度来看,事实证明存在这样一个最优解:最优泛化要求我们解决“部分可观察的马尔可夫决策过程(POMDPs)”,这是由代理人的认知不确定性隐式创建的。认知POMDP的工作原理如下:由于代理只能看到有限的训练集,因此存在许多与提供的训练上下文一致的可能环境。一组一致的环境可以通过贝叶斯后验对环境P(M|D)进行编码。在认知POMDP的每个阶段,agent都被置于这个一致的环境M~P(M|D)中,并要求最大化其中的reward。该系统对应于POMDP,因为代理只能部分观察到动作所需的相关信息:虽然环境中的状态可以观察到,但生成这些状态的环境M的信息对代理是隐藏的。认知POMDP将泛化问题实例化为贝叶斯RL框架,该框架更广泛地研究MDP分布下的最优行为。图4:在认知POMDP中,代理在每个阶段与不同的相互一致的环境交互,但不知道它与哪个环境交互会导致部分可观察性。要想做得好,代理必须采用一种(可能是基于记忆的)策略,无论将其置于何种环境,该策略都可以正常工作。让我们通过一个例子来看一个认知POMDP。对于猜谜游戏,agent不确定图像是如何被准确标记的,因此每个可能的环境M~P(M|D)对应一个不同的图像标记器,这与训练数据集一致:f_M:X→Y。在猜谜游戏的识别POMDP中,每个stage随机选择一个图像x和一个labelerf_M,要求agent输出采样分类器分配的labely=f_M(x)。代理不能直接这样做,因为分类器的标识没有提供给代理,只有图像x。如果所有标记器f_Mposteriors都同意图像的标签,则代理只能输出该标签(没有部分可观察性)。但是,如果不同的分类器分配不同的标签,代理必须使用平均表现良好的策略。CognitivePOMDP还强调了从有限训练集的上下文中学习策略的危险:在训练集上运行完全可观察的RL算法。这些算法将环境建模为MDP,并学习MDP最优策略,即确定性和马尔可夫策略。这些策略不考虑部分可观察性,因此往往泛化能力很差(例如,在猜谜游戏和迷宫任务中)。这表明基于MDP的训练目标(现代算法的标准)与认知POMDP训练目标(实际上决定了学习策略的泛化程度)之间存在不匹配。在RL中推进泛化我们应该怎么做才能学习更好泛化的RL策略?认知POMDP提供了一个规范的解决方案:当可以计算代理在环境中的后验分布时,构建认知POMDP并在其上运行POMDP求解算法将产生广义贝叶斯最优策略。不幸的是,在大多数有趣的问题中,它还没有完全实现。尽管如此,认知POMDP可以作为设计具有更好泛化能力的RL算法的基准。作为第一步,论文中的研究人员介绍了一种称为LEEP的算法,该算法使用统计自举来学习近似于认知POMDP的策略。LEEP在Procgen上显着提高了PPO的测试时间性能,Procgen是RL代理的具有挑战性的泛化基准(图3)。虽然只是一个粗略的近似值,但LEEP提供了一些迹象表明,尝试在认知POMDP中学习策略可能是开发更通用的RL算法的有效方法。图5:基于认知POMDP目标的算法LEEP在四个Procgen任务中比PPO具有更好的泛化性能在监督学习中,优化训练集性能可以提高模型泛化能力,因此,很容易假设RL中的泛化可以用相同的方式解决。强化学习中有限的训练数据将隐含的部分可观察性引入到完全可观察的问题中。这种隐含的部分可观察性,正如在认知POMDP中形式化的那样,意味着在RL中很好地泛化需要自适应或随机行为,这是POMDP问题的关键。最终,这凸显了深度RL算法泛化的不相容性:由于训练数据有限,基于MDP的RL目标与最终决定泛化性能??的隐式POMDP目标不一致。
