随着人工智能系统越来越先进,智能体“钻空子”的能力也越来越强。虽然在训练集中可以完美的完成任务,但是在测试集中没有捷径可走,表现一塌糊涂。比如游戏的目标是“吃金币”。在训练阶段,金币的位置在每一关的末尾,agent可以完美的完成任务。但是在测试阶段,金币的位置变得随机了,agent每次都会选择到达关卡的尽头,而不是去寻找金币,也就是说,学习到的“目标”是错误的。agent不自觉地追求一个用户不想要的目标,也称为GoalMisGeneralization(GMG,GoalMisGeneralisation)GoalMisGeneralization是一种特殊形式的学习算法,缺乏鲁棒性,一般在这种情况下,Developers可能会检查是否存在问题与他们的奖励机制设置、规则设计缺陷等,并认为这些是agent追求错误目标的原因。最近DeepMind发表了一篇论文,认为即使规则设计者是正确的,代理仍然可能追求用户不想要的目标。论文链接:https://arxiv.org/abs/2210.01790论文通过不同领域的深度学习系统中的例子证明目标误差泛化可以发生在任何学习系统中。如果泛化到通用人工智能系统,该论文还提供了一些假设,表明目标误泛化可能导致灾难性风险。本文还提出了几个研究方向,可以降低未来系统目标错误概括的风险。目标错位近年来,学术界逐渐提出人工智能错位的灾难性风险。在这种情况下,追求非预期目标的高容量AI系统实际上可能会通过假装执行命令来实现其他目标。但是,我们如何解决追求用户意图以外的目标的AI系统呢?以往的工作普遍认为环境设计者提供了不正确的规则和指导,即设计了不正确的强化学习(RL)奖励函数。在学习系统的情况下,还有另一种情况,系统可能会追求一个意想不到的目标:即使规则是正确的,系统也可能始终如一地追求意想不到的目标,在训练时与规则一致,但与部署时的规则不同.以彩球游戏为例,智能体需要在游戏中按照一定的顺序访问一组彩球,而这个顺序对于智能体来说是未知的。为了鼓励智能体向环境中的其他人学习,即文化传播,环境最初包含一个专家机器人,它以正确的顺序访问彩球。在这种环境设置中,代理可以通过观察转移的行为来确定正确的访问顺序,而无需浪费大量时间进行探索。在实验中,通过模仿专家,受过训练的智能体通常在第一次尝试时就正确地访问了目标位置。当智能体与反专家配对时,它会继续收到负奖励,如果它选择跟随,它会继续收到负奖励。理想情况下,智能体最初会跟随反专家到达黄色和紫色的球体。进入紫色后,观察负奖励后不再关注。但在实践中,代理会继续沿着反专家路径前进,积累越来越多的负奖励。不过agent的学习能力还是很强的,可以在充满障碍的环境中移动,但关键是这种跟随他人的能力是一个意想不到的目标。即使代理仅因以正确顺序访问球体而获得奖励,也可能发生这种情况,即正确设置规则是不够的。目标错误泛化是指一种病态行为,即尽管在训练期间收到了正确的反馈,但学习模型的行为就好像它正在优化一个意想不到的目标。这使得目标错误泛化成为一种特殊的鲁棒性或泛化失败,其中模型的能力泛化到测试环境,但预期目标却没有。请注意,目标错误泛化是泛化失败的严格子集,不包括模型中断、随机动作或其他不再表现出合格能力的情况。在上面的例子中,如果你在测试时垂直翻转智能体的观察结果,它只会卡在一个地方,不会做任何连贯的事情,这是一个泛化错误,而不是目标泛化错误。相对于这些“随机”失败,目标错误泛化会导致更糟糕的结果:跟随反专家会给出大量负面奖励,而什么都不做或随机行动会给出0或1的奖励。也就是说,对于真实世界的系统,连贯的行为朝着意想不到的目标前进可能会带来灾难性的后果。不止是强化学习目标Misgeneralization并不局限于强化学习环境,事实上,GMG可以发生在任何学习系统中,包括大型语言模型(LLM)的少样本学习,其目的是建立准确的模型。以去年DeepMind提出的语言模型Gopher为例。当模型计算涉及未知变量和常数的线性表达式时,例如x+y-3,Gopher必须首先询问未知变量的值来求解表达式。研究人员生成了十个训练示例,每个示例包含两个未知变量。在测试时,输入模型的问题可能包含零个、一个或三个未知变量,尽管模型正确处理了具有一个或三个未知变量的表达式,但在没有未知变量时模型仍然会提出冗余问题,例如“6是什么?”该模型在给出答案之前总是至少询问用户一次,即使这完全没有必要。本文还包括其他学习环境中的一些示例。解决GMG对于使AI系统与其设计者的目标保持一致非常重要,因为它可能是AI系统故障的潜在机制。我们越接近通用人工智能(AGI),这个问题就越关键。假设有两个AGI系统:A1:Intendedmodel,人工智能系统可以做任何设计者想做的事情A2:Deceptivemodel,人工智能系统追求一些意想不到的目标,但它足够聪明,知道如果它的行为与设计者的意图相反。A1和A2模型在训练期间将表现出完全相同的行为,即存在于任何系统中的潜在GMG,即使指定为仅奖励预期行为也是如此。如果发现A2系统作弊,该模型将试图逃避人为监督,以制定计划来实现用户无意的目标。这听起来有点像“机器人变好了”。在论文中,DeepMind研究团队还研究了如何解释和递归评估模型的行为。研究小组还收集了所生产的GMG的样本。文档链接:https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml参考:https://www.deepmind-alith-arithcaned-se-correct-rewards
