DeepMind的强化学习方法有望在AI和人类之间更好地协作。希望人工智能能够在复杂的游戏中击败人类。但人工智能面临的更大挑战是创建可以与人类合作而不是竞争的系统。DeepMind的人工智能研究人员开发了一种新技术,可以提高深度学习代理与不同技能水平的人合作的能力。在2020年年度NeurIPS会议上推出的这项技术被称为虚构合作(FCP),不需要人工生成的数据来训练强化DL代理。在益智游戏Overcooked的测试中,FCP创建了DL智能体,在与人类玩家合作时可以提供更好的结果并减少混乱。该技术为未来人工智能系统的研究提供了重要方向。训练DL代理强化学习(RL)可以不知疲倦地学习任何具有明确奖励、动作和状态的任务。如果有足够的计算能力和时间,DL代理可以利用其环境来学习一系列动作或“策略”,以最大化其回报。事实证明,DL在玩游戏时非常有效。但通常,DL代理学习的策略与人类游戏不兼容。当与人类合作时,它们会执行使人类感到困惑的操作,使其难以用于需要人类共同计划和分工的应用程序。弥合人工智能与人类之间的鸿沟已成为人工智能界面临的重要挑战。研究人员正在寻找创建多功能DL代理的方法,这些代理可以适应各种合作伙伴的习惯,包括其他DL代理和人类。训练DL代理的不同方法为游戏训练DL代理的传统方法是自我对弈(SP),其中DL代理不断地与自己的副本进行游戏。自我对弈(SP)在快速学习最大化游戏奖励的策略方面可能非常有效,但由此产生的DL模型会过度拟合其自身的游戏玩法,并且与受过不同训练的成员合作时效果不佳。另一种训练方法是groupplay(PP),它与具有不同参数和架构的各种合作伙伴一起训练DL代理。Groupplay(PP)代理在与人类的合作游戏中比self-play(SP)表现得更好。但他们仍然缺乏共同奖励设置所需的多样性,玩家必须共同解决问题并协调他们的策略以应对环境的变化。另一种选择是行为克隆游戏(BCP),它使用人工生成的数据来训练DL代理。BCP模型不是从随机探索环境开始,而是根据从人类游戏中收集的数据来调整参数。这些代理开发的行为更类似于人类发现的游戏模式。如果数据是从具有不同技能水平和游戏风格的不同用户那里收集的,DL代理可以更灵活地适应合作伙伴的行为。因此,他们更有可能与人类玩家兼容。然而,生成人类数据具有挑战性,特别是因为DL模型通常需要大量练习才能达到最佳设置。FCPDeepMind的新DL技术FCP的主要思想是创建可以帮助不同风格和技能水平的玩家的代理,而无需依赖人工生成的数据。FCP训练分两个阶段进行:在第二阶段,DeepMind研究人员创建了一组自玩DL代理。这些智能体是独立训练的,具有不同的初始条件。因此,他们专注于不同的参数设置并创建多样化的DL代理池。为了使代理池的技能水平多样化,研究人员在训练过程的不同阶段保留了每个代理的快照。“最后一个检查点代表训练有素的‘熟练’合作伙伴,而较早的检查点代表技能较低的合作伙伴,”研究人员在他们的论文中指出。值得注意的是,通过使用多个检查点,这种额外的技能多样性不会导致额外的培训成本。”在第二阶段,以代理池中的所有代理作为其合作伙伴来训练新的DL模型。这样一来,新的智能体不得不调整自己的策略,以与参数值和技能水平不同的伙伴合作。“FCP代理将跟随他们的人类伙伴的脚步,学习一系列策略和技能的一般策略,”DeepMind研究人员写道。测试FCPDeepMind的AI研究人员将FCP应用于益智游戏Overcooked,玩家必须在网格世界中移动,与其他玩家互动,并执行一系列步骤来烹饪和运送食物。Overcooked游戏很有趣,因为它有一个非常简单的动态,但同时需要队友之间的协调和劳动力分配。为了测试FCP,DeepMind公司简化了Overcooked以包括整个游戏中执行的任务的子集。AI研究人员还收录了一系列精心挑选的地图,这些地图提出了各种挑战,例如强制协调和狭窄空间。DeepMind使用简化版的Overcooked来测试DL和FCP。研究人员训练了一组SP、PP、BCP和FCP代理。为了比较他们的表现,他们首先针对三组玩家测试了每种DL智能体类型,包括一个在人类游戏数据上训练的行为克隆(BC)模型、一组在不同技能水平上训练的SP智能体,以及一个具有代表性的低技能随机初始化的代理。他们根据相同轮数中提供的食物量来衡量表现。他们的结果表明,FCP明显优于所有其他类型的DL代理,这表明它可以很好地概括各种技能水平和游戏风格。此外,令人惊讶的发现之一是其他训练方法非常脆弱。“这表明他们可能无法与技能较低的代理人合作,”研究人员写道。FCP优于其他训练DL代理的方法。然后,他们测试了每种类型的RL智能体在与人类玩家合作时的表现。研究人员对114名人类玩家进行了在线研究,每人玩了20轮。在每一轮中,玩家被随机放置在一个厨房中,并与其中一名RL玩家组队,但不知道它是哪种类型。根据DeepMind的实验结果,人类和FCP的结合优于所有其他类型的RL智能体。每两次比赛后,参与者将他们与RL智能体的体验评分为1-5分。与其他代理人相比,参与者更喜欢FCP,他们的反馈表明FCP的行为更连贯、可预测和适应性更强。例如,RL代理似乎了解其队友的行为,并通过在每个烹饪环境中选择特定角色来防止混淆。另一方面,调查参与者将其他DL代理的行为描述为“混乱且难以适应”。在DeepMind将人类玩家与不同的DL代理结合起来还有更多工作要做。在论文中,研究人员指出了他们工作的一些局限性。例如,FCP代理由32个DL合作伙伴训练,这对于精简版的Overcooked来说已经足够了,但对于更复杂的环境来说可能会受到限制。“对于更复杂的游戏,FCP可能需要一个不切实际的大伙伴群体规模来代表足够多样化的策略,”DeepMind研究人员写道。奖励的定义是限制FCP在复杂领域中使用的另一个限制。挑战。在Overcooked中,奖励简单明了。在其他环境中,RL智能体必须完成子目标,直到获得主要奖励。他们实现子目标的方式需要与人类玩家的方式兼容,如果没有人类玩家数据,这很难评估和调整。研究人员写道:“如果一项任务的奖励功能与人类处理任务的方式不一致,那么这种方法可能会产生低于标准的DL代理,就像任何无法访问人类数据的方法一样。”DeepMind这项研究是更广泛的人机协作研究的一部分。麻省理工学院科学家最近的一项研究探讨了DL代理在与人类玩Hanabi游戏时的局限性。DeepMind的新DL技术是弥合人类与人工智能解决问题差距的重要一步,研究人员希望为研究人机协作奠定坚实的基础,造福未来社会。原标题:DeepMindRLmethodpromisesbetterco-opbetweenAIandhumans,作者:BenDickson
