当前位置: 首页 > 科技观察

强化学习AI能带你1到5吗?MIT新研究:AI不是人类最好的队友

时间:2023-03-19 02:18:21 科技观察

AI加上强化学习,在围棋、星际争霸、王者荣耀等游戏中绝对碾压人类玩家。也证明了思维能力是可以通过模拟获得的。但是这么强的AI如果成为你的队友,能带走吗?最近麻省理工学院林肯实验室的研究人员在纸牌游戏花火(Hanabi)中人类与AIagents的合作研究结果表明,虽然RLagent的个体表现能力非常好,但当它与人类玩家匹配时,它是难的。只会让人说的太可怜了。BestTeammate》>https://arxiv.org/pdf/2107.07630.pdfHanabi是一款需要玩家交流合作才能获胜的游戏。在这个游戏中,人类玩家更喜欢基于可预测规则的AI系统,而非黑盒神经网络网络模型。最佳队友”>一般来说,最先进的游戏机器人使用深度强化学习(deepreinforcementlearning)。首先,通过在游戏中提供代理和一组可能的候选动作,通过来自环境的反馈机制进行学习。在训练过程中,还使用随机探索动作来最大化目标以获得最优动作序列。深度强化学习的早期研究依赖于人类玩家提供的游戏数据进行学习。最近,研究人员已经能够在没有人类数据的情况下完全通过自我博弈来开发RL智能体。麻省理工学院林肯实验室的研究人员更关心如何让如此强大的AI成为队友。这项工作还可以让我们更好地理解是什么阻止了强化学习的应用仅限于视频游戏,而不是扩展到现实世界的应用程序。“最佳队友”>最近的强化学习研究大多应用于单人游戏(AtariBreakout)或对抗游戏(星际争霸,围棋),其中主要的AI对手是人类玩家或其他AI机器人。在这些对抗中,强化学习取得了前所未有的成功,因为机器人对这些游戏没有一些先入为主的偏见和假设,而是从头开始学习玩游戏,并用最好的玩家数据进行训练。事实上,AI学习玩游戏后,他们甚至创造了一些一个著名的例子就是DeepMind的alphago在它的游戏中下了一步棋,但分析人士认为这步棋是错误的,因为它违背了人类专家的直觉,但同样的一步棋却带来了不同的结果,最终AI成功战胜了人类这一举动。因此,当RL代理与人类合作时,研究人员认为同样的独创性可以发挥作用。BestTeammates》>麻省理工学院的研究人员选择纸牌游戏Hanabi进行实验,该游戏涉及2到5名玩家,他们必须按照特定顺序合作玩牌。Hanabi很简单,但它也是一个需要合作和有限信息的游戏游戏。Hanabi游戏是2010年发明的。由二到五名玩家进行。玩家需要按照正确的顺序将五张不同颜色的牌一起打。游戏特色:所有玩家都可以看到对方的牌,但看不到自己的牌自己的牌。根据游戏规则,玩家可以互相提醒自己手中的牌(但只能通过牌的颜色或牌数),让其他玩家推断出自己应该打什么牌,但牌数提示数量有限了解这些提示。到目前为止,人工机器人已经可以在玩HanabiHanabi时获得高分,但前提是与其他类似机器人一起玩。在那些不熟悉其他玩家玩法或与“休闲”(从未玩过)玩家的情况下,对程序的挑战是最大的,也更接近真实情况。近年来,多个研究团队探索了可以玩Hanabi的AI机器人的开发,其中一些使用符号AI作为强化学习代理。AI的评价主要是看他们的表现,包括self-play(和自己玩)、cross-play(和其他类型的agent玩)、Human-play(和人合作)。“最佳队友”与人类玩家之间的交叉对战对于衡量人机合作尤为重要,也是论文实验的基础。为了测试人工智能合作的有效性,研究人员使用SmartBot,是一个基于规则的自对弈人工智能系统,以及在跨游戏和RL算法中排名最高的模型Hanabi机器人Other-Play。在实验中,人类参与者与AI玩了几场Hanabi游戏agent,每个队友的AI都不一样,实验者不知道自己玩的是哪个模型。研究人员根据客观和主观指标来评估人机合作的水平,客观指标包括得分、错误率等,主观指标包括人类玩家的经验,包括他们对AI团队成员的信任和舒适程度,以及他们理解AI动机和预测其b的能力行为。两种AI模型的客观表现没有显着差异。但研究人员预计,人类玩家在使用Other-Play时会有更积极的主观体验,因为他们接受过与其他玩家合作的训练。根据对参与者的调查,有经验的Hanabi玩家对其他游戏RL算法的体验不如基于规则的SmartBotAgent,而成功的一个关键点是向其他玩家提供伪装线索的技能。例如,假设一张“一个立方体”卡片放在桌子上,而您的队友拿着两个立方体。当你指着一张牌说“这里有两个”或“这里有一个方块”时,你是在含蓄地告诉你的队友打出那张牌,但没有告诉他关于这张牌的全部信息。有经验的玩家将能够立即拿起这个提示。但事实证明,向AI队友提供相同类型的信息要困难得多。一位与会者表示,我已经向我的队友发出了明显的提示,但他根本不起作用,我也不知道为什么。一个有趣的现实是,其他游戏一直在避免创建“秘密”约定,他们只是在执行自我游戏时制定这些预定规则。这使得Other-play成为其他AI算法的最佳队友,即使AI算法不属于其训练计划的一部分。但研究人员认为,这是他对训练期间会遇到的队友类型做出的假设。值得注意的是,Other-play假设队友也针对零射击协调进行了优化。相比之下,人类Hanabi玩家通常不会使用这种假设进行学习。赛前的套路设置和赛后的回顾是人类花火选手的普遍做法,让人类更容易学会获得少杆协调能力。根据研究人员的说法,目前的研究结果表明,在与其他人工智能模型合作时,人工智能的客观任务表现(自我博弈和交叉博弈)可能与人类的信任和偏好无关。这就引出了一个问题:哪些客观指标与主观人类偏好相关?最佳队友”>鉴于训练基于RL的代理所需的大量数据,在环中训练人类是不可行的。因此,如果我们想要训练被人类合作者接受和评估的AI代理,我们需要寻找可以替代或与人类偏好密切相关的可训练目标函数。同时,研究人员还表示,Hanabi实验的结果不应外推到其他他们无法测试的环境、游戏或领域.论文也承认了实验中的一些局限性然而,研究人员正在努力解决这些局限性。例如,受试者群体很小(只有29名参与者)并且偏向于Hanabi熟练的个体,这意味着他们对Hanabi有预先定义的行为期望AI团队成员,更有可能对RL智能体有负面体验。然而,这些发现对未来的强化学习研究具有重要意义。如果最先进的RL代理甚至不能成为限制性和范围狭窄的游戏中可接受的合作伙伴,那么我们真的应该期望将相同的RL技术应用于更复杂、微妙和重要的游戏中。游戏和现实世界的情况。在技??术和学术领域,关于强化学习的争论很多,事实上,研究结果也表明,RL系统的卓越性能不应被视为在所有可能的应用中都实现了相同的高性能。在学习代理可以在复杂的人机交互等情况下成为有效的协作者之前,需要进行更多的理论和应用工作。