当前位置: 首页 > 科技观察

赢得盟友,洞悉人心,最新的Meta智能体是谈判高手

时间:2023-03-18 23:49:02 科技观察

游戏一直是AI进步的试验场——从深蓝战胜国际象棋大师加里卡斯帕罗夫,到AlphaGo围棋超越人类,然后前往Pluribus击败扑克锦标赛中的最佳玩家。但真正有用的全能代理人不能只是玩棋盘游戏和四处移动棋子。有人想知道:我们能否构建一个更高效、更灵活的代理,可以像人类一样使用语言进行谈判、说服和合作以实现战略目标?在游戏史上,有一款经典的桌面游戏《外交》,很多人第一次看到这款游戏的时候,都会被它的地图般的棋盘惊艳到。认为这是一个复杂的战争游戏。其实这是一个需要动员语言才能赢得盟友的游戏。它涉及决策和谈判。玩家之间有很多交流。赢得比赛的关键在于人与人之间的互动。现在Meta向这款游戏发起了挑战。他们打造的智能体CICERO,成为第一个在Diplomacy上达到人类水平的AI。CICERO通过在线版本webDiplomacy.net上的表演证明了这一点,CICERO的平均得分是人类玩家的两倍多,并且在玩过不止一场游戏的参与者中排名前10%。论文地址:https://www.science.org/doi/10.1126/science.ade9097主页地址:https://ai.facebook.com/research/cicero/diplomacy/几十年来,Diplomacy一直被视为领域AI是游戏中不可逾越的挑战,因为这款游戏需要玩家了解他人的动机和观点,制定复杂的计划,调整策略,并在此基础上使用自然语言与他人达成一致,说服其他人结成伙伴关系和联盟等。这些对于agent来说还是比较难的,CICERO在使用自然语言与Diplomacy玩家交涉上还是很有效的。与国际象棋和围棋不同,外交是一种关于人而不是棋子的游戏。如果智能体无法分辨对手是在虚张声势还是在破坏,它很快就会输掉比赛。同样,如果智能体不能像人一样交流、表现出同理心、与他人建立关系、谈论游戏——它就找不到其他愿意与之合作的玩家。Meta的这项研究将战略推理(例如AlphaGo、Pluribus)与自然语言处理(例如GPT-3、BlenderBot3、LaMDA、OPT-175B)相结合。例如,在游戏后期,CICERO推断它需要特定玩家的青睐,然后CICERO制定策略来赢得该人的青睐。如何搭建CICEROCICERO的核心是可控的对话模型和策略推理引擎。在游戏的每一点,CICERO都会查看游戏板及其对话历史,并对其他玩家可能采取的行动进行建模。然后制定控制语言模型的计划,将其计划告知其他玩家,并为与他们配合良好的其他玩家建议明智的行动。可控对话为了构建一个可控的对话模型,Meta从一个具有27亿个参数的类BART语言模型开始,对来自互联网的文本进行了预训练,并在webDiplomacy.net上进行了40,000多个人类游戏进行了细微的调整。实现过程主要分为以下几个步骤:第一步:CICERO根据棋盘状态和当前对话,初步预测每个人会做什么。第2步:CICERO迭代改进初始预测,然后使用改进后的预测为自己及其合作伙伴形成意图。第3步:根据看板状态、对话和意图生成多个候选消息。Step4:对候选消息进行过滤,取值最大化,并保证意图一致。研究人员使用了一些过滤机制来进一步提高对话质量,例如使用经过训练的分类器来区分人类和模型生成的文本,以确保-对话是合理的,与当前游戏状态和先前信息一致,并且在策略上是合理的.对话感知策略和规划在涉及合作的游戏中,代理需要学习模拟人类在现实生活中实际会做的事情,而不是将人类视为机器并让代理决定他们应该做什么。因此,Meta希望CICERO制定的计划与其他参与者的对话保持一致。人体建模的经典方法是监督学习,其中代理根据标记数据进行训练,例如过去游戏中人类玩家动作的数据库。然而,纯粹依靠监督学习来根据过去的对话选择动作会导致代理相对较弱且容易被利用。例如,玩家可以告诉代理人“我很高兴我们同意你将军队从巴黎调走!”由于类似的信息仅在达成协议时才会出现在训练数据中,因此代理实际上可能会将其部队从巴黎移走,即使这样做是一个明显的战略错误。为了解决这个问题,CICERO运行了一个迭代规划算法来平衡对话的一致性和合理性。智能体首先根据与其他玩家的对话预测每个玩家当前回合的策略,并预测其他玩家认为智能体的策略是什么。然后它会运行一个叫做“piKL”的规划算法,通过尝试在其他玩家预测的策略下选择具有更高期望值的新策略,迭代地改进这些预测,同时也试图让新的预测接近原来的战略预测。研究人员发现,与纯粹的监督学习相比,piKL可以更好地模拟人类游戏,并为代理制定更好的策略。产生自然、有目的的对话在外交中,玩家如何相互交谈比他们如何移动棋子更重要。在与其他玩家制定战略时,CICERO的沟通清晰而雄辩。例如,在一个演示中,CICERO要求一名玩家立即支持棋盘的某个部分,同时向另一名玩家施压,要求其在游戏后期考虑结盟。在交流中,CICERO试图通过向三个不同的参与者提出行动来执行其策略。在第二次对话中,智能体能够告诉其他玩家他们为什么要合作以及这对双方都有利。在第三次对话中,CICERO既在征集信息,又在为未来的行动奠定基础。弱点必须承认,CICERO有时也会产生破坏其目标的前后矛盾的对话。在下面的示例中,CICERO充当奥地利,但代理要求意大利移动到威尼斯,这与其第一条消息相矛盾。让“外交”推进人机交互沙盒在合作与竞争并存的博弈中,目标导向的对话系统的出现,对人工智能与人类意图和目标的结合提出了新的挑战。重要的社会和技术挑战。“外交”为研究这个问题提供了一个特别有趣的背景,因为玩这个游戏需要与相互冲突的目标搏斗,并将这些复杂的目标翻译成自然语言。举一个简单的例子,玩家可能会选择牺牲短期利益来维持与盟友的关系,因为这个盟友可能会帮助他们在下一轮进入更好的位置。虽然Meta在这项工作中取得了重大进展,但将语言模型与具体意图稳健耦合的能力,以及确定这些意图的技术(和规范)挑战仍然是重要的问题。通过开源CICERO代码,Meta希望AI研究人员能够以负责任的方式继续在这项工作的基础上进行构建。该团队表示:“通过使用对话模型进行零样本分类,我们已经在这个新领域采取了早期步骤来检测和删除有害信息。我们希望‘外交’可以作为一个安全的沙箱来促进人机交互。“研究。未来方向虽然目前CICERO只能玩外交游戏,但这一成就背后的技术与许多现实世界的应用相关。例如,通过规划和RL控制自然语言的生成可以减轻人类与AI驱动代理之间的沟通障碍。例如,今天的人工智能助手擅长回答简单的问题,比如告诉你天气,但如果他们能够保持长期对话以教你一项新技能呢?此外,想象一个视频游戏,其中NPC可以像人一样计划和交谈——了解您的动机并相应地调整对话,帮助您完成攻城掠地的任务。这些“梦想”可能在未来成为现实。