当前位置: 首页 > 科技观察

OpenAI提出了强化学习的新方法:让智能体学会合作、竞争和交流

时间:2023-03-15 21:15:01 科技观察

让智能体学会合作一直是人工智能领域的重要研究课题。实现通用人工智能(AGI)所必需的。除了合作,让智能体学会竞争也可能是实现这一目标的关键。最近,来自OpenAI、麦吉尔大学和加州大学伯克利分校的几位研究人员提出了“用于合作-竞争混合环境的多智能体演员-评论家”。之后,OpenAI发布博客解读研究,机器之心编译介绍解读文章。代理可以竞争资源的多代理环境是人工智能道路上的垫脚石。一个多代理环境(multi-agentenvironment)有两个有用的属性:***,有一个自然的全套测试——环境的难度取决于你的竞争对手的能力(如果你正在使用你的克隆互相对战,环境可以精确匹配你的技能水平)。其次,在多智能体环境中没有稳定的均衡:无论智能体多么聪明,总会有让它变得更聪明的压力。这些环境与传统环境有很大不同,掌握它们需要大量研究。我们设计了一种新的算法MADDPG(Multi-AgentActor-CriticforMixedCooperative-CompetitiveEnvironments),可以在多智能体环境下进行集中学习和分散执行,让智能代理可以学习相互合作和竞争其他。MADDPG用于训练4个红色代理来追逐2个绿色代理。红色代理已经学会与“同伴”组队追逐单个绿色代理以获得更高的奖励。同时,绿色代理学会了相互分散,当其中一个被追赶时,另一个会尝试靠近水源(蓝色圆圈)以避开红色代理。MADDPG扩展了强化学习算法DDPG(https://arxiv.org/abs/1509.02971),并从actor-critic强化学习技术中汲取灵感;其他研究团队正在探索变体和并行实现的方法,请参考以下论文:LearningMulti-AgentCommunicationwithBackpropagation:https://arxiv.org/abs/1605.07736LearningtoCommunicatewithDeepMulti-AgentReinforcementLearning:https://arxiv.org/abs/1605.06676CounterfactualMulti-AgentPolicyGradients:https://arxiv.org/abs/1705.08926我们把模拟实验中的每个agent都看成是一个“actor”,每个actor都收到建议来帮助actors决定在培训期间应加强哪些行动。传统上,批评者会尝试预测某个动作在特定状态下的价值(value,即未来预期的奖励),而这个奖励将被代理(actor)用来更新自己的策略(policy).这肯定比直接使用奖励更可靠,因为它可以根据具体情况进行调整。为了使这种方法适用于全球协调的情况,我们改进了我们的批评家,以便他们可以获得所有代理人的观察和行动,如下图所示。我们的代理人在测试时不需要有中央批评家;他们可以根据他们对其他代理人行为的观察和预测来采取行动。因为中央评论家是为每个代理人独立学习的,所以我们的方法还可以跨多个代理人构建任意奖励结构,包括具有相反奖励的对抗案例。我们在许多不同的任务上测试了我们的方法,并且在所有任务上都优于DDPG。在上面的动画中,您可以看到,从上到下:两个试图到达特定位置的AI代理已经学会了分开以向对手代理隐藏他们的目标位置;一个代理人用另一个名字传达目标;三个代理协调以达到目标而不会相互碰撞。用MADDPG训练的红色代理(上)表现出比用DDPG训练的代理(下)更复杂的行为。在其中,红色代理试图在绕过黑色障碍物的同时追逐绿色代理穿过绿色森林。我们的智能体可以捕获更多的智能体,也可以看出我们的智能体比DDPG方法训练的智能体更加合作。传统的分散式强化学习方法(DDPG、actor-criticlearning和deepQlearning等)很难在多智能体环境中学习,因为在每个时间步,每个智能体都会尝试学习预测其他智能体的动作同时也采取自己的行动。在竞争情况下尤其如此。MADDPG使用一个集中的评论家来补充代理人对他们同行的观察和潜在行动,从而将不可预测的环境转变为可预测的环境。使用策略梯度方法会带来进一步的复杂性:由于这会引入高方差,因此当奖励不一致时很难学习到正确的策略。我们还发现添加critic,在提升稳定性的同时,仍然没有处理好我们的一些环境,比如合作交流。似乎在训练过程中考虑其他代理人的行为对于学习合作策略很重要。初步研究在我们开发MADDPG之前,在使用去中心化技术时,我们注意到如果说话者在表达他要去的地方时前后不一致,听众代理通常会学会忽略说话者。然后代理将与该说话者信息相关的所有权重设置为0,有效地“静音”。一旦出现这种情况,很难通过训练恢复;缺少任何反馈,说话者将永远不知道自己说话是否正确。为了解决这个问题,我们研究了最近的分层强化学习项目(https://arxiv.org/abs/1703.01161)中提出的技术,该技术使我们能够迫使听者整合说话者的表情。但是这个解决方案是行不通的,因为虽然它迫使听者注意说话者,但对说话者理解说什么没有任何帮助。我们的集中式批评家方法通过帮助说话者理解哪些话语可能与其他代理人的行为相关来帮助解决这些挑战。下一步在人工智能研究领域,代理建模由来已久,研究了很多场景。许多过去的研究只考虑了少量的时间步长和小的状态空间。深度学习使我们能够处理复杂的视觉输入,而强化学习可以为我们提供学习长期行为的工具。现在我们可以使用这些能力同时训练多个智能体,而无需他们都了解环境的动态(环境在每个时间步如何变化),我们可以在学习High-环境的维度信息。以下为论文原文摘要:论文??:Multi-AgentActor-CriticforMixedCooperative-CompetitiveEnvironments(Multi-AgentActor-CriticforMixedCooperative-CompetitiveEnvironments)论文地址:https://arxiv.org/pdf/1706.02275.pdf我们探索了多代理领域的深度强化学习方法。我们开始分析传统算法在多智能体情况下的难点:Q-learning受到环境固有的非平稳性的挑战,而策略梯度受到随机性的影响。随着代理数量的增加,方差也会增加。然后,我们提出了一种对actor-critic方法的改编,该方法考虑了其他代理的动作策略,并且可以成功地学习需要复杂的多代理协调的策略。此外,我们引入了一种训练方案,该方案为每个代理使用一组策略,从而产生更强大的多代理策略。我们展示了我们的方法相对于合作和竞争场景中现有方法的能力,在这些场景中代理群体能够发现各种物理和信息协调策略。原文:https://blog.openai.com/learning-to-cooperate-compete-and-communicate/【本文为机器之心专栏原文翻译,微信公众号“机器之心”Machine(id:almosthuman2014)》]点此阅读更多本作者好文