经过2000亿次的开放学习,DeepMind的智能体已经“精进”了。有这样一群智能体,他们学会了在游戏任务中轻松解决目标,这是他们以前从未见过的。比如面对下面这样的高地,他们想要到达上面的紫色金字塔。它们没有跳跃功能,似乎开始“着急”地扔东西,但其中一块木板恰好被“扔”进了楼梯。机缘巧合,目的就达到了!你可能会说这只是“瞎猫撞老鼠”,但是很多实验发现agent可以重现这个方法!而且它会有不止一种方法,“我不上,你下来”——直接用板子把目标拉下来!这也行?而这些精炼的智能体来自于DeepMind。现在,为了让AI更加通用,从一个实例中举一反三,他们专门为agent创建了一个包含数十亿游戏任务的“元宇宙”XLand:让agent通过数亿次的训练在不断扩大和升级的开放世界具有良好的泛化能力。最终结果如前所述,他们无需在新游戏中重新训练即可自主解决任务!DeepMind还发表了一篇论文,叫做:《从开放学习走出来的通用智能体》。如何?“Metaverse”XLand最重要的贡献之一就是这个巨大的“Metaverse”模拟空间。这是一个“游戏星系”,里面有无数个“游戏星球”。每个星球上的游戏分为四个纬度:竞争力,平衡,选择和探索难度。比如图片左上角介绍的“抢方块”游戏:蓝色代理需要把黄色方块放在白色区域,红色代理需要把同样的方块放在蓝色区域。啊,想想就头大,所以这个游戏的竞技价值满分,而且因为双方的条件/目标相同,所以平衡值也很高,因为目标区域需要定位,所以探索的难度不小。另一个例子是图中右上角的“PairingaSphereandaCube”:蓝色/红色智能体需要将几何体按颜色分类在一起,并完成任何配对。这个游戏的可选值满满的,但是竞争性没有那么强。附言。蓝色游戏完全是竞争,粉色游戏是完全合作。无论是何种游戏任务,这些智能体都是从最简单的开始(例如,只“靠近紫色方块”),逐渐解锁复杂度增加的游戏(例如,与另一个智能体“捉迷藏”),其中每个游戏都有奖励,智能体的目标是最大化他们获得的奖励。智能“玩家”通过阅读接收到的目标的文字描述,观察RGB图像来感知周围环境,从而完成任务。生成的新任务要以老任务为基础,难度要恰到好处。除了以上开放的学习环境,训练方法也很重要。研究人员使用的神经网络训练架构为代理的内部循环状态提供了一种注意力机制——通过估计正在玩的游戏的子目标来持续引导代理的注意力。该策略允许代理学习具有更通用能力的策略。还有一个问题:在如此浩瀚的博弈环境中,什么样的博弈任务分配才能产生最泛化的agent?通过不断调整每个代理的游戏分配,研究人员发现每个新任务都应该基于通关的旧任务产生,既不应该太难也不能太容易。这也基本符合常识。他们先经历了四次迭代:每个任务由多个智能体竞争,对旧任务适应良好的智能体将参与新一轮任务的权重、瞬时任务分布、超参数等学习。这时候就会加入新的代理人,让比赛“直播”起来。agent表现出明显的零样本学习能力,最终生成了第五代agent。它在XLand的4,000多个“星球”中玩了大约700,000场比赛。每个智能体都接受了2000亿次训练,并完成了340万次独特的任务。到这个时候,智能体已经能够成功完成每项评估任务(除了一些即使是人类也无法完成的任务)。整个实验也最终表明,通过开发像XLand这样的环境和这种开放式训练方法,一些基于RL的代理已经表现出显着的零样本学习能力(0-shot)。例如使用工具、围栏、“捉迷藏”、寻找立方体、计数、合作或竞争等。研究人员还观察到,代理人在面对新任务时不知??道“什么是最佳解决方案”,但他们会不断尝试,直到达到目标。这个过程中有趣的“紧急启发式行为”,除了一开始提到的阶梯,还有这个临时替换更容易的目标的例子——在一场比赛中,agent需要在3个目标中选择一个完成:1.将黑色金字塔放在黄色球体旁边;2.将紫色球体放在黄色金字塔旁边;3.将黑色金字塔放在橙色区域。它一开始发现了一个黑色的金字塔,想要完成目标3,但是在搬运的过程中看到了黄色的球体,于是在1秒内改变了主意,选择直接将金字塔放在黄色球体的旁边完成目标1。(整个过程一共耗时6秒)最后,看完DeepMind的研究,问大家一个问题:我们离真正的通用人工智能还有多远?(ps.你发现了吗?文章开头从高台上拿金字塔的任务小红弱智的身体做不来,一直旋转面对小兰搭建的天梯甚至直接破坏.)论文地址:https://arxiv.org/abs/2107.12808
