DeepMind竟然给了我们一个小惊喜。我们都知道强化学习泛化能力差,对于单个任务往往只能从头学习。像之前由DeepMind开发的AlphaZero,虽然可以下围棋、国际象棋和日本象棋,但对于每一种棋类游戏,它都只能从头开始训练。泛化能力差也是AI被诟病为人工智障的一大原因。人类智能的一大优点是它可以从以前的经验中学习并迅速适应新环境。比如看鸳鸯锅,你不会因为第一次吃川菜而不知所措。你吃过潮汕火锅吗?这是冲洗的问题。但是泛化能力不是一蹴而就的,就像我们玩游戏一样,也是先做简单的任务,然后逐渐升级到复杂的任务。《空洞骑士》游戏一开始只需要四处走动挥刀斩杀怪物,但在噩梦难度的“痛苦之路”关卡中,没有技能只能玩一会以前积累的。孤独。1、多任务元界DeepMind这次采用了这种“课程学习”的思路,让智能体在一个不断扩展升级的开放世界中进行学习。也就是说,人工智能的新任务(训练数据)是在旧任务的基础上不断产生的。在这个世界里,智慧体可以尽可能地锻炼自己,比如“靠近紫色立方体”,更复杂的比如“靠近紫色立方体或者把黄色球体放在红色地板上”,甚至可以和其他智能体,比如捉迷藏——“找到对方,不要被对方发现”。每个小游戏都存在于世界的一个小角落,成千上万个小角落拼接成一个巨大的物理模拟世界,比如下图中的几何“地球”。一般来说,这个世界中的任务是由三个元素组成的,即任务=游戏+世界+玩家,而任务的复杂程度是根据这三个元素之间的关系来决定的。复杂性的判断有四个维度:竞争力、平衡、选择、探索难度。例如,在“抢方块”游戏中,蓝色代理需要将黄色方块放在白色区域,红色代理需要将黄色方块放在蓝色区域。这两个目标是矛盾的,所以竞争比较激烈;同时,双方条件平等,平衡度较高;因为目标简单,所以选择余地少;这里DeepMind将探索难度评为中上,可能是因为定位区域被认为是更复杂的场景。再举一个例子,在游戏“球喜欢玩立方体”中,蓝色和红色智能体都有一个共同的目标,就是将相同颜色的球体和立方体放在很近的位置。这时候竞争自然很低;余额无疑是高的;选项会比上面的游戏高很多;至于探索的难度,这里没有定位区,agent可以把球体和立方体放在任何地方。难度变小了。基于这四个维度,DeepMind在任务空间构建了一个超大规模的“元宇宙”,而几何“地球”只是这个元宇宙的一个小角落,局限于这个四维任务空间中的一个点。DeepMind将这个“元宇宙”命名为Xland,它包含了数十亿个任务。看看XLand的整体情况,它由一系列游戏组成,每个游戏都可以在许多不同的模拟世界中玩,这些世界的拓扑结构和特征会平滑变化。2.有了终身学习的数据,下一步就是寻找合适的算法。DeepMind发现目标注意力网络(GOAT)可以学习更多的通用策略。具体来说,代理的输入包括第一视图RGB图像、本体感觉和目标。经过初步处理后,生成中间输出并传递给GOAT模块,GOAT模块会根据agent当前的目标对中间输出的特定部分进行处理,并对目标进行逻辑分析。所谓逻辑分析,就是对于每一个博弈,可以用一些方法构造另一个博弈,并限制策略价值函数最优值的上限或下限。在这里,DeepMind向我们提出了一个问题:对于每个智能体,什么样的任务集是最好的?或者说,在打怪升级中,什么样的关卡设置才能让玩家顺利升级为“真”高手,而不是一刀9999?DeepMind给出的答案是,每一个新任务都是基于旧任务生成的,“不会太难,也不会太容易”。其实,这恰好是让人类在学习时感到“爽”的兴奋感。太难或太容易的任务可能会在训练开始时鼓励早期学习,但会导致训练后期的学习饱和或停滞。事实上,我们并不要求agent非常擅长一项任务,而是鼓励它终身学习,即不断适应新的任务。所谓太难太容易,其实都是模糊的描述。我们需要的是一种量化的方法来在新任务和旧任务之间建立弹性联系。如何防止agent在新任务中因不适应而“暴死”?进化学习提供了极大的灵活性。一般来说,新任务和旧任务同时执行,多个智能体参与“竞争”每个任务。能够很好地适应旧任务的代理将被选择继续学习新任务。在新任务中,旧任务的优秀智能体的权重、瞬时任务分布、超参数将被复制,参与新一轮的“竞争”。而且,除了老任务中的优秀特工,还有不少新人参与,引入了随机性、创新性、灵活性,完全不用担心“暴死”的问题。当然,每个任务中不会只有一种好的agent。因为任务也是不断产生和动态变化的,一个任务可以训练出不同强度的智能体,并向不同的方向进化(随着智能体的相对性能和鲁棒性)。最终每个agent都会形成一个擅长的不同任务的集合,很像春秋战国时期的“百家争鸣”。说杀怪升级好像很小,这简直就是在模拟地球。根据DeepMind的说法,“这种组合学习系统的迭代本质是它不优化有界的性能指标,而是优化迭代定义的一般能力范围,这使得代理可以开放地学习,只受环境空间和神经网络的影响。agent的网络。网络表达能力的局限性。”3.智能体的出现最终,在这个复杂的“虚拟宇宙”中,经过升级、演化、分流的智能体,形成了什么样的优秀物种?DeepMind表示,agent具有明显的零样本学习能力,例如使用工具、殴打、计数、cooperation&competition等,我们来看几个具体的例子。首先,智能体学会即兴创作。它有三个目标:将黑色金字塔放在黄色球体旁边;将紫色球体放在黄色金字塔旁边;将黑色金字塔放在橙色地板上。AI一开始发现了一个黑色的金字塔,想着把它带到橙色的地板上(目标3),但是在搬运的过程中看到了一个黄色的球体,瞬间改变了主意,“我可以实现目标1”,并且把黑色金字塔放在黄色球体旁边。第二个例子,跳不高,高台上的紫色金字塔怎么拿?在这个任务中,agent需要想办法突破障碍,到达高台上的紫色金字塔。高台周围没有楼梯或斜坡之类的路径。因为它不会调节高度,智能地匆忙“掀开桌子”,把周围竖起来的木板撞倒了。然后,巧合的是,一块黑色的石板落在了高台的边缘,“咦,等等,这不是我要的梯子吗?”这个过程是否反映了agent的智能还不确定,可能只是一时的侥幸罢了。关键是看统计数据。经过5代训练,代理人在XLand的4,000个个人世界中进行了大约700,000场个人游戏,涉及340万个个人任务的结果,上一代中的每个代理人都经历了2000亿次训练步骤。目前,除了少数连人类都无法完成的任务外,agent已经能够成功参与几乎所有的评估任务。DeepMind的这项研究或许在一定程度上体现了“强化学习”的重要性。也就是说,不仅数据量要大,任务量也要大。这也使代理在泛化能力方面表现良好。例如,数据显示,对于一些新的复杂任务,只需30分钟的强化训练,agent就能很快适应,而从头开始用强化学习训练的agent根本无法学习这些任务。未来,我们也期待这个“Metaverse”变得更加复杂和充满活力,AI会不断进化,给我们带来惊喜(想想都可怕)的体验。
