炸弹!DeepMind通用人工智能新突破:一组权重通吃所有视觉文本和决策通用人工智能,不得不看DeepMind。这一次,只有一个模型,使用相同的权重,不仅让看家Atari游戏飞起来。与人聊天,看图写字也很容易。你甚至可以在真实环境中控制机械臂,让它按照指令完成任务!该模型被命名为Gato,在西班牙语中意为“猫”。根据DeepMind的说法,猫可以使用具有相同权重的相同神经网络来适应各种不同的环境。具体来说,DeepMind在604个不同的任务上训练了它,这些任务具有完全不同的模式和不同的观察元素和行为规则。而Gato不仅在450个任务中超过了专家水平的50%,还在23个Atari游戏中超过了人类平均分。DeepMindCEO哈萨比斯直接说:这是我们最通用的智能体。这一最新成果一出,立即在AI圈内引发热议。一些AI研究人员指出:Gato令人印象深刻。它只需要在云端花费50,000美元就可以完成训练。这个数额只是1100万美元PaLM培训费用的一小部分。以PaLM的预算将Gato放大100倍是完全可能的,而且它很可能会奏效。PaLM是谷歌发布的一个5400亿参数的语言模型。有人直接对比了AlphaStar架构和Gato架构:ZoomAI杰出科学家AwniHannun直接感叹谷歌/DeepMind过去5周密集发布成果。那么DeepMind的这只“猫”是怎么回事呢?Transformer处理一切。至于研究方法,DeepMind只用一句话解释:我们受到语言模型的启发,用类似的方法将模型的能力扩展到文本以外的领域。没错,这次就是大型语言模型中常用的Transformer架构。Transformer的本质是将一个序列转换为另一个序列。所以想要它掌握各种任务,首先需要将各种数据编码成序列。不用说,文本自然是序列信息,可以用经典的SentencePiece编码。该图像由ViT准备。首先将其划分为16x16个像素点,然后对每个像素点进行编号,处理成一个序列。玩游戏时的按键输入也是一个序列,属于离散值,比如大家理解的“上、下、左、右、左、右BABA”。操纵机器人时的传感器信号和关节力矩属于连续值,也通过一系列的采样和编码处理成离散序列。最终,所有的序列数据都交给同一个Transformer处理。整个Gato模型使用的训练数据普遍偏向游戏和机器人控制任务,596个任务占比85.3%。视觉和自然语言任务仅占14.7%。在模型架构方面,为了简洁和可扩展性,对最经典的Transformer原版进行了小幅修改。具体参数如下:Gato的24层11.8亿参数版本在Google的16x16CloudTPUv3切片上训练了大约4天。在部署方面,Gato的行为类似于传统的Transformer和ViT,用于视觉和语言任务。对于游戏和机器人控制的行为模式,可以理解为“一步一个脚印”。任务提示,例如游戏动作或机器人动作,首先作为输出序列的开始给出。接下来Gato会观察当前环境,对动作向量进行一次自回归采样,动作执行后环境会发生变化,然后重复这个过程……那么这样训练出来的Gato在各种任务中表现如何呢?只有12亿个参数,Gato在玩游戏方面可以用一张图来概括。x轴是专家水平在训练集中的百分比,其中0表示随机参数模型的水平。y轴是Gato超过或达到相应专家级别的任务数。最终结果是,Gato在604项任务中有450项的专家水平超过50%。更详细的结果如下:在Atari游戏测试中,Gato有23场比赛的表现超过了人类的平均得分,有11场比赛的成绩翻了一番。这些游戏包括经典的乒乓球和赛车,以及射击和格斗。在Bengio团队推出的BabyAI测试中,Gato几乎在所有关卡都达到了80%的专家级,在最难的boss关卡达到了75%。它与之前BabyAI列表中的两个模型(分别为77%和90%)相当,但两个模型都经过了数百万次演示的训练。△BabyAI级别示例在Meta-World(在虚拟环境中操作机械臂)上,Gato在45个任务中有44个超过了专家级别的50%,35个超过80%,3个超过90%。△Meta-Worldtaskexample在操纵真实机器人方面,与之前的模型相差不远。至于视觉和文本任务,DeepMind这次至少没有跑分来验证通用模型的可行性,而是给出了一些例子。△描述图像△聊天对话最后,DeepMind还对Gato模型的可扩展性进行了评估。虽然目前的Gato在每个单独的任务上都不如SOTA的结果,但是实验结果表明,随着参数、数据和硬件的增加,Gato模型的性能仍有按比例提升的空间。此外,Gato在少样本学习方面也表现出了一定的潜力。DeepMind认为,这样的通用模型在未来可以通过提示或微调来快速学习新任务,不再需要为每个任务重新训练一个大模型。通用人工智能还有多远?看到加托这样的表现,网友们“震惊”也就不足为奇了。甚至有人认为AGI(人工智能)指日可待。当然,也有反对/质疑的声音。比如,一向冲在给人工智能泼冷水第一线的马库斯,这次第一枪开了:仔细看第10页模型是。但无论如何,DeepMind在通用人工智能方向的努力,也在不断地涌现出新的成果。事实上,无论是2013年惊艳谷歌的Atari游戏AI,还是享誉全球的AlphaGo和AlphaStar,DeepMind通过这些阶段性成果想要达到的最终目标,一直都是通用人工智能的关键词。.去年,DeepMind首席研究科学家、伦敦大学学院教授DavidSilver也主导发布了一篇文章,同样引起了不小的讨论:RewardisEnough。论文认为,强化学习作为基于奖励最大化的人工智能的一个分支,足以推动通用人工智能的发展。据Gato团队成员介绍,这只“猫”已经在DeepMind构思了2年。这次Gato是以有监督的方式离线训练的,不过论文也强调,原则上也可以离线训练,也可以在线强化学习。而就在一周前,DeepMind发布了一段新视频,其中说:Wearegoingtodoabigthing(thenextbigthing),这意味着我们需要尝试很多人们认为太难的事情。但我们将不得不尝试一下。现在看来,这个下一件大事指的是AGI。论文地址:https://www.deepmind.com/publications/a-generalist-agent
