很多人都知道,打败李世石、柯洁等国际顶尖棋手的AlphaGo一共有三个迭代,分别是第一代打败李世石的AlphaGoLee、打败柯洁的第二代AlphaGoMaster杰,还有打败前两代的第三代AlphaGoZero。AlphaGo的棋艺可以代代相传。其背后是AI技术一个明显的变化趋势,即强化学习的比例越来越大。近年来,强化学习又经历了一次“进化”。人们把“进化的”强化学习称为深度强化学习。但是深度强化学习代理是样本效率低下的,这极大地限制了它们在实际问题中的应用。最近,已经设计了许多基于模型的方法来解决这个问题,在世界模型的想象中学习是最突出的方法之一。然而,虽然与模拟环境几乎无限的交互听起来很吸引人,但世界模型必须在很长一段时间内保持准确。受Transformer在序列建模任务中的成功启发,康奈尔大学的VincentMicheli、EloyAlonso和Fran?oisFleuré引入了IRIS,这是一种数据高效代理,它在由离散自动编码器和自回归Transformer组成的世界模型中学习。在Atari100k基准测试中,IRIS获得了1.046的平均人类归一化分数,并且在26场比赛中有10场比赛的表现优于人类,比赛时间仅为两个小时。此前,LeCun曾表示,强化学习将走向死胡同。现在看来,康奈尔大学的VincentMicheli、EloyAlonso、Fran?oisFleuret等人正在将世界模型与强化学习(更准确地说是深度强化学习)合二为一,而连接两者的桥梁就是Transformers。深度强化学习有什么区别?说到人工智能技术,很多人都能想到深度学习。事实上,虽然深度学习在AI领域依然活跃,但也暴露出不少问题。监督学习是应用最广泛的深度学习。监督学习可以理解为“带着参考答案学习”。它有一个特点,就是数据必须经过标记才能用于训练。但是现在大量的数据都是未标注的数据,标注的成本非常高。于是针对这种情况,有人开玩笑说“有人工智能就有智能”。很多研究者,包括很多大牛,都在反思深度学习到底是不是“错”了。于是,强化学习开始兴起。强化学习不同于监督学习和非监督学习。它利用智能体不断试错,根据试错结果对AI进行奖惩。这就是DeepMind一家做各种棋牌AI、游戏AI的方式。这种方法的信徒认为,只要正确设置奖励激励,强化学习最终会创造出真正的AGI。但是强化学习也存在问题。用LeCun的话来说,“强化学习需要大量的数据来训练模型来执行最简单的任务。”所以强化学习和深度学习结合成为深度强化学习。深度强化学习,强化学习是骨架,深度学习是灵魂,什么意思?深度强化学习的主要运行机制与强化学习基本相同,只是使用了深度神经网络来完成这一过程。更有什者,一些深度强化学习算法只是在已有的强化学习算法上直接加一个深度神经网络,简单地实现了一套新的深度强化学习算法。非常著名的深度强化学习算法DQN就是一个典型的例子。.Transformers有什么神奇之处Transformers于2017年首次亮相,并在Google的论文《Attention is All You Need》中被提出。在变形金刚出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。“在过去10年发生的这场深度学习革命中,自然语言处理有点后来者,”马萨诸塞大学洛厄尔分校的计算机科学家AnnaRumshisky说。在计算机视觉背后,Transformer改变了它。”近年来,Transformer机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。Transformer迅速成为专注于分析和预测文本的单词识别等应用程序的领导者。它引发了一波工具浪潮,例如OpenAI的GPT-3,可以训练数千亿个单词并生成连贯的新文本。目前,Transformer架构不断演进并扩展成许多不同的变体,从语言任务扩展到其他领域。例如,Transformer已经被用于时间序列预测,也是DeepMind的蛋白质结构预测模型AlphaFold背后的关键创新。Transformer最近也进入了计算机视觉领域,在许多复杂的任务中正在慢慢取代卷积神经网络(CNN)。世界模型和变形金刚联手,别人怎么看康奈尔大学的研究成果,有国外网友评论:“请注意,这两个小时是从环境中拍摄的时长,在训练上需要一周的时间图形处理器。”.其他人质疑:那么系统是在一个特别准确的底层世界模型上学习的吗?模型不需要预训练吗?另外,有人觉得康奈尔大学VincentMicheli等人的成果算不上突破性的突破:“好像他们只是训练了worldmodel,vqvae和actorcritic,都是那2个小时的回放经验缓冲区(和大约600个时期)”。参考资料:https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
