近日,DeepMind在强化学习领域有了新动作。用通俗易懂的中文解释,DeepMind研究人员认为,人类获取知识和技能更多地是通过“教”而不是“训”。也就是说,这种新代理可以通过观察单个人类演示来快速学习新行为,而无需使用人工数据进行预训练。以后你惹是生非,干嘛干嘛不说你是老师文化教学是全场通用的社交技能,让agent实时获取和使用对方的经验信息,保真度高,召回率高.在人类社区中,正是基于这一过程的技能积累推动了累积的文化进化,扩展了世代之间的人类技能、工具和知识。几千年来,人类发现、进化并积累了丰富的文化知识,从航海路线到数学,从社会规范到艺术品。文化转移被定义为经验信息从一个人有效地转移到另一个人,是人类能力呈指数级增长的累积过程。大到辛巴达游历七大洋,小到同事教你使用打印机。这些经验技能,无论是显性的还是隐性的,都是通过社会获得的“教学”而不是像今天这样“训练”人工智能来传递的。如果AI能通过这种“教”的方式获取知识,无论是人机交互,还是AI本身的智能扩展,效率都会更高。为此,DeepMind开发了一种使用深度强化学习技术在人工代理中产生零样本、高召回文化迁移的方法。经过训练,人工智能代理可以推断和回忆专家展示的指导性知识。这种知识转移是实时发生的,并概括为大量以前从未见过的任务。向人工智能“教授”文化DeepMind研究团队在程序生成的3D世界中训练和测试人工智能。这个3D世界包含嵌在充满障碍的复杂地形中的彩色球形目标。参与者必须以正确的顺序导航才能到达目标,并且目标的位置在每个场景中随机变化。由于顺序无法猜测,天真的探索策略会招致很大的惩罚。作为文化传播信息的来源,研究团队生成了一个“专家机器人”脚本,该脚本始终以正确的顺序击中目标。对于复杂的世界,探索任务旨在提供清晰的跳跃或蹲伏行为演示以及绕过垂直障碍物的导航。在所有的检测中,人类的运动模式总是以目标为导向并接近最优(不会产生任何分数惩罚),但显然与脚本机器人不同,在最初的几秒钟内需要时间来定位,并且并不总是两次走完全相同的路径。智能体(蓝色)会跟随专家(红色)在世界中寻找目标,穿越不同的地形和障碍,智能体会在专家离开后继续完成任务。ExpertsforagentsExpertsforhumans需要注意的是,视频中的轨迹仅供人类观察者遵循,对代理人是不可见的。方法实施及结果DeepMind研究团队通过淘汰法确定了文化教学发生所需的最低数据级训练成分表。这个“入门套件”被研究人员称为MEDAL-ADR。这些训练组件包括“记忆存储”(M)、“专家退出”(ED)、“对专家的注意偏差”(AL)和“自动领域随机化”(ADR)。Agent的结构训练架构为了更好地感知世界,DeepMind在agent上安装了一圈激光雷达传感器。通过从身体的各个方向发射光线,代理可以获得到障碍物的距离。在训练期间,代理经历了在某个时间点出现的社会学习行为的进展。训练8.6亿步:初始探索训练15.9亿步:模仿训练18.2亿步:记忆训练26.7亿步:独立泛化:世界空间世界空间的参数由地形的大小和凹凸不平以及障碍物的密度决定。为了量化空间普遍性,DeepMind通过采用障碍物密度和世界大小的笛卡尔积来生成游戏地图。障碍复杂度:1.0,地形复杂度:1.0概括:游戏空间游戏空间由世界中的对象数量和它们之间正确导航路径所包含的交叉点数量来定义。为了量化空间普遍性,DeepMind在“N-goal,M-crossover”游戏规则内为代理生成任务。目标范围:5,路径交叉点:4泛化:专家空间专家空间由世界各地专家采取的行动的速度和分布来定义。专家可以是编写脚本的机器人,也可以是具有更逼真和多样化运动模式的人类玩家。为了量化空间普遍性,DeepMind使用运动速度和动作噪声的笛卡尔积生成专家机器人的行为。Noise:0.5,MaxSpeed:13.0Noise:0.0,MaxSpeed:17.0可以看出,在没有噪音的情况下,机器人会直奔目标,但加入噪音后,会有明显的“迟疑”。而当专家的速度设置得太快时,代理将根本追不上。经过反复测试,DeepMind开发的代理在一系列具有挑战性的任务中表现优于比较的控制变体,包括最先进的方法ME-AL。此外,文化迁移在知识迁移方面的泛化出奇地好,AI代理能够在专家退出后很长时间内回忆起演示。通过观察人工代理的“大脑”,研究小组发现了令人惊讶的可解释“神经元”,该“神经元”负责编码社会信息和目标状态。总而言之,DeepMind开发的pipeline可以在训练pipeline中不使用人工数据的情况下,训练出足够灵活、高召回率、实时文化授课的agent。这为文化进化成为开发通用人工智能的算法铺平了道路。开发团队张磊是DeepMind为这个项目新组建的“文化通用智能团队”(CulturalGeneralIntelligenceTeam)的成员。他是博士。多伦多大学电气工程博士,本科和硕士均毕业于多伦多大学。在深度强化学习、通用模型、卷积神经网络、递归神经网络、分布式训练、特征检测算法等方面有成就。曾任OpenAI机械臂解魔方团队成员,现为DeepMind研究科学家.
