本文介绍了伦敦大学学院(UCL)的ThomasAnthony、ZhengTian和DavidBarber对深度学习和树搜索的研究。该论文已被NIPS2017会议接收。双加工机制理论“双加工机制”认为,人类的推理包括两种不同的思维方式。如下图所示,系统1是一种快速、无意识、自动的思维模式,也称为直觉。系统2是一种缓慢的、有意识的、明确的、基于规则的推理模式,被认为是进化上的最新进展。图片来源:https://www.slideshare.net/AshDonaldson/behaviour-design-predicting-irrational-decisions在学习完成具有挑战性的规划任务时,比如棋盘游戏,人类同时使用两种处理方式:准确的直觉可以快速选择一条有利的路线,使我们缓慢的分析推理更有效率。持续的深度学习可以逐渐提升直觉,让更准确的直觉反馈到更强大的分析中,从而形成闭环学习。换句话说,人类通过快速思考和慢速思考来学习[1]。当前的深度强化学习有什么问题?在目前的深度强化学习算法中,如策略梯度(PolicyGradient)和DQN3[3],神经网络在选择动作时不具备任何前瞻性;这类似于系统1。与人类的直觉不同,这些强化学习算法没有“系统2”来在训练期间向它们推荐更好的策略。AlphaGo等AI算法的一个缺点是它们使用人类职业棋手的数据库[4]。在训练的初始阶段,强化学习代理模仿人类专家的行为——只有通过这个初始阶段,他们才开始学习可能更强大的超人游戏方式。但是这样的算法有些不尽如人意,因为它们可能严重偏向人类玩家的风格,而忽略了可能更好的策略。同时,在游戏领域可能有人类专家的数据库,如果我们想在其他情况下训练AI机器,也许我们没有这样的数据库可用。因此,从头开始训练最先进的棋盘游戏玩家是人工智能面临的一大挑战。专家迭代(ExIt)专家迭代(ExIt)是我们在2017年5月推出的通用学习框架。它能够在不模仿人类策略的情况下训练强大的人工智能机器。ExIt可以看作是模仿学习(ImitationLearning)的一种扩展,可以扩展到即使是顶尖的人类专家也无法取得令人满意的表现的领域。在标准的模仿学习中,学徒被训练去模仿专家的行为。ExIt将这种方法扩展到迭代学习过程。在每次迭代中,我们执行一个专家改进步骤,我们依靠(快速)学徒策略来提高(相对慢速)专家的表现。ExItChess等桌游或许可以帮助我们更直观地理解这个概念。在这种类型的游戏中,专家就像一个慢棋手(每一步都需要很多时间来决定),而学徒就像下快棋(每一步都需要很少的时间来决定如何走)。一项独立研究表明,球员会在同一位置考虑多种可能的行动,深入(缓慢地)思考每一种可能的行动。她分析在当前位置哪些动作会成功,哪些动作会失败。以后遇到类似的棋势时,她之前学习形成的直觉会很快告诉她哪些走法可能更好。如此一来,即便是在急速的设定下,她也依然能够发挥出色。她的直觉来自于模仿她之前通过深入思考和计算获得的强大策略。人类不可能仅仅通过快速下棋就成为伟大的棋手,深入学习是学习过程中的必要部分。对于人工智能游戏机,这种模仿是可能的,例如,通过将神经网络拟合到另一个“机器专家”的某个动作。在很短的时间内,学徒可以通过模仿他所见过的高手的走法来快速学会一种棋法。这里的关键点是,假设游戏背后有一个底层结构,机器学习使学徒能够将他们的直觉概括为他们以前从未见过的状态,从而做出快速决策。也就是说,学徒可以将他学到的知识推广到其他游戏状态,而不是仅仅从有限的、固定的专家国际象棋记录数据库中创建移动查找表。因此,神经网络既充当泛化器,又充当专家玩家的模仿者。假设学徒通过模仿迄今为止所见过的所有专家行为来学习快速决策,专家就可以使用它。当专家要采取行动时,学徒会迅速给出一些备选的行动,然后专家会深入思考,或许在这个缓慢的思考过程中,专家会不断地被学徒敏锐的直觉所引导。在这个阶段结束时,专家会在学徒的帮助下采取一些行动,这样每一个行动通常都比只有专家或只有学徒单独采取的行动要好。接下来,可以重复上述过程,从学徒重新模仿(新)专家推荐的动作开始。这形成了学习阶段的完整迭代,一直持续到学徒收敛。从二元处理机制来看,模仿学习步骤类似于人类通过研究示例问题来提高直觉,而专家改进步骤类似于人类利用自己改进的直觉来指导未来的学习。分析。TreeSearchandDeepLearningExIt是一种通用的学习策略,学徒和专家可以将其具体化为不同的形式。在棋盘游戏中,蒙特卡洛树搜索是一种强大的游戏策略[6]并且是专家角色的自然人选。深度学习已被证明是模仿高手的成功方法[4],因此我们将其收为徒弟。在专家改进阶段,我们使用徒弟引导蒙特卡洛树搜索算法向更有希望的方向行动,有效降低博弈树搜索的宽度和深度。通过这种方式,我们可以将模仿学习中获得的知识带回来,并将其用于规划算法。棋盘游戏HEXHex是一款经典的双人棋盘游戏,玩家可以在n×n六角网格上进行比赛。玩家分为黑白两色,轮流在空位上放置代表自己颜色的棋子。如果有一排黑子从南到北依次相连,则黑子获胜。如果有一排连续的白子从东到西相连,则白棋获胜。5×5六角棋盘示例上面是5×5棋盘,白方获胜。Hex有很深的策略,这使得它对机器极具挑战性,其庞大的走法和连接规则意味着它有点类似于围棋对人工智能的挑战。但是,与围棋相比,它的规则更简单,没有平局。Hex的规则简单,因此数学分析方法非常适合这一点,目前最好的机器播放器MoHex[7]使用了蒙特卡洛树搜索和巧妙的数学思想。自2009年以来,MoHex赢得了所有计算机游戏OlympiadHex比赛。值得注意的是,MoHex使用人类专家数据库来训练rollout策略。让我们来验证ExIt训练策略是否可以在不使用任何专业知识和人类专家游戏记录(游戏规则除外)的情况下训练出比MoHex更好的AI玩家。为此,我们使用蒙特卡洛树搜索作为专家,由学徒神经网络领导。我们的神经网络采用深度卷积神经网络的形式,具有两种输出策略——一种用于白色,一种用于黑色(详见[5])。修改后的蒙特卡洛树搜索公式使专家改进成为可能:这里,s是游戏状态,a是在状态s下可以采取的可能行动。UCT(s,a)是蒙特卡洛树搜索中使用的树[6]的经典上置信区间(UpperConfidenceBound),后面加入的可以帮助神经网络学徒指导专家搜索更好的动作。其中π?是学徒的策略(状态s中每个潜在动作a的相对优势),n(s,a)是搜索算法在状态s中采取动作a的当前访问次数;w是为了平衡expert的慢。ThinkingandApprentice用于快速思考和经验选择的权重因子。这种添加允许神经网络学徒引导搜索到更有希望的行动,并更快地拒绝不太有利的行动。为了在每个模仿学习阶段为训练学徒生成数据,批处理方法每次都重新生成数据,丢弃之前迭代中生成的所有数据。因此,我们还考虑了一个只保留有限的最后生成数据的在线版本,以及一个保留所有数据但随着最新专家与最强游戏相对应而呈指数增长的在线版本。在下图中我们比较了一些不同的方法:从训练时间来衡量每个学习策略网络的强度(衡量ELO分数)。我们还展示了仅使用更传统的强化学习方法(即没有蒙特卡洛树搜索)通过自我对弈学习策略π?(a|s)的结果。这正是AlphaGo训练策略网络的方式。上图的结果证明ExIt训练方法比传统方法更高效。值得注意的是,本例训练并未完全收敛,随着训练时间的增加,徒弟的能力可以进一步提升。在论文[5]中,我们还采用了另一种可以提高棋手表现的机制,即价值网络Vπ?(s),它允许学徒在单独下棋时估计获胜的概率。政策网络和价值网络相结合,以帮助指导最终的学徒辅助MCTS玩家。策略网络和价值网络使用类似于(1)的等式,但修改为包括状态s的学徒价值,以指导最终的MCTS玩家。(详见[5])我们最终的MCTS玩家在9X9游戏中以75%的胜率胜过最著名的Hex机器玩家MoHex。考虑到训练还没有完全收敛,这个成绩就更加了不起了。[9]展示了我们使用ExIt训练游戏机器人对抗最先进的MoHex玩家的一些情况。我们比较了从相同状态开始时不同算法的运行方式。论文[5]中有更多的例子。ExIt(黑色)VSMoHex(白色)MoHex(黑色)VSExIt(白色)为什么ExIt如此成功?部分原因是模仿学习通常比强化学习更容易,EXIT比REINFORCE等无模型算法更成功。此外,MCTS仅推荐相对于搜索中的其他选项没有劣势的操作。因此,MCTS的选择将优于大多数潜在对手的选择。相反,在常规的自我博弈中(网络本身扮演对手的角色),基于击败当前唯一的对手来推荐动作,(因此训练有素的玩家很可能对当前的非最优对手过拟合敏感).我们认为这是EXIT(当使用MCTS作为专家时)如此成功的一个关键因素——事实上学徒在对抗很多对手时表现出色。与ALPHAGOZERO的关系AlphaGoZero[10](在我们的工作[11]发表几个月后问世)也实现了ExIt风格的算法,并证明可以在不使用人类玩家的情况下下围棋。就棋谱而言,已经达到了目前最好的水平。论文[5]中给出了详细的比较。总结专家迭代是一种新的强化学习算法,其灵感来自于人类思维的二进制处理机制理论。ExIt将强化学习分解为两个独立的子问题:泛化和规划。规划是在具体分析的基础上进行的,在找到强有力的策略后进行概括。这将使智能体能够进行长期规划并更快地学习,即使在具有挑战性的问题上也能实现高水平的表现。这种训练策略在棋牌人工智能棋手中非常强大,不需要任何人类专家棋谱,就能达到目前最好的表现。
