国际象棋一直是AI的试验场。七十年前,艾伦·图灵(AlanTuring)猜想可以建造一台可以自我学习并从经验中改进的国际象棋下棋机。上个世纪出现的“深蓝”首次打败人类,却是靠专家对人类的国际象棋知识进行编码,而诞生于2017年的AlphaZero实现了图灵猜想作为神经网络驱动的强化学习机.AlphaZero没有使用任何人为设计的启发式算法或观看人类比赛,而是完全通过与自己比赛来进行训练。那么,它真的学习了人类的国际象棋概念吗?这是一个神经网络可解释性问题。作为回应,AlphaZero的作者DemisHassabis与DeepMind的同事和GoogleBrain的研究人员合作开展了一项研究,该研究在AlphaZero的神经网络中发现了人类国际象棋概念的证据,显示了网络在训练和位置期间获得这些概念需要多长时间,并且还发现AlphaZero的下棋风格与人类不同。该论文最近发表在PNAS上。论文地址:https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119AlphaZero在训练过程中获得了人类象棋的概念AlphaZero的网络架构包括一个主干网络残差网络(ResNet)和一个单独的PolicyHead,ValueHead,ResNet由一系列由网络块和跳过连接组成的层组成。在训练迭代方面,AlphaZero从一个参数随机初始化的神经网络开始,反复与自己对弈,学习评估棋子的位置,并根据过程中产生的数据进行多次训练。为了确定AlphaZero网络在多大程度上代表了人类拥有的国际象棋概念,该研究使用稀疏线性探测将训练期间网络参数的变化映射到人类可理解概念的变化。概念首先被定义为用户定义的函数,如图1中的橙色所示。广义线性函数g被训练为探针以逼近国际象棋概念c。近似g的质量表示该层(线性)对概念进行编码的程度。对于给定概念的每个网络中的所有层的训练期间产生的网络序列重复该过程。图1:探索AlphaZero网络(蓝色)中的人工编码国际象棋概念。比如你可以用一个函数来判断我们这边或者地方是否有“主教”(?):当然,还有很多比这个例子复杂的象棋概念,比如棋子的移动性,你可以编写一个函数来比较你和敌人移动棋子时的分数。在这个实验中,概念函数已经被预先指定,封装了国际象棋特定领域的知识。下一步是训练探针。使用ChessBase数据集中10^5个自然出现的国际象棋位置作为训练集,研究人员从深度为d的网络激活训练稀疏回归探针g以预测给定概念c的值。通过比较AlphaZero自学习周期中不同训练步骤的网络,以及每个网络中不同层的不同概念探针的分数,可以提取网络何时何地学习概念。最后得到每个概念的what-when-where图,以及“正在计算的概念是什么”、“计算发生在网络的什么位置”、“网络训练时概念什么时候出现”三个指标”被形象化。图2图2:从A到B的概念分别是“总分的评价”、“我们被将军了”、“威胁的评估”、“我们能不能吃掉敌方的皇后”、“敌方WillFang的棋步将死我方”边?”,“棋力评分评价”,“棋力评分”,“我们这边有没有王城兵”。可以看出,在图C中,随着AlphaZero越来越强,“威胁”这个概念的功能和AlphaZero的表示(线性探针可检测)的相关性越来越小。这样的what-when-where图包括探测方法比较所需的两个基线,第0层显示的输入回归,以及训练步骤0显示的具有随机权重的网络激活的回归。从上图中的结果,可以得出结论,回归精度的变化完全由网络表示的变化决定。此外,许多what-when-whereplots的结果都呈现出相同的模式,即整个网络的回归精度一直很低,直到大约32k步,开始随着网络深度的增加而迅速提高,然后趋于稳定并在后续层中保持不变。因此,所有与概念相关的计算都在网络中相对较早地发生,而较晚的残差块要么执行移动选择,要么计算给定概念集之外的特征。此外,随着训练的进行,许多人类定义的概念可以从AlphaZero的表示中高精度地预测出来。对于更高级的概念,研究人员发现AlphaZero掌握它们的地方存在差异。首先,在2k训练步数时与零显着不同的概念是“物质”和“空间”;更复杂的概念,如“king_safety”、“threats”和“mobility”,在8k训练步骤时与零有显着差异。零,在32k训练步骤后大幅增长。这一结果与图2中的什么时间-地点图中显示的急剧上升点一致。此外,大多数时间-地点图表的一个显着特征是网络的回归精度在开始和之后迅速增加稳定或下降。这表明到目前为止从AlphaZero发现的概念集只检测到网络的较早层,要了解后面的层,需要新的概念检测技术。AlphaZero的开局策略与人类不同。在观察到AlphaZero学习了人类的国际象棋概念后,研究人员进一步探究了AlphaZero对于开局策略的棋法理解,因为开局的选择也暗示着棋手对相关概念的理解。研究人员观察到,AlphaZero的开放策略与人类不同:随着时间的推移,AlphaZero缩小了选择范围,而人类则扩大了选择范围。图3A显示了人类对白色第一步的偏好的历史演变。前期流行e4作为先手,后期开局策略更加平衡灵活。图3B是AlphaZero的开局策略随着训练步骤的演变。可以看出,AlphaZero开始时始终对所有选项进行均等权衡,然后逐渐缩小选项范围。图3:AlphaZero和人类对第一步的偏好与训练步骤和时间的比较。这与人类知识的进化形成鲜明对比,人类知识的进化是从e4开始逐渐扩展,而AlphaZero在训练后期明显偏向d4。然而,这种偏好不需要过度解释,因为自我对弈训练是基于快速游戏,增加了很多随机性以方便探索。这种差异的原因尚不清楚,但它反映了人类与人工神经网络之间的根本区别。一个可能的因素可能是,人类国际象棋的历史数据强调了高手的集体知识,而AlphaZero的数据既包括初学者水平的比赛,也包括单一的进化策略。那么,当AlphaZero的神经网络经过多次训练后,是否会表现出对某些开局策略的稳定偏好呢?研究结果是,在很多情况下,这种偏好在不同的训练课程中并不稳定,而且AlphaZero的开场策略非常多样化。比如在经典的RuyLopez开局(俗称“西班牙开局”)中,AlphaZero在前期偏向于选择黑色,并遵循典型的打法,即1.e4e5,2.Nf3Nc6,3.Bb5。图4:RuyLopez开始,在不同的训练中,AlphaZero逐渐收敛到3.f6和3.a6之一。此外,不同版本的AlphaZero模型各自表现出对某个动作的强烈偏好,并且这种偏好在训练早期就已建立。这进一步证明国际象棋可以通过多种方式成功下棋,不仅在人机之间,而且在AlphaZero的不同训练迭代中也是如此。AlphaZero掌握知识的过程那么,上述关于开局策略的研究成果与AlphaZero对概念的理解有什么关系呢?这项研究在各种概念的什么-何时-何处图表中发现了一个明显的拐点,这与开放偏好的显着变化相吻合,尤其是似乎与开放策略直接相关的材料和流动性概念。material的概念主要是在trainingsteps10k和30k之间学习,piecemobility的概念也在同期逐渐融入到AlphaZero的valuehead中。对棋子的物质价值的基本了解应该先于棋子的机动性。然后,AlphaZero将这一理论纳入了25k到60k训练步骤之间的开放偏好。作者进一步分析了AlphaZero网络对国际象棋知识的演化过程:首先发现国际象棋实力;然后基础知识在短时间窗口内爆发式增长,主要是一些与机动性相关的概念;最后,改进阶段,对神经网络的开放策略进行数十万次训练步骤的细化。虽然整体学习时间较长,但具体的基本能力会在较短的时间内迅速浮现。前国际象棋世界冠军弗拉基米尔·克拉姆尼克也被请来证实这一结论,他的观察与上述过程一致。总而言之,这项工作证明了AlphaZero网络学习的棋盘表示能够重建许多人类国际象棋概念,并详细说明了网络学习的概念内容、在训练期间学习概念的时间以及概念在网络上的计算位置.而且,AlphaZero的下棋风格和人类不太一样。现在我们根据人类定义的国际象棋概念来理解神经网络,下一个问题将是:神经网络能否学习超越人类知识的知识?
