AlphaZero和人类下棋。你是否掌握了一些人类从未了解过的知识?DeepMind最近与国际象棋世界冠军合作发表了一篇长达69页的论文。深入剖析AlphaZero后发现,神经网络学到的知识与人类基本相似!机器学习系统通常被认为是不透明的、不可预测的,并且与人类所接受的训练几乎没有共同之处。难道黑盒模型和可解释学习注定是两条路?但最近的研究表明,至少在某些情况下,神经网络可以学习一些人类可以理解的表征!例如,分类器中的单个神经元可以表示一些语义信息,语言模型也包含语法信息,一些复杂的概念表示也可以在视觉和文本数据的对齐数据中找到。这些神经网络学习的概念与人类相似。与接受的概念培训相关。但还有一个问题仍然存在,这些习得的概念是否具有普遍性?我们是否也期望其他深度学习系统有类似的有意义的表示?如果这些问题的答案是否定的,那么一些关于反射模型计算过程可解释性的研究就会受到各种限制,很难找到其他合理的解释方式。虽然上面提到的几个例子可以说明机器学习模型在一定程度上可以理解人类语义,但本质上是因为它们只能访问人类生成的数据,并且在分类任务中,它们强加了人类的类别概念。提供模型会使它们捕获类别语义。换句话说,这些任务相对简单,也更容易解释。为了进一步测试机器学习模型是否真正捕捉到了人类可理解的概念,需要找到一种在不使用人工标记数据的情况下表现优于人类表现的模型。这是巧合吗?AlphaZero同时满足这两个要求。首先,AlphaZero是通过self-play训练的,所以它从未接触过人类数据,并且在国际象棋、围棋和将棋这三个竞技游戏中,它借助蒙特卡洛树搜索成功击败了人类。所以AlphaZero成为研究机器学习模型与人类理解之间关系的重要桥梁。如果人类可以理解的概念可以在AlphaZero中找到,那么其他模型应该也有!去做就对了!DeepMind、GoogleBrain和国际象棋世界冠军的研究人员联手撰写了一篇长达69页的论文,内容涉及像AlphaZero这样的超人神经网络模型正在学习什么,这是一个科学且实用的问题。在论文中,研究人员证明人类获得的知识类似于AlphaZero在国际象棋中获得的知识。并且通过对人类关于国际象棋的大量概念的探索,我们还可以观察到其中一些概念在AlphaZero网络中是如何表示的。https://arxiv.org/abs/2111.09259论文中邀请的国际象棋大师是弗拉基米尔·克拉姆尼克(VladimirKramnik),俄罗斯著名棋手,1992年获得国际象棋大师称号,2000-2007年,他是世界象棋大师冠军。他的评分为2,801,在世界排名第四(在现役球员中排名第三)。研究方法主要分为三个方面:1.概念探索研究者的首要任务是研究AlphaZero的内部表征,即其神经网络中神经元的激活是否与人类下棋相似.与概念有关。如果可以很容易地从网络的内部表示中预测出人类的概念,那么也有可能更深入地挖掘以揭示更多的信息。如果学习到的表示与人类概念无关,AlphaZero的内部计算在进一步研究后可能仍然不透明。基于概念的方法从大型输入数据集上的网络激活中检测人类概念。因为国际象棋这些年已经发展到高度理论化,已经有大量现成的人类定义的概念可以使用,而且这些概念也足够复杂。而所有这些概念结合起来就可以得到一个完整的职位评价(positionevaluation)。此外,整个探索过程是自动化的,因此研究人员可以在自我对弈训练期间探索每个概念、每个块和多个检查点,从而实现学习内容的蓝图。当然,基于概念的方法远不是理解神经网络计算的唯一方法。2.研究行为变化在研究了内部表征如何随时间变化之后,自然要研究这些变化的表征。如何引起行为改变。在训练期间,某些动作(动作)在同一位置上优先于其他动作,并且这种偏好随着训练的进行而发展。当AlphaZero在没有蒙特卡洛树搜索(MCTS)的情况下运行时,行为变化仅限于其先前动作选择概率的变化。模型行为的变化可以通过测量一组国际象棋位置的移动概率的变化来检测,并且自我对弈训练期间游戏的演变可以与高级人类对弈中动作选择的演变进行比较.3.直接研究激活在确定可以从Alphazero的训练后激活中预测许多人类概念之后,是时候开始研究究竟是什么激活了这些网络神经元。研究人员使用非负矩阵分解(NMF)技术将AlphZero的表示分解为因子。这种方法提供了独立于现有人类概念的信息,还提供了AlphaZero网络计算内容的补充视图。直接测量单个神经元的激活与输入之间的协方差也是一种选择。此方法可以提供输入特征的组合以查找存在哪些特征。与给定神经元的激活最相关。最终的研究结果发现,很多人类的概念都可以在AlphaZero网络中找到。研究人员证明,AlphaZero网络内部学习的国际象棋表征可用于可靠地重建许多人的国际象棋概念。采用概念激活向量(CAV)方法通过训练稀疏线性探针来处理更广泛的概念。这也说明相关信息是由AlphaZero网络计算出来的。结果还表明,虽然AlphaZero的国际象棋知识似乎与人类的概念探索密切相关,但它们确实不同,因为重建通常是不完整的。通过使用概念探测方法,可以测量训练期间和网络中每一层的相关信息的存在,这也可以描绘出模型在何时何地发现了哪些概念。研究人员还发现,许多概念在训练早期以惊人的一致性出现,而且AlphaZero的动作选择也迅速发生变化。UseofConceptandRelativeconceptvalue侧重于描述AlphaZero值函数随时间的演变。同样,研究人员使用基于概念的方法来尝试预测一组人类概念的价值函数的输出。通过研究训练过程中概念权重的演变,可以看出AlphaZero的行为是如何与人类高级国际象棋概念相关联的,这也是其下棋风格的体现。可以看出,早期的AlphaZero训练侧重于材料中更复杂、更微妙的概念。例如,KingSafety和Mobility作为价值函数的重要预测指标,会在训练过程的后期出现。分析表明,人类象棋的发展过程与AlphaZero既有相同点也有不同点。AlphaZero并没有回顾人类象棋的发展历程,而是直接从一些走法开始训练。但在self-play策略上,人类和AlphaZero基本相似。或许,神经网络的发展终于来揭开黑匣子了,看看是不是和生物神经一样!
