AI是如何学习知识的?科学家敲开它的头骨看了看。这两天DeepMind和GoogleBrain的一篇文章被《美国国家科学院院刊》(PNAS)收录,以5年前发布的AlphaZero为例,研究神经网络如何获取和理解国际象棋知识。在内容上,研究人员重点关注“神经网络如何学习”、“知识如何量化和表示”等问题。有趣的是,他们发现在没有人类棋局指导的情况下,AlphaZero仍然形成了一个类似于职业棋手的概念体系。研究人员还进一步探索了这些概念形成的时间和地点。此外,他们将AlphaZero的开局风格与人类进行了比较。有网友感叹这是一项影响深远的工作:有人感叹AlphaZero可以计算出人类的任何行为特征?!如需更多观察,请继续阅读。掀起神经网络的头盖骨AlphaZero,2017年由DeepMind发布,一炮而红。这是一个神经网络驱动的强化学习器,专门研究国际象棋,它包括一个残差网络(ResNet)主干和独立的策略和价值头。它的输出函数可以表示如下,z是国际象棋的排列:为了研究AlphaZero是如何“学习”的,研究人员构建了一个人类理解国际象棋的函数c(z0)。其中,z0是国际象棋特有的布局概念,c(z0)使用专业国际象棋引擎Stockfish8评价分数作为参考。从AlphaZero的角度来看,设置了一个广义线性函数g(zd)作为不同层取值的探针。在训练设置下,g(zd)会不断逼近
