本文主要解答量化问题。量化问题主要包括以下几种情况:“据我所知,每个方向0的导数概率都很低,除此之外,还有其他原因吗?”从理论上讲,这个问题是可以被验证的,而且这几十年来也有很多研究人员一直致力于验证。首先,我想指出,这个问题无论如何都在实践中得到了验证。这一观点最早由LeCun在其早期著作中提出。它现在在DavidG.Stork、PeterE.Hart和RichardO.Duda的“小红书”《图形分类》中讨论。这个问题在20年前的自旋玻璃研究中的浓物质物理学中得到了很大程度的解释。最基本的项目是由Parisi以类似的不切实际的形式开发的:TAP的自由能是从静态的角度表达的,后来通过随机矩阵理论的正确可行方法进行了论证。LeCun谈到的结果如下:Keypointsforhigh-dimensionallandscapes让我总结一下Parisi的方法:他研究了随机哈密顿函数之一——平均场自旋玻璃,称为P-like旋转玻璃的球面旋转。他发现:1.得到TAP自由能的解析表达式(当T>0时)TAP(SollisAndersonPalmer)理论是研究自旋玻璃的通用方法,可以应用于RBMs(见《使用物理化学提高RMBs》)2.可以计算配置的平均信息内容。此外,还有一个复杂性度量——关键点的数量是通过统计理论的方法计算出来的。3.计算能级E的关键点数,这个结论可以推广到T=0的能级图景。巴黎得出的一个普遍结果是,所有局部极小化能量都“集中(静态地)”在地球表面稍高的一个小区域。仍然无法解释的是为什么这是研究自旋眼镜的一个重要问题以及为什么p形球形自旋眼镜是研究目标,除了它是一个经过验证的模型和大量深度学习研究人员可以推导出的硬假设.此外,在深度学习研究中,T=0energylandscape和T>0energylandscape之间没有区别,尽管传统方法(如RBMs和VAEs)假设T=1。最近,更多的结论可以尝试直接应用于深度学习研究:没有深度学习且局部最小值很少的结论进一步假设SGD求解器实际上无法区分鞍点和局部最小值之间的差异,因为Hessian理论假设是非常有问题的。LeCun最近的数值计算研究证实了这一点。他的研究表明Hessian理论假设了许多零值。BiasedGradientDescenttoValley我个人认为这个结论是不完整的,WallinisPeter等物理化学家在这个问题上还有很多研究工作。这个问题是极冷玻璃理论中一个非常令人费解的现象,被称为“亚当的肋骨”现象,以及实际结构玻璃中发生的相关熵危机。这个话题很深奥,但足以说明P旋转球形旋转玻璃如此有趣的原因是它是一个简单的旋转玻璃模型,具有大量逼真的能量观察。它代表着熵危机。事实上,我设想深度网络也表现出熵危机,即当深度网络过度训练时,它们会表现出大量假设的熵。过度训练导致的熵危机会像一座高耸的山峰,因为它偏离了假设的熵,类似于LeCun在他的熵SGD论文中提到的。最近在RBM中观察到了这种现象。[1612.01.1717]具有二元突触的受限玻尔兹曼机的非监控特征的统计力学这些漏斗状的远景可以从蛋白质折叠中观察到。那么,为什么深度学习有效?我在加州大学伯克利分校的2016年夏季MDDS讨论中谈到了这些问题(点击阅读原文查看视频)。
