如何理解深度学习的优化？轨迹_0

时间：2023-03-16 11:24:07 科技观察

通过分析梯度下降神经网络优化本质上是非凸的，但简单的基于梯度的方法似乎总能解决此类问题。这种现象是深度学习的核心支柱之一，也是我们许多理论家试图解开的谜团。这篇文章将总结一些最近试图解决这个问题的研究，***还将讨论我与SanjeevArora、NoahGolowich和WeiHu合着的一篇新论文(arXiv:1810.02281)。本文研究了深度线性神经网络上梯度下降的情况，保证以线性速率收敛到全局最小值。景观法及其局限性许多关于深度学习优化的论文都隐含地假设在建立了损失景观（尤其是临界点的损失景观，也就是梯度消失的点）的几何属性之后，将获得对损失景观的严格理解它。例如，通过类比凝聚态物理的球形自旋玻璃模型，Choromanska等人。2015年的论点成为深度学习领域的一个猜想：图片猜想：神经网络优化问题中的次优临界点Hessian很可能具有负特征值。换句话说，坏的局部极小点很少，几乎所有的鞍点都是严格的。对于涉及浅层（双层）模型的简单问题的各种损失情况，已经证明了这种猜想的一种强有力的形式。这些简单的问题包括矩阵感知、矩阵补全、正交张量分解、相位恢复和具有二次激活的神经网络。也有研究者在图片猜想成立的情况下探索梯度下降收敛到全局最小值。荣哥、BenRecht、迟进和MichaelJordan的博客都给出了很好的描述：http://www.offconvex。org/2016/03/22/saddlepoints/http://www.offconvex.org/2016/03/24/saddles-again/http://www.offconvex.org/2016/03/24/saddles-again/他们描述了梯度下降如何通过避开所有严格的鞍点来达到二阶局部最小值（Hessian矩阵为半正定的临界点），还描述了在算法中添加扰动时该过程的工作原理。请注意，这是在图片猜想下，即当没有不良局部极小值和非严格鞍点时，二阶局部极小值也可能是全局极小值。然而，很明显，图片方法（和图片猜想）不能以这种方式应用于深度（三层或更多层）网络。有几个原因。***，深度网络通常会引入非严格的鞍点（例如，所有权重均为零的点，请参阅Kawaguchi2016）。其次，图片的视角在很大程度上忽略了在实践中对深度网络的收敛有很大影响的算法方面——例如初始化类型或批归一化。***，正如我在之前的一篇文章中提到的，基于SanjeevArora和EladHazan的研究，在经典线性模型中添加（冗余）线性层有时可以加速基于梯度的优化，而不会为模型的表现力带来任何增益，但将非凸性引入到先前的凸问题中。这种现象很难用任何仅依赖临界点属性的图片分析来解释，因为用这种方法优化具有全局最小值的单个临界点的凸目标是最困难的。解决方案？分析深度学习优化的图像方法的局限性表明它可能会丢弃太多重要的细节。也许是比“景观方法是否优雅？”更相关的问题。是“来自特定初始化的特定优化器轨迹（轨迹）如何表现？”尽管基于轨迹的方法看起来比景观方法繁琐得多，但它们已经取得了长足的进步。最近的一些论文（例如Brutzkus和Globerson2017、Li和Yuan2017、Zhong等人2017、Tian2017、Brutzkus等人2018、Li等人2018、Du等人2018、Liao等人2018）采用了这种策略并成功分析了不同类型的浅层模型。此外，基于轨迹的分析也开始超越图片方法——对于线性神经网络，他们已经成功地建立了梯度下降收敛到任意深度的全局最小值。深度线性神经网络的基于轨迹的分析线性神经网络是具有或不具有线性激活的完全连接的神经网络。具体来说，深度为N的线性网络，输入维度为d_0，输出维度为d_N，隐藏维度为d_1,d_2...d_{N-1}是到的线性映射，其参数化为，其中是第j层的权重矩阵.尽管这种表示看起来微不足道，但线性神经网络的优化有些出奇地复杂——它们会导致具有多个最小值和鞍点的非凸训练问题。作为深度学习优化的替代理论，基于梯度的算法在线性神经网络中的应用在此期间受到了极大的关注。据我所知，Saxe等人。2014年率先对深度（三层或更多层）线性网络进行基于轨迹的分析，处理梯度流以最小化?2损失（最小学习率梯度下降）。尽管此分析做出了重要贡献，但它并没有正式建立对全局最小值的收敛，也没有考虑计算复杂性方面（收敛所需的迭代次数）。Bartlett等人最近的一项研究。2018年在填补这些空白方面取得了进展，应用基于轨迹的方法分析线性残差网络特定情况下的梯度下降，即所有层具有统一的宽度（d_0=d_1=...=d_N）和同样初始化（W_j=I,?j)线性网络。鉴于数据标签分布各不相同（他们称之为“目标”），Bartlett等人。显示可证明的梯度下降以线性速率收敛到全局最小值的情况——在迭代后最佳损失小于ε>0；也表现出收敛失败。在我与SanjeevArora、NoahGolowich和WeiHu合作的一篇新论文中，我们在使用基于轨迹的方法方面更进了一步。具体来说，我们分析了任何不包含“瓶颈层”的线性神经网络的梯度下降轨迹，“瓶颈层”定义为隐藏维度不小于输入和输出维度之间的最小值的层；收敛性最小。但初始化需要满足以下两个条件：(1)近似平衡——；(2)defaultmargin——初始损失小于任何秩缺失解的损失。我们表明这两个条件都是必需的，违反任何一个都可能导致轨迹不收敛。在线性残差网络的特殊情况下，初始化时的近似平衡很容易满足，以零为中心的小随机扰动的自定义初始化设置同样容易满足。后者也以正概率导致边距缺失。对于d_N=1的情况（即标量回归），我们提供了一个满足这两个条件的随机初始化方案，从而以恒定概率以线性速率收敛到全局最小值。我们分析的关键是观察权重是否被初始化为近似平衡，并且它们将在整个梯度下降迭代中保持如此。换句话说，优化方法所走的轨迹遵循一个特殊的特征：它意味着在整个时间轴上，所有层都具有（几乎）相同的一组奇异值，并且每一层的左奇异值向量与下一层的右奇异值向量是（接近）一致的。我们表明这种规律性意味着梯度下降是稳定的，表明即使在损失情况总体复杂（包括许多非严格鞍点）的情况下，它也可能表现得非常好。总结通过图片方法解决深度学习中的优化问题在概念上很有吸引力，即独立于用于训练的算法分析对象的几何属性。但这种策略有其固有的局限性，主要是因为它要求目标优雅，这似乎是一个过于严格的要求。另一种方法是将优化器及其初始化考虑在内，并只关注其沿着结果轨迹的画面。这种替代方法越来越受到关注。场景分析目前仅限于浅层（双层）模型，而基于轨迹的方法最近处理了任意深度的模型，证明梯度下降以线性速率收敛到全局最小值。然而，这种成功仅仅涵盖了线性神经网络，还有很多工作要做。我预测基于轨迹的方法也将是我们正式理解深度非线性网络基于梯度的优化的关键。原文链接：http://www.offconvex.org/2018/11/07/optimization-beyond-landscape/almosthuman2014)》]点此阅读作者更多好文

上一篇：想从程序员转为架构师？看100篇架构设计文章，不如把这个

下一篇：前端开发必须知道JavaScript中的严格模式

如何理解深度学习的优化？轨迹_0相关文章