当前位置: 首页 > 科技观察

深度学习算法全景图:从理论证明其正确性

时间:2023-03-21 23:39:08 科技观察

深度学习算法全景图:从理论点(stationarypoint)和属性证明其正确性来研究深度学习的经验风险(empiricalrisk)全景图。对于具有L层的线性神经网络,我们表明其经验风险一致收敛于训练样本大小为n和速率为的总体风险,其中d是总权重维度,r是每层权重的幅度范围。然后,我们根据这个结果得出经验风险的稳定性和泛化界限。此外,我们建立了经验风险梯度和总体风险梯度的收敛一致性。我们还证明了经验风险和群体风险之间的非退化停滞和收敛对应关系,描述了深度神经网络算法的全景。此外,我们还分析了使用sigmoid函数作为激活函数的深度非线性神经网络的特点。我们证明了深度非线性神经网络的经验风险梯度具有与线性相同的收敛行为,同时分析了其非退化驻点的性质。据我们所知,这项研究是第一个从理论上描述深度学习算法前景的研究。此外,我们的发现为训练有素的深度学习算法提供了样本复杂性。我们还提供了对神经网络深度L、层宽度、网络大小d和参数大小如何决定神经网络架构的理论理解。1.简介深度学习算法在计算机视觉[1,2,3]、自然语言处理[4,5]和语音识别[6,7]等许多领域取得了令人瞩目的成果。然而,由于它们的由于高度的非凸性和固有的复杂性,我们对这些深度学习算法的性质的理论理解仍然落后于它们的实际成果。事实上,深度学习算法通常通过最小化经验风险来学习它们的模型参数。因此,我们致力于分析深度学习算法的经验风险全景图,以更好地了解它们的实际性能。形式上,我们考虑一个由L层网络(L≥2)组成的深度神经网络模型,并通过最小化常用的平方损失函数(来自未知分布D的样本)进行训练。理想情况下,深度学习算法会通过最小化群体风险来找到其最佳参数w*。其中w是模型参数,方程是样本x服从分布D的平方损失函数。这里v(l)是层l的输出,y是样本x的目标输出。在实践中,由于样本分布D通常是未知的,并且只有有限的来自和来自D的训练样本x(i),因此通常通过最小化经验风险来训练网络模型。在这项工作中,我们通过将经验风险收敛到组风险J(w)及其停滞点和属性,描述了多层线性和非线性神经网络的深度学习算法的经验风险全景。2.文献综述迄今为止,能够解释深度学习的理论寥寥无几,大致可分为三类。***类旨在分析深度学习的训练误差。第二类工作[13,14,9,15]致力于分析深度学习中高度非凸损失函数的损失面,例如停滞点的分布。第三类是最近的一些工作,试图将问题分解成更小的部分,以降低分析的难度。然而,没有工作分析深度学习算法的经验风险的全貌。3.深度线性神经网络的研究成果我们首先证明了深度线性神经网络从经验风险到群风险的一致收敛性。基于这个证明,我们推导出稳定性和泛化界限。随后,我们提出了经验梯度和人口梯度之间的一致收敛保证,然后还分析了经验风险非退化驻点的性质。在本文的分析中,我们假设输入数据x服从τ^2-sub-Gaussian分布,并且存在假设1(假设1)中所述的有限量级。假设1.输入数据具有均值0和τ^2-sub-Gaussian分布。所以x满足此外,x的L2范数满足(x的量级是有限的):其中rx是一个正的普适常数。3.1一致性收敛性、经验风险的稳定性和泛化定理1决定了深度线性神经网络中经验风险的一致性收敛结果。定理1:假设深度神经网络中假设1中输入数据x的激活函数是线性的。那么有两个普适常数cf′和cf满足:那么,有:这个不等式的置信度至少为1?ε。其中,l为神经网络层数,n为样本量,dl为最后一层的维度大小。3.2梯度的一致性收敛性在本节中,我们分析了深度线性神经网络中经验风险和群体风险的梯度收敛性。梯度收敛的结果对于描绘神经网络算法的全景图非常有用。我们的结果如下所示。定理2:假设深度神经网络中假设1中输入数据x的激活函数是线性的。经验风险梯度收敛于L2范数(欧几里德范数)中的总体风险梯度。特别地,如果cg'是一个普适常数,则存在一个普适常数cg满足:这个不等式的置信度至少为1?ε,其中3.3停滞点的一致收敛这里我们分析优化深度学习的经验风险算法固定属性。为简单起见,我们使用非退化固定点,该固定点在几何上是孤立的,因此是局部唯一的。4.深度非线性神经网络的结果在上面的部分中,我们分析了深度线性神经网络模型的经验风险优化的全景。在本节中,我们将继续分析深度非线性神经网络,它采用sigmoid激活函数并且在实践中更受欢迎。值得注意的是,我们的分析技术也适用于其他三阶微分函数,例如具有不同收敛速度的tanh函数。这里我们假设输入数据是高斯变量(i.i.d.Gaussianvariables)。4.1实证风险的一致性收敛性、稳定性和泛化性本章首先给出实证风险的一致性收敛性分析,然后分析其稳定性(Stability)和泛化性。定理4.假设输入样本x服从假设2,深度神经网络的激活函数为sigmoid函数,则若存在一般常数cy,满足:该不等式的置信度至少为1?ε,其中4.2梯度和驻点在本节中,我们分析了深度非线性神经网络中经验风险的梯度收敛特性。定理5假设输入样本x服从假设2,深度神经网络中的激活函数为sigmoid函数。然后,经验风险的梯度以L2范数(欧几里得范数)的方式一致地收敛于群体风险的梯度。特别是,如果其中cy'是常数,则有信心不等式至少为1?ε,其中cy、cd和cr是定理4中的相同参数。6.证明概述在本节中,我们简要介绍介绍证明过程,但由于篇幅所限,定理1至6、推论1至2和技术引理在补充材料中给出。7.结论在这项工作中,我们提供了深度线性/非线性神经网络经验风险优化全景图的理论分析,包括一致收敛性、稳定性和经验风险本身的泛化及其梯度和停滞特性。我们证明了从经验风险到群体风险的收敛速度。这些结果还表明,神经网络深度(层数)l、网络大小和宽度对收敛速度至关重要。我们还证明了权重参数的大小在收敛速度中也起着重要作用。事实上,我们建议使用少量权重。所有结果都与实践中广泛使用的网络架构相匹配。【本文为栏目组织《机器之心》微信公众号《机器之心(id:almosthuman2014)》原文翻译】点击此处查看作者更多好文