当前位置: 首页 > 科技观察

只有参数足够多,神经网络的性能才会好,原理是什么?

时间:2023-03-13 19:38:36 科技观察

传统上,只要参数个数大于要满足的方程个数,我们就可以使用参数模型进行数据插值。但深度学习中一个令人费解的现象是,模型是用比这个经典理论所暗示的多得多的参数训练的。深度学习中经常会发现各种大型神经网络,而神经网络是执行类人任务的主要AI系统。随着参数的增加,神经网络已经能够执行各种任务。根据数学理论,神经网络不需要很大就可以完成任务。例如在直线y=2x中,确定这条直线不需要太多的参数。然而,现代神经网络的规模往往远远超出预测要求,这种情况称为过度参数化。微软研究院的SébastienBubeck和斯坦福大学的MarkSellke在去年12月入选NeurIPS的论文《A Universal Law of Robustness via Isoperimetry》中,对神经网络缩放成功背后的奥秘提供了新的解释。他们表明,神经网络必须比通常预期的要大得多,才能避免某些基本问题。这一发现为一个已经存在了几十年的问题提供了一般性的见解。论文链接:https://arxiv.org/abs/2105.12806瑞士洛桑联邦理工学院的MarkSellke和SébastienBubeckLenkaZdeborová表示:他们的研究触及了计算机科学的核心。神经网络大小的标准来自对其记忆数据方式的分析。但要了解数据记忆,我们必须先了解网络是干什么的。神经网络中的一个常见任务是识别图像中的对象。要创建这样一个网络,研究人员首先需要提供数据图像及其标签,然后训练它学习相关参数,之后模型才能正确识别图像中的物体。换句话说,训练使网络记住数据。更值得注意的是,一旦网络记住了足够的训练数据,它还可以以不同程度的准确度预测它从未见过的物体,这一过程称为泛化。网络的大小决定了它能记住多少。这可以用图形来理解,想象一下在xy平面上放置两个数据点。您可以用这两个参数描述的线连接这两个点。知道直线上一点的坐标和原始数据中一点的x坐标,我们只需看直线(或使用参数)就可以计算出相应的y坐标。因为这条线已经记住了那两个数据点。神经网络的工作方式类似。例如,图像是由成百上千个值来描述的——每个像素都是一个值。这些值在数学上相当于一个点在高维空间中的坐标,坐标的个数称为一个维度。一个古老的数学结果表明,要将n个数据点拟合到一条曲线上,您需要一个具有n个参数的函数。当神经网络在1980年代首次成为有影响力的力量时,研究人员也有同样的想法,认为神经网络应该只需要n个参数来拟合n个数据点——不管数据的维数是多少。“研究已经改变,”德克萨斯大学奥斯汀分校的AlexDimakis说。“我们经常创建参数比训练样本更多的神经网络。这意味着必须重写研究文献。”Bubeck和Sellke并不打算重写任何东西。他们正在研究神经网络缺乏的另一个特性,称为鲁棒性,或网络处理微小变化的能力。例如,一个不太健壮的网络可能已经学会了识别长颈鹿,但它会将一张几??乎没有修改过的图片错误地标记为沙??鼠,这就是网络健壮性的影响。2019年,Bubeck和同事们意识到这个问题与网络规模有关时,正试图证明这个问题的定理。新的研究表明,过度参数化对于网络稳健性是必要的。他们通过将数据点与所需参数拟合到一条曲线来做到这一点,该曲线具有等同于稳健性的数学属性:平滑度。要看到这一点,请再次想象平面中的一条曲线,其中x坐标代表单个像素的颜色,y坐标代表图像标签。由于曲线是平滑的,如果你稍微修改一个像素的颜色,沿着曲线移动一小段距离,相应的预测只会有轻微的变化。另一方面,对于极度锯齿状的曲线,x坐标(颜色)的微小变化会导致y坐标(图像标签)的剧烈变化,识别为长颈鹿的图像可能会变成沙鼠。Bubeck和Sellke表明,对高维数据点的平滑拟合不仅需要n个参数,还需要n×d个参数,其中d是输入的维数(例如,784表示784像素的图像)。换句话说,如果你想让神经网络牢牢记住它的训练数据,过度参数化不仅有帮助——它绝对有效。该证明依赖于一个关于高维几何的奇怪事实——随机分布在球体表面的点彼此之间几乎相距一个完整的直径。点之间的大间距意味着用平滑曲线拟合它们需要许多额外的参数。耶鲁大学的AminKarbasi说:“这个证明是非常基础的——它不需要繁重的数学,而且它说的是非常笼统的东西。结果提供了一种新方法来理解为什么扩大神经网络的简单策略如此有效。同时,其他研究揭示了过度参数化有帮助的更多原因,例如提高训练过程的效率和网络的泛化能力。虽然我们现在知道过度参数化对于鲁棒性是必要的,但尚不清楚鲁棒性对于其他事物是否必要。通过将其与过度参数化联系起来,新的证据似乎表明鲁棒性可能比想象的更重要,这是一个可以带来许多好处的关键因素。“鲁棒性似乎是泛化的先决条件,”Bubeck说。“如果你有一个系统,你只是稍微搞砸了它,然后它就失去了控制,你会有什么样的系统?这是不可接受的,这是一个非常基本和基本的要求。”