当前位置: 首页 > 科技观察

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

时间:2023-03-20 11:02:51 科技观察

为什么神经网络越大越好?NeurIPS论文证明鲁棒性是泛化训练数据、更多样化训练任务的基础。当然,这个措施确实有效。随着神经网络越来越大,模型理解和掌握的数据也越来越多,在一些特定的任务上已经超越了人类。但在数学上,现代神经网络的规模其实有点过于臃肿,参数的数量通常远远超过预测任务的要求。这种情况也称为过参数化。最近在NeurIPS的一篇论文中对这种现象提出了新的解释。他们认为,这个比预期更大的神经网络对于避免一些基本问题是完全必要的,本文的发现提供了对该问题的更普遍的见解。论文地址:https://arxiv.org/abs/2105.12806文章的第一作者SébastienBubeck在MSRRedmond管理机器学习基础研究组,主要在机器学习和理论计算机的各个主题上进行跨学科研究科学。神经网络的一项常见任务是识别图像中感兴趣的对象。为了创建一个能够完成这项任务的网络,研究人员首先为其提供许多图像和相应的对象标签,并训练它学习它们之间的相关性。之后,网络将正确识别它所看到的图像中的对象。换句话说,训练过程使神经网络记住了数据。而且,一旦网络记住了足够的训练数据,它还可以预测它从未见过的物体的标签,准确度各不相同,这一过程称为泛化。网络的大小决定了它能记住多少。可以用图形来理解。假设您有两个数据点,将它们放在XY平面上,并使用由两个参数描述的直线连接这些点:直线的斜率和它与垂直轴相交的高度。如果其他人也知道直线的参数,以及其中一个原始数据点的X坐标,他们可以通过查看直线(或使用参数)计算出相应的Y坐标。也就是说,这条线已经记住了这两个数据点,神经网络或多或少在做同样的事情。例如,图像由数百或数千个数值来描述,每个像素都有一个对应的值。这组很多自由值可以在数学上等价于一个点在高维空间中的坐标,坐标的个数也称为一个维度。传统数学的结论是,要将曲线拟合到n个数据点,您需要一个具有n个参数的函数。例如,在直线示例中,两个点由具有两个参数的曲线描述。当神经网络在80年代作为一种新模型首次出现时,研究人员也这么认为,应该只需要n个参数来拟合n个数据点,而不管数据的维度是多少。得克萨斯大学奥斯汀分校的AlexDimakis表示,现实中不再是这样了。神经网络的参数数量远远超过了训练样本的数量,可见教材的内容必须要改写改正了。研究人员正在研究神经网络的稳健性,或网络处理微小变化的能力。例如,弱网络可能已经学会识别长颈鹿,但它会将几乎没有修改的版本错误地标记为沙??鼠。2019年,当Bubeck和同事意识到这个问题与网络的规模有关时,他们正在寻求证明关于这个问题的定理。在他们的新证明中,研究人员表明,过度参数化对于网络的稳健性是必要的。他们提出平滑度来指示需要多少参数才能用具有等同于稳健性的数学属性的曲线拟合数据点。要理解这一点,请再次想象平面上的一条曲线,其中x坐标表示像素的颜色,y坐标表示图像标签。由于曲线是平滑的,如果你稍微修改一个像素的颜色,沿着曲线移动一小段距离,相应的预测值只会有很小的变化。另一方面,对于锯齿状曲线,X坐标(颜色)的微小变化可能导致Y坐标(图像标签)的巨大变化,长颈鹿可以变成沙鼠。Bubeck和Sellke在他们的论文中表明,对高维数据点的平滑拟合不仅需要n个参数,还需要n×d个参数,其中d是输入的维数(例如,对于784个像素的图像输入,需要784个维数)。换句话说,如果您希望网络稳健地记住其训练数据,过度参数化不仅有帮助,而且是必要的。该证明依赖于一个关于高维几何的事实,即随机分布在球面上的点几乎总是彼此相距一个直径。点之间的巨大间距意味着要用平滑的曲线拟合它们需要很多。附加参数。耶鲁大学的AminKarbasi称赞论文中的证明非常简洁,没有大量的数学公式,说的内容非常笼统。该证明还提供了一条新途径,可以帮助理解为什么用于扩展神经网络的简单策略如此有效。其他研究揭示了过度参数化有帮助的其他原因。例如,它可以提高训练过程的效率,也可以提高网络的泛化能力。虽然我们现在知道过度参数化对于稳健性是必要的,但尚不清楚其他事物需要多少稳健性。但通过将其与过度参数化联系起来,新证据表明稳健性可能比人们想象的更重要,它也可能为其他解释大型模型优势的研究铺平道路。鲁棒性确实是泛化的先决条件,如果你建立一个系统,稍微扰动它,它就会失控,这是什么样的系统?显然不合理。所以,Bubeck认为这是一个非常基础和基本的要求。