伟大的科学成就不能仅靠反复试验来实现。例如,太空计划中的每一次发射都是基于数百年来对空气动力学、推进力和天体等事物的基础研究。同样,在构建大规模人工智能系统时,基础研究大大减少了试错次数,好处是显而易见的。超参数(HP)调整是深度学习的关键,但它也是一个昂贵的过程,尤其是对于具有数十亿个参数的神经网络。如果HP选择不当,会导致模型性能不佳和训练不稳定。在训练非常大的深度学习模型时,这些问题会更加严重。最近有研究表明,不同的神经网络参数化会导致不同的无限宽度限制(infinite-widthlimits),他们提出了最大更新参数化(MaximalUpdateParametrization,μP),无限宽度限制的参数化是为了实现“学习到的“最大”特征。直观地说,无论宽度如何,它都确保在训练期间每一层激活的更新大小保持一致。相比之下,虽然标准参数化(SP)保证了初始化时激活的一致性,但实际上在训练时,激活在由于每层学习率不平衡而导致宽模型。Microsoft和OpenAI的研究人员首次提出了关于如何调整大型神经网络的基础研究(这些神经网络太大而无法多次训练)。他们通过展示来做到这一点一个特定的参数化为不同大小的模型保留了最好的超参数。到带有μP的大型模型。也就是说,该研究在大型模型上实现了接近最优的HP。这篇论文的思路很简单,论文中引入了一种特殊的参数化μP,其中窄神经网络和宽神经网络共享同一组最优超参数。即使宽度→∞也是如此。论文作者之一、来自微软的GregYang在推特上写道:“你不能在单个GPU上训练GPT-3,更不用说调整它的超参数了。但是随着新的理论进展,你可以在单个GPU上调整它的超参数!”具体而言,该研究表明,在μP中,即使模型大小发生变化,许多最佳HP仍保持稳定。这导致了HP调整的新范例:μTransfer,它在μP中参数化目标模型并间接调整较小模型上的HP,将其零采样到全尺寸模型而不调整后者。本研究在Transformer和ResNet上验证了μTransfer,例如,1)通过从具有13M参数的模型中迁移预训练的HP,本研究优于BERT-large(350M参数),总调优成本相当于预训练的BERT-大型;2)通过从40M参数迁移,本研究优于已发布的6.7BGPT-3模型,调整成本仅为总预训练成本的7%。论文地址:https://arxiv.org/pdf/2203.03466.pdf项目地址:https://github.com/microsoft/mup通过大大减少猜测训练超参数的需要,该技术可以加速庞大神经网络的开发网络研究,例如GPT-3和未来可能的继任者。缩放很容易初始化,但很难扩展到训练大型神经网络很难训练,部分原因是不了解它们的行为在扩展时如何变化。在深度学习的早期工作中,研究人员使用启发式算法。一般来说,启发式尝试在模型初始化过程中保持激活大小一致,而不管宽度如何。但是,随着训练开始,这种一致性会在不同的模型宽度处中断,如图1左侧所示。与随机初始化不同,模型在训练期间的行为更难以进行数学分析。该研究使用μP求解,如图1右侧所示,它显示了随着模型宽度的增加,前几个训练步骤中网络激活规模的稳定性。图1:在PyTorch的默认参数化中,左侧激活扩展的宽度在一个训练步骤后发生变化。但在右侧的μP中,无论训练步长如何,激活缩放都会持续变化。事实上,除了在整个训练过程中保持激活扩展一致之外,μP还确保不同且足够宽的神经网络在训练期间表现相似,以便它们收敛到无限宽度的理想极限,该研究称为特征学习极限。如图所示,μP是唯一在宽度上保持最佳学习率的参数化,在宽度为8192的模型中实现最佳性能,并且对于给定的学习率,更宽的模型表现更好——也就是说,曲线做不相交。图2:左侧,该研究在CIFAR10上以不同的学习率(沿x轴显示)训练不同宽度(对应不同颜色和图案的曲线)的多层感知器(MLP),并沿y轴绘制训练图损失。在右边,参数化的2D平面是通过插值1)PyTorch默认值和μP(x轴)之间的初始化分布,以及2)PyTorch默认值和μP(y轴)之间的学习率分布形成的。在这个平面上,PyTorch默认为(0,0),而μP默认为(1,1)。基于TensorPrograms的理论基础,μTransfer自动适用于高层架构,例如Transformer和ResNet。此外,它可以同时传输各种超参数。以Transformer为例,图3显示了关键超参数如何在整个宽度上保持稳定。超参数可以包括学习率、学习率调度、初始化、参数乘数等,甚至可以特定于每个参数张量。该研究在最大宽度为4096的Transformer上验证了这一点。图3:在μP中参数化并在WikiText-2上训练的不同宽度的Transformer。随着模型宽度的增加,最优学习率、交叉熵温度、初始化大小和学习率方案保持稳定。在右下方的面板中,该研究尝试了以下学习率方案:(a)线性衰减,(b)StepLR@[5k,8k]衰减因子为0.1,(c)StepLR@[4k,7k]衰减系数0.3,(d)余弦退火,(e)常数,(f)平方根反比衰减。模型深度的实验扩展现代神经网络扩展涉及的不仅仅是宽度。该研究还探讨了如何通过将μP与非宽度维度的简单启发式方法相结合,将其应用于现实训练场景。下面的图4使用相同的转换器设置来显示最佳学习率如何在合理的非宽度维度范围内保持稳定。图4:在μP中参数化并在Wikitext-2上训练的不同大小的变形金刚。如图3所示,最佳学习率不仅在宽度上迁移,而且在测试范围内通过实验在其他扩展维度上迁移,例如深度、批大小和序列长度。这意味着跨宽度的理论迁移可以与经过实验验证的跨其他扩展维度的迁移相结合,以获得可以间接调整小模型上的超参数并迁移到大模型的μTransfer。除了学习率,其他超参数的情况如下图所示:TestμTransfer在验证了各个超参数的迁移后,研究人员尝试将它们组合成一个更真实的场景。下面的图5比较了两种情况,一种是μTransfer从小型代理模型传输调优的超参数,另一种是直接调优大型目标模型。在这两种情况下,调整都是通过随机搜索完成的。图5:μTransfer将计算效率提高了大约一个数量级。由于代理模型即使在很小的时候也能有意义地预测最佳超参数(如图3、4所示),我们预计随着这项研究训练具有数十亿参数的更大目标模型的性能差距将会扩大。μP+GPT-3在这项工作之前,模型越大,调优的成本就越高,预计调优的效果也越差。研究人员预计μTransfer将为最大的模型带来最大的收益,因此该研究与OpenAI合作评估了GPT-3上的μTransfer。在使用μP对GPT-3的相对位置编码版本进行参数化后,该研究调整了一个具有4000万个参数的小型代理模型,然后跟随μTransfer将最佳超参数组合复制到十亿参数变体中的GPT-367。该调整阶段的总计算量仅为67亿模型预训练计算量的7%。如下图所示,这个使用μTransfer的模型优于GPT-3论文中同尺寸的模型(绝对位置编码),其性能与GPT-3论文中参数数量翻倍的模型相当(绝对位置编码)。理论意义μP给出了一个扩展规则,它在训练损失方面唯一地保留了跨不同宽度模型的超参数的最佳组合。相比之下,其他缩放规则(例如PyTorch中的默认初始化或NTK参数化),随着网络越来越宽,超参数空间中的最优值越来越远。研究人员认为,对于特征学习神经网络的实际使用,μP的特征学习限制比NTK限制更自然,以获得适用的见解。因此,过度参数化的神经网络应该在大宽度设置中重现μP的特征学习限制。过去几年发展起来的张量规划(TP)理论使这一进展成为可能。TP理论使研究人员能够计算出任何通用计算图在其矩阵维数变大时的极限。TP方法产生了基本的理论结果,例如神经网络-高斯过程对应的体系结构通用性和动态二分定理,并通过导出μP和特征学习限制形成μTransfer。研究人员认为,将TP理论扩展到深度和批量大小等扩展维度是大型模型可靠扩展超出宽度的关键。研究人员表示,基础研究是对试错法的一种经济有效的补充,它将继续为大规模机器学习带来更有原则的方法。
