伟大的科学成就不能仅靠反复试验来实现。例如,太空计划中的每一次发射都是基于数百年来对空气动力学、推进力和天体等事物的基础研究。同样,在构建大规模人工智能系统时,基础研究大大减少了试错次数,好处是显而易见的。超参数(HP)调整是深度学习的关键,但它也是一个昂贵的过程,尤其是对于具有数十亿个参数的神经网络。如果HP选择不当,会导致模型性能不佳和训练不稳定。在训练非常大的深度学习模型时,这些问题会更加严重。最近,研究[54]表明不同的神经网络参数化会导致不同的无限宽度限制(infinitewidthlimits),他们提出了MaximalUpdateParametrization(μP),可以实现“最大”的特征学习。直观上,它确保每一层在训练期间以相同的顺序更新,而不管宽度如何。相比之下,尽管标准参数化(SP)保证激活在初始化时是单元有序的,但实际上在训练期间[54],由于每层的学习率不平衡,宽模型爆炸中的激活。微软和OpenAI的研究人员首次展示了如何调整大型神经网络(这些神经网络太大而无法多次训练)的基础研究。他们通过展示特定参数化为不同模型大小保留最佳超参数来做到这一点。使用μP将HP从小型模型迁移到大型模型。也就是说,该研究在大型模型上实现了接近最优的HP。论文作者之一、来自微软的GregYang表示:“你无法在单个GPU上训练GPT-3,更不用说调整它的超参数(HP)了。但由于新的理论进展,你可以Up-tuningHP?“这篇论文的思路很简单。论文中引入了一种特殊的参数化μP,窄宽神经网络共享一组最优超参数。即使宽度→∞也是如此。具体来说,该研究表明,在μP中,即使模型大小发生变化,许多最佳HP也会保持稳定。这导致了HP调整的新范例:μTransfer,它在μP中参数化目标模型并间接调整较小模型上的HP,将其零采样到全尺寸模型而不调整后者。本研究在Transformer和ResNet上验证了μTransfer,例如,1)通过从具有13M参数的模型中迁移预训练的HP,本研究优于BERT-large(350M参数),总调优成本相当于预训练的BERT-大型;2)通过从40M参数迁移,本研究优于已发布的6.7BGPT-3模型,调整成本仅为总预训练成本的7%。论文地址:https://arxiv.org/pdf/2203.03466.pdf项目地址:https://github.com/microsoft/mup通过大大减少猜测使用哪些训练超参数的需要,该技术可以加快分析速度对GPT-3和未来可能的继任者等神经网络的大量研究。缩放很容易初始化,但很难扩展到训练大型神经网络很难训练,部分原因是不了解它们的行为在扩展时如何变化。在深度学习的早期工作中,研究人员使用启发式算法。通常,启发式尝试在模型初始化过程中保持激活扩展一致。然而,随着训练的开始,这种一致性会在不同的模型宽度处中断,如图1左侧所示。与随机初始化不同,模型在训练期间的行为更难以进行数学分析。该研究使用μP求解,如图1右侧所示,它显示了随着模型宽度的增加,前几个训练步骤中网络激活规模的稳定性。图1:在PyTorch的默认参数化中,左侧激活扩展的宽度在一个训练步骤后发生变化。但在右侧的μP中,无论训练步长如何,激活缩放都会持续变化。事实上,除了在整个训练过程中保持激活扩展一致之外,μP还确保不同且足够广泛的神经网络在训练过程中表现相似,以便它们收敛到一个理想的极限,研究称之为特征学习极限。如图所示,μP是唯一在宽度上保持最佳学习率的参数化,在宽度为213-8192的模型中实现最佳性能,而更宽的模型对于给定的学习率表现更好——也就是说,曲线不相交。在图2的左侧,该研究在CIFAR10上以不同的学习率(沿x轴显示)训练了一个不同宽度(对应不同颜色和图案的曲线)的多层感知器(MLP),并绘制了沿y轴的训练损失。在右边,参数化的2D平面是通过插值1)PyTorch默认值和μP(x轴)之间的初始化分布,以及2)PyTorch默认值和μP(y轴)之间的学习率分布形成的。在这个平面上,PyTorch默认为(0,0),而μP默认为(1,1)。基于TensorPrograms的理论基础,μTransfer自动适用于高层架构,例如Transformer和ResNet。此外,它可以同时传输各种超参数。以Transformer为例,图3显示了关键超参数如何在宽度范围内保持稳定。超参数可以包括学习率、学习率调度、初始化、参数乘数等,甚至可以特定于每个参数张量。该研究在最大宽度为4096的Transformer上验证了这一点。图3:在μP中参数化并在WikiText-2上训练的不同宽度的Transformer。随着模型宽度的增加,最优学习率、交叉熵温度、初始化大小和学习率方案保持稳定。查看网络的超参数可以帮助预测更广泛网络的最佳超参数。在右下方的面板中,该研究尝试了以下学习率方案:(a)线性衰减,(b)StepLR@[5k,8k]衰减因子为0.1,(c)StepLR@[4k,7k]衰减系数0.3,(d)余弦退火,(e)常数,(f)平方根反比衰减。模型深度的实验扩展现代神经网络扩展涉及的不仅仅是宽度。该研究还探讨了如何通过将μP与非宽度维度的简单启发式方法相结合,将其应用于现实训练场景。下面的图4使用相同的转换器设置来显示最佳学习率如何在合理的非宽度维度范围内保持稳定。图4:在μP中参数化并在Wikitext-2上训练的不同大小的变形金刚。如图3所示,最佳学习率不仅在宽度上迁移,而且在测试范围内通过实验在其他扩展维度上迁移,例如深度、批大小和序列长度。这意味着跨宽度的理论迁移可以与经过实验验证的跨其他扩展维度的迁移相结合,以获得可以间接调整小模型上的超参数并迁移到大模型的μTransfer。除了学习率,其他超参数的情况如下图所示:TestμTransfer在验证了各个超参数的迁移后,研究人员尝试将它们组合成一个更真实的场景。下面的图5比较了两种情况,一种是μTransfer从小型代理模型传输调优的超参数,另一种是直接调优大型目标模型。在这两种情况下,调整都是通过随机搜索完成的。图5:μTransfer将计算效率提高了大约一个数量级。由于代理模型即使在很小的时候也能有意义地预测最佳超参数(如图3和图4所示),我们预计性能差距会随着本研究训练具有数十亿参数的更大目标模型而扩大。Futuredirections:μP+GPT-3在这项工作之前,模型越大,调优的成本就越高,预计调优的效果也越差。研究人员预计μTransfer将为最大的模型带来最大的收益,因此该研究与OpenAI合作评估了GPT-3上的μTransfer。在μP中使用相对注意力对GPT-3的一个版本进行参数化后,该研究调整了一个具有4000万个参数的小型代理模型,然后跟随μTransfer将最佳超参数组合复制到GPT-3的67亿个参数变体中。此调整阶段使用的总计算量仅为67亿模型预训练使用的计算量的7%。如下图6所示,这个使用了μTransfer的模型优于GPT-3论文中同等规模的模型(绝对注意力),其性能与GPT-3论文中参数数量翻倍的模型相当(绝对关注)。理论意义μP给出了一个扩展规则,它在训练损失方面唯一地保留了跨不同宽度模型的超参数的最佳组合。相比之下,其他缩放规则(例如PyTorch中的默认初始化或NTK参数化),随着网络越来越宽,超参数空间中的最优值越来越远。研究人员认为,μP的特征学习约束比NTK的约束更自然,以便在实际使用特征学习神经网络时获得适用的见解。因此,过度参数化的神经网络应该在大宽度设置中重现μP的特征学习限制。过去几年发展起来的张量程序(TP)理论使这一进展成为可能。TP理论使研究人员能够计算出任何通用计算图在其矩阵维数变大时的极限。TP方法产生了基本的理论结果,例如神经网络-高斯过程对应的体系结构通用性和动态二分定理,并通过推导μP和特征学习约束形成μTransfer。研究人员认为,将TP理论扩展到深度和批量大小等扩展维度是大型模型可靠扩展超出宽度的关键。研究人员表示,基础研究是对试错法的一种经济有效的补充,它将继续为大规模机器学习带来更有原则的方法。
