谷歌和DeepMind的新研究：归纳偏差如何影响模型缩放？

时间：2023-03-22 00:47:02 科技观察

Transformer模型的缩放近年来引起了很多学者的研究兴趣。然而，对于模型架构施加的不同归纳偏差的缩放特性知之甚少。通常假设特定规模（计算、大小等）的改进可以转移到不同的规模和计算区域。然而，了解体系结构和比例定律之间的相互作用至关重要，设计在不同比例下表现良好的模型具有很大的研究意义。有几个问题有待澄清：模型架构之间的可伸缩性是否不同？如果是这样，归纳偏差如何影响缩放性能？它如何影响上游（预训练）和下游（迁移）任务？在最近的一篇论文中，谷歌的研究人员试图了解归纳偏差（架构）对语言模型缩放规律的影响。为此，研究人员在多个计算区域和范围（从1500万到400亿个参数）中预训练和微调了十种不同的模型架构。总体而言，他们对100多个不同架构和大小的模型进行了预训练和微调，并提出了扩展这十个不同架构的见解和挑战。论文链接：https://arxiv.org/pdf/2207.10551.pdf他们还指出，缩放这些模型并不像看起来那么简单，也就是说，缩放的复杂细节与详细研究的架构选择交织在一起一起在论文中。例如，UniversalTransformers（和ALBERT）的一个特性是参数共享。与标准Transformer相比，这种架构选择不仅在性能方面而且在计算指标（例如FLOP、速度和参数数量）方面都显着扭曲了缩放行为。相比之下，像SwitchTransformers这样的模型就大不相同了，FLOP和参数数量之间的关系不同寻常。具体而言，本文的主要贡献如下：首次推导出了针对不同归纳偏差和模型架构的标度律。研究人员发现，这个比例因子在不同模型中差异很大，并指出这是模型开发中的一个重要考虑因素。事实证明，vanillaTransformer在他们考虑的所有十种架构中具有最佳的扩展性能，即使它在每个计算区域的绝对值上并不是最好的。研究人员观察到，在一个计算规模区域运行良好的模型不一定是另一个计算规模区域的最佳模型。此外，他们发现一些模型虽然在低计算区域表现良好，但难以扩展。这意味着很难通过在计算区域中进行逐点比较来全面了解模型的可扩展性。我们发现，在扩展不同的模型架构时，上游预训练的困惑度可能与下??游迁移不太相关。因此，底层架构和归纳偏差对于下游传输也至关重要。研究人员强调了在某些架构下扩展的困难，并表明某些模型无法扩展（或以负面趋势扩展）。他们还发现Performer等线性时间注意力模型难以扩展的趋势。方法和实验在论文的第3章中，研究人员概述了整体实验设置并介绍了实验中评估的模型。下表1展示了本文的主要结果，包括可训练参数量、FLOPs（单次前向传球）和速度（每秒步数）等，还包括verificationperplexity（上游预训练）和下游17个任务的结果。所有模型都以相同的方式缩放吗？下面的图2显示了所有模型在增加FLOP数量时的缩放行为。可以观察到，所有模型的缩放行为都非常独特且不同，即它们中的大多数与标准Transformer不同。也许这里最大的发现是大多数模型（例如LConv、Evolution）的性能似乎与标准Transformer相当或更好，但无法扩展到更高的计算预算。另一个有趣的趋势是“线性”Transformer，例如Performer，不能缩放。如图2i所示，预训练的困惑度从base到largescale只下降了2.7%。对于香草变形金刚，它是8.4%。下图3显示了所有模型在下游迁移任务上的缩放曲线。可以发现，与Transformer相比，大多数模型都有不同的缩放曲线，在下游任务中变化明显。值得注意的是，大多数模型都有不同的上游或下游缩放曲线。研究人员发现，一些模型，例如FunnelTransformer和LConv，似乎在上游表现良好，但在下游却表现不佳。至于Performer，上下游的性能差距似乎更大。值得注意的是，SuperGLUE的下游任务通常需要编码器上的伪交叉注意力，这是卷积等模型无法处理的（Tay等人，2021a）。因此，研究人员发现，虽然有些模型在上游表现良好，但可能难以学习下游任务。每个量表的最佳模型是否不同？下面的图1显示了根据上游或下游性能计算的帕累托边界。图的颜色代表不同的模型，可以观察到最佳模型对于每个尺度和计算区域可能不同。同样，这可以从上面的图3中看出。例如，EvolvedTransformer在微小区域（下游）中的表现似乎与标准Transformer一样好，但在放大模型时这种情况会迅速发生变化。研究人员还在MoS2-Transformer中观察到这一点，它在某些领域明显优于普通Transformer，但在其他领域则不然。每个模型的比例定律下面的表2给出了各种情况下每个模型的拟合线性直线α的斜率。研究人员通过绘制F（FLOPs）、U（上游困惑度）、D（下游准确度）和P（参数量）来获得α。一般来说，α描述了模型的可扩展性，例如α_F,U根据上游性能绘制FLOP。唯一的例外是α_U,D，它是衡量上游和下游性能的指标，α_U,D值高意味着模型可以更好地适应下游任务。一般来说，alpha值是一种衡量模型在缩放时的相对性能的指标。缩放协议是否以同样的方式影响模型架构？下面的图4展示了缩放深度在四种模型架构（MoS-Transformer、Transformer、EvolvedTransformer、LConv）中的影响。下面的图5显示了在相同的四种架构中缩放宽度的效果。首先，在上游（负对数困惑度）曲线上可以注意到，虽然不同的架构在绝对性能上有明显差异，但扩展趋势仍然非常相似。下游，深度缩放（上面的图4）似乎在除LConv之外的大多数架构上都起作用。此外，似乎EvolvedTransformer在应用宽度缩放方面略胜于宽度缩放。值得注意的是，深度缩放比宽度缩放对下游缩放的影响要大得多。有关研究的更多详细信息，请参阅原始论文。

上一篇：阿里巴巴用AI测夫妻鹿晗关晓彤考试成绩让人哭笑不得

下一篇：诺基亚回来了，诺基亚粉丝准备好了吗？

谷歌和DeepMind的新研究：归纳偏差如何影响模型缩放？相关文章