当前位置: 首页 > 科技观察

预训练不需要关注,扩展到4096个token不是问题,媲美BERT

时间:2023-03-22 17:31:09 科技观察

Transformer,作为NLP预训练模型架构,可以在大的未标注数据上有效学习。研究证明,Transformer是自BERT以来最流行的NLP任务的核心架构。最近的工作表明,状态空间模型(SSM)是用于远程序列建模的有利竞争架构。SSM在语音生成和LongRangeArena基准测试中取得了最先进的结果,甚至优于Transformer架构。除了提高准确性之外,基于SSM的路由层不会随着序列长度的增长而呈现二次复杂度。在这篇论文中,来自康奈尔大学、DeepMind等机构的研究人员提出了一种用于无注意力预训练的双向门控SSM(BiGS),主要将SSM路由与乘法门结构相结合。该研究发现,SSM本身在NLP的预训练中表现不佳,但当集成到乘法门架构中时,下游精度会提高。实验表明,当在受控设置中对相同数据进行训练时,BiGS能够匹配BERT模型的性能。通过在更长的实例上进行额外的预训练,该模型在将输入序列缩放到4096时也保持线性时间。分析表明,乘法门对于解决SSM模型在可变长度文本输入上的一些特定问题是必要的。论文地址:https://arxiv.org/pdf/2212.10544.pdf方法介绍SSM通过以下微分方程将连续输入u(t)与输出y(t)联系起来:对于离散序列,将SSM参数离散化,而它的过程可以近似为:这个方程可以解释为一个线性RNN,其中x_k是一个隐藏状态。y也可以用卷积计算:Gu等人。展示了一种在神经网络中使用SSM的有效方法,并且他们开发了一种称为HiPPO的参数化A的方法,从而产生了一种称为S4的稳定且高效的架构。这保留了SSM建模长期序列的能力,同时比RNN更有效地训练。最近,研究人员提出了S4的简化对角化版本,通过对原始参数进行更简单的近似来获得类似的结果。在高层次上,基于SSM的路由提供了神经网络中序列建模的替代方案,而无需二次计算的注意力成本。预训练模型架构SSM能否替代预训练中的attention?为了回答这个问题,本研究考虑了两种不同的架构,即堆叠架构(STACK)和乘法门控架构(GATED),如图1所示。带有自注意力的堆叠架构相当于BERT/transformer模型,而门控架构是门控单元的双向改编,最近也用于单向SSM。具有乘法门控的2个顺序块(即前向和后向SSM)夹在前馈层中。为了公平比较,门控架构的大小仍然与堆叠架构相当。图1:模型变量。STACK是标准的transformer架构,而GATED是基于门控单元的。对于路由组件(虚线),该研究同时考虑了双向SSM(如图所示)和标准自注意力。Gated(X)表示逐元素乘法。实验结果预训练表1显示了不同预训练模型在GLUE基准测试中的主要结果。BiGS复制了BERT在令牌缩放方面的准确性。这一结果表明,在这样的计算预算下,SSM可以复制预训练变压器模型的准确性。这些结果明显优于其他基于非注意力的预训练模型。为了达到这个精度,乘法门是必要的。在没有门控的情况下,堆叠SSM的结果明显更差。为了检查这种优势是否主要来自门控的使用,本文使用GATE架构训练了一个基于注意力的模型;然而,结果表明该模型的性能实际上低于BERT。表1:胶水结果。(上)比较不同的架构和控制设置下的路由。详情请参见图2。(底部)报告了基于CNN、LSTM和FNet的其他非注意力预训练模型的可比结果。Long-Form任务表2结果表明,SSM可以与LongformerEncoderDecoder(LED)和BART进行比较,但是,它在远程任务中表现良好甚至更好。与其他两种方法相比,SSM需要更少的预训练数据。尽管SSM不需要近似这些长度,但长格式仍然很重要。表2:SCROLLS编码器测试结果。基线模型都是编码器-解码器模型,一个基于Longformer(LED),另一个基于BART。输入的长度被截断。有关详细信息,请参阅原始论文。