当前位置: 首页 > 科技观察

Transformer有了新的变种∞-former:无限长时记忆,任意长度上下文

时间:2023-03-15 09:58:23 科技观察

过去几年,Transformer几乎统治了整个NLP领域,同时也跨界到计算机视觉等其他领域。但它也有弱点,比如不擅长处理更长的上下文,因为计算复杂度会随着上下文的长度而增长,这就很难有效地对长期记忆进行建模。为了缓解这个问题,提出了各种Transformer变体,但它们都具有有限的内存容量,并且不得不丢弃更早的信息。在一篇论文中,来自DeepMind等机构的研究人员提出了一种名为∞-former的模型,这是一种具有无限长时记忆(LTM)的Transformer模型,可以处理任意长度的上下文。论文链接:https://arxiv.org/pdf/2109.00301.pdf通过利用连续空间注意力机制来处理长时记忆,∞-former的注意力复杂度可以独立于上下文长度。因此,它能够以固定的计算开销对任意长度的上下文进行建模,并保持“粘性记忆”。综合排名任务的实验表明,∞-former能够保留长序列中的信息。此外,研究人员在语言建模方面进行了实验,包括从头开始训练模型和微调预训练的语言模型,这显示了无限长时记忆的优势。然而,与许多其他Transformer变体论文一样,这篇论文的标题也引起了一些吐槽:∞-former:ATransformerwithinfinitememory为了使模型能够处理长程上下文,研究人员提出使用连续的LTM来扩展原始转换器,这个LTM存储来自前面步骤的输入嵌入和隐藏状态。他们还考虑了拥有两种记忆的可能性:LTM和STM(短期记忆),类似于transformer-XL的记忆。∞-former的整体架构如下图1所示。为了让新模型的LTM达到无限程度,研究人员使用了一个连续的空间注意力框架(见《 Sparse and Continuous Attention Mechanisms 》),该框架在适合记忆的信息单元(基函数)数量和表征粒度之间进行权衡。在此框架中,输入序列表示为连续信号,表示为径向基函数的线性组合。这种表示有两个显着的优点:1)上下文可以用N个基函数表示,N小于上下文中的token个数,降低了注意力的复杂度;2)N可以固定,这使得可以表示无限长的上下文(如图2所示),代价是损失分辨率,但不增加其注意力复杂度,O(L^2+L×N),其中L对应于变换器序列的长度。减轻丢失早期内存分辨率的问题。研究人员引入了“粘性记忆”的概念,将LTM新信号中的大空间归因于先前记忆信号的相关区域。这是一个迫使重要信息在LTM中持续存在的过程,使模型能够更好地捕获长上下文而不会丢失相关信息,类似于大脑中的长期增强和突触可塑性。实验结果为了测试∞-former是否可以对长上下文进行建模,研究人员首先对一个综合任务进行了实验,包括根据词频在长序列中出现的顺序对词条进行排序。结果如下:从图中可以看出,当序列长度为4000时,transformerXL的精度略高于compressivetransformer和∞-former。这是因为transformerXL可以在内存中保存几乎整个完整的序列。但随着序列长度的增加,transformerXL的精度迅速下降,compressivetransformer和∞-former变化较小。这表明∞-former更擅长建模长序列。接下来,他们进行了语言建模实验,包括:1)从头开始训练模型;2)微调预训练的语言模型。第一次语言建模实验的结果如下表1所示。可以看出,使用长时记忆扩展模型确实带来了更好的perplexity结果,使用stickymemory也可以在一定程度上降低perplexity。第二语言建模实验的结果如下表2所示。这个结果表明,通过简单地向GPT-2添加长期记忆并进行微调,模型在Wikitext-103和PG19上的困惑度都降低了。这表明∞-former有多种用途:它可以用来从头开始训练模型,也可以用来改进预训练模型。