Transformer有了新的变种∞-former：无限长时记忆，任意长度上下文

时间：2023-03-15 09:58:23 科技观察

过去几年，Transformer几乎统治了整个NLP领域，同时也跨界到计算机视觉等其他领域。但它也有弱点，比如不擅长处理更长的上下文，因为计算复杂度会随着上下文的长度而增长，这就很难有效地对长期记忆进行建模。为了缓解这个问题，提出了各种Transformer变体，但它们都具有有限的内存容量，并且不得不丢弃更早的信息。在一篇论文中，来自DeepMind等机构的研究人员提出了一种名为∞-former的模型，这是一种具有无限长时记忆（LTM）的Transformer模型，可以处理任意长度的上下文。论文链接：https://arxiv.org/pdf/2109.00301.pdf通过利用连续空间注意力机制来处理长时记忆，∞-former的注意力复杂度可以独立于上下文长度。因此，它能够以固定的计算开销对任意长度的上下文进行建模，并保持“粘性记忆”。综合排名任务的实验表明，∞-former能够保留长序列中的信息。此外，研究人员在语言建模方面进行了实验，包括从头开始训练模型和微调预训练的语言模型，这显示了无限长时记忆的优势。然而，与许多其他Transformer变体论文一样，这篇论文的标题也引起了一些吐槽：∞-former:ATransformerwithinfinitememory为了使模型能够处理长程上下文，研究人员提出使用连续的LTM来扩展原始转换器，这个LTM存储来自前面步骤的输入嵌入和隐藏状态。他们还考虑了拥有两种记忆的可能性：LTM和STM（短期记忆），类似于transformer-XL的记忆。∞-former的整体架构如下图1所示。为了让新模型的LTM达到无限程度，研究人员使用了一个连续的空间注意力框架（见《 Sparse and Continuous Attention Mechanisms 》），该框架在适合记忆的信息单元（基函数）数量和表征粒度之间进行权衡。在此框架中，输入序列表示为连续信号，表示为径向基函数的线性组合。这种表示有两个显着的优点：1）上下文可以用N个基函数表示，N小于上下文中的token个数，降低了注意力的复杂度；2）N可以固定，这使得可以表示无限长的上下文（如图2所示），代价是损失分辨率，但不增加其注意力复杂度，O(L^2+L×N)，其中L对应于变换器序列的长度。减轻丢失早期内存分辨率的问题。研究人员引入了“粘性记忆”的概念，将LTM新信号中的大空间归因于先前记忆信号的相关区域。这是一个迫使重要信息在LTM中持续存在的过程，使模型能够更好地捕获长上下文而不会丢失相关信息，类似于大脑中的长期增强和突触可塑性。实验结果为了测试∞-former是否可以对长上下文进行建模，研究人员首先对一个综合任务进行了实验，包括根据词频在长序列中出现的顺序对词条进行排序。结果如下：从图中可以看出，当序列长度为4000时，transformerXL的精度略高于compressivetransformer和∞-former。这是因为transformerXL可以在内存中保存几乎整个完整的序列。但随着序列长度的增加，transformerXL的精度迅速下降，compressivetransformer和∞-former变化较小。这表明∞-former更擅长建模长序列。接下来，他们进行了语言建模实验，包括：1）从头开始训练模型；2）微调预训练的语言模型。第一次语言建模实验的结果如下表1所示。可以看出，使用长时记忆扩展模型确实带来了更好的perplexity结果，使用stickymemory也可以在一定程度上降低perplexity。第二语言建模实验的结果如下表2所示。这个结果表明，通过简单地向GPT-2添加长期记忆并进行微调，模型在Wikitext-103和PG19上的困惑度都降低了。这表明∞-former有多种用途：它可以用来从头开始训练模型，也可以用来改进预训练模型。

上一篇：mongodb的导入导出方法_0

下一篇：Windows 11 将推出 “能源建议” 功能，可让电脑更节能

Transformer有了新的变种∞-former：无限长时记忆，任意长度上下文相关文章