,参数数量增加了500倍。虽然大规模语言模型在NLP领域的强大性能令人惊叹,但其带来的负面成本也很严重,比如训练成本太高、难以更新等,难以应对长尾知识。并且语言模型通常在预测层使用词汇量有限的softmax层,基本不输出生僻词或短语,极大地限制了模型的表达能力。为了解决模型的长尾问题,华盛顿大学MetaAI和艾伦人工智能研究所的学者近日联合提出了第一个“非参数掩码语言模型(NonParametricMaskedlanguagemodel,NPM),通过参考语料库代替softmax输出,每个phrasein的非参数分布。论文链接:https://arxiv.org/abs/2212.01349代码链接:https://github.com/facebookresearch/NPM通过对比目标可以有效训练NPM(contrastiveobjective)andapproximatelyretrievalofthecompletecorpuswithinthebatch.研究人员对九个封闭式任务和七个开放式任务进行了零样本评估,包括时空转换和单词级翻译任务,强调需要predictnewfactsorrarephrase.结果发现,无论是否使用检索和生成方法,NPM都明显优于更大的参数模型,例如GPT-3参数提高500倍,OPT13B性能提高37倍。它特别擅长模式(词义或事实)和预测罕见或几乎没有见过的词,如非拉丁文字。虽然第一个非参数语言模型结合一些现有的retrieve-and-generate相关工作可以缓解这个问题,但是这些模型的最终预测部分仍然需要一个softmax层来预测token,并没有从根本上解决长尾问题.NPM由一个编码器和一个参考语料库组成。编码器将文本映射到一个固定大小的向量,NPM从中检索一个短语并填写[MASK]。可以看出,NPM选择了在phrase上得到的非参数分布,而不是使用一个固定的输出词汇softmax作为输出。但是训练非参数模型也带来了两个关键问题:1.在训练过程中检索完整的语料库非常耗时费力,研究人员通过使用从完整语料库中检索的批内近似来解决这个问题;2.在没有解码器的情况下学习预测任意长度的短语是很困难的,研究人员通过扩展跨度掩蔽和短语级对比目标来解决这个问题。总而言之,NPM完全去除了输出词汇表的softmax,通过预测任意数量的n-grams实现了有效无界的输出空间。由此产生的模型可以预测“极其罕见”甚至“完全看不见”的单词(例如韩语单词),并且可以有效地支持无限的词汇量,这是现有模型无法做到的。NPMApproachNPM的关键思想是使用编码器将语料库中的所有短语映射到一个密集的向量空间。在推理时,当给出带有[MASK]的查询时,使用编码器从语料库中找到最接近的短语并填写[MASK]。Encoder-only模型是一种有竞争力的表示模型,但现有的encoder-only模型无法使用未知数量的token进行预测,如果不进行微调,它们的使用将受到限制。NPM通过检索一个短语来填充[MASK]中任意数量的标记来解决这个问题。推理编码器将参考语料库C中的每个不同短语映射到密集向量空间。在测试时,编码器将掩码查询映射到相同的向量空间,并从C中检索短语以填充[MASK]。这里,C不必与训练语料库相同,可以在测试时替换或扩展,而无需重新训练编码器。实际上,语料库中有大量短语,对所有短语进行索引非常昂贵。例如,如果我们考虑一个最多有l个标记(l≈20)的短语,我们需要索引l×|C|向量的数量,这可能很耗时。研究人员对C中的每个不同标记进行索引,从而将索引的大小从l×|C|减小到|C|,然后在测试时,通过分别对所有短语的开始和结束执行k-最近邻搜索来近似非参数分布。例如,由4个BPEtoken组成的短语Thessaloniki,由c1和c4的连接表示,分别对应短语的开头(The)和结尾(iki)。然后,查询由同一向量空间中的两个向量q_start和q_end表示,每个向量用于在聚合之前检索合理短语的开始和结束。这样做的前提是开始和结束的表示足够好,即q的起点离c1足够近,q的终点离c4足够近,这一点在制作过程中已经保证了培训过程。训练NPM在未标记的文本数据上进行训练,以确保编码器将文本映射到一个良好的密集向量空间。训练NPM主要有两个难点:1)全语料检索使得训练非常耗时;2)用任意长度的短语而不是标记填充[MASK]。1.MaskMasking段掩码(spanmasking)是对从几何分布中采样的长度连续的token进行掩码。研究人员对此进行了扩展:1)如果某些片段在批次中的其他序列中同时出现,则它们会被屏蔽,以确保训练期间的批次内阳性。例如,屏蔽片段2010、西雅图海鹰队和totheall在另一个序列中同时出现。但是对于二元组“游戏”,它不能被屏蔽在一起。尽管它们都出现在两个序列中,但它们不会同时出现。2)不是用[MASK]替换段中的每个标记,而是用两个特殊标记[MASKs][MASKe]替换整个段。比如上面的例子,不管maskedsegment的长度,都换成[MASKs][MASKe],这样就可以得到每个segment的起始和结束向量,更便于推理。2.训练目标假设蒙面段为西雅图海鹰队。在测试时,模型应该从参考语料库中的其他序列中检索短语西雅图海鹰队。在推理阶段,模型从[MASKs]和[MASKe]获取向量,并使用它们分别从语料库中检索短语的开头和结尾。因此,训练的目标应该是鼓励[MASKs]的向量更接近西雅图海鹰队中的the,而远离其他token,而不应该是inanyphrase,比如inbecomethefirst。我们通过将完整语料库近似于批次中的其他序列来训练模型来做到这一点。具体来说,我们训练模型从同一批次的其他序列中检索西雅图海鹰队片段的开始和结束。请注意,此屏蔽策略可确保每个屏蔽跨度在批次中都有一个同时出现的片段。实验部分从结果来看,NPM在零样本设置中表现优于其他基线模型。在参数化模型中,RoBERTa取得了最好的性能,出人意料地超过了包括GPT-3在内的模型,可能是因为纯编码器模型的双向性起着至关重要的作用,这也表明,因果语言模型可能不是分类的合适选择.kNN-LM方法将非参数组件合并到参数模型中,并且优于所有其他基线。然而,仅依靠检索(kNN)在GPT-2中表现不佳,这表明仅将kNN用于推理是有限的。NPMSINGLE和NPM都显着优于所有基线,在所有数据集上实现了始终如一的卓越性能。这表明即使对于不明确需要外部知识的任务,非参数模型也非常有竞争力。定性分析使用RoBERTa和NPM在情感分析任务中的预测结果。第一个例子用cheap表示不贵,第二个例子用cheap表示质量差。RoBERTa对这两个示例的预测都是正面的,而NPM通过检索在与输入相同的上下文中使用cheap的上下文来做出正确的预测。还可以发现,NPM输出的表示导致更好的词义消歧。例如,RoBERTa在便宜(便宜)和便宜(质量很差)之间分配了很高的相似度分数。另一方面,NPM成功地在cheap和cheap之间分配了一个较低的相似度分数,这也表明这种具有对比目标的非参数训练是有效的,可以更好地改善表示学习,而kNN推理则没有。经过训练的算法完全无法做到这一点。参考:https://arxiv.org/abs/2212.01349
