当前位置: 首页 > 科技观察

为了教会autoencoders学会“自我纠错”,DeepMind提出了一种语言模型“圣代”

时间:2023-03-13 23:52:26 科技观察

本文经人工智能新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。长期以来,自回归模型(AR)在文本生成任务中表现良好。现在,DeepMind提出了一种名为“圣代”(SUNDAE)的非自回归模型,方法是教会自编码器“自我纠正”。它不仅可以在WMT'14英德翻译任务的非自回归模型中实现SOTA,而且表现出与自回归模型相当的性能。更重要的是,它可以轻松完成自回归模型无法完成的事情——文本补全。要知道,非自回归模型一直被低估。这款“圣代”的文本补全功能,也为人类和机器共同编辑和创作文本提供了一种新的方式。非自回归语言模型“Sundae”“Sundae”全称“Step-unrolledDenoisingAutoencoder”(Step-unrolledDenoisingAutoencoder,SUNDAE),作为一种新的文本生成模型,它不依赖于经典的自编码器回归模型。与去噪扩散类似,Sundae在训练期间采用展开去噪,其中重复应用一系列标记,从随机输入开始,每次都改进直到收敛。这就是所谓的“自我修正”过程。下面用一张图来说明降噪和扩展降噪的区别。第一行是原始文本,它被随机“损坏”以生成新文本(第二行),其中绿色标记代表“未受污染”的文本,红色代表“受污染”的文本。然后对该中间文本进行去噪(从生成模型中采样)以在底部生成另一个“污染”文本。标准去噪自动编码器仅学习从中间文本到顶部文本的映射,而逐步去噪自动编码器(“圣代”)学习从底部到顶部的映射。而且在生成文本的时候,网络遇到的大部分文本都不是像上图中间的那种,而是最下面的那种,所以扩展降噪是非常有用的。此外,研究人员提出了一种简单的改进运算符,它比去噪扩散技术收敛所需的迭代次数更少,同时在自然语言数据集上定性地生成更好的样本。说白了,Sundae采用的方式让文本合成的质量和速度可控。它在机器翻译和文本生成任务上表现如何?让我们来看看“圣代”的具体表现吧。研究人员首先在机器翻译基准上评估了Sundae。使用BLEU分数作为衡量标准,将“Sundae”在WMT'14德英翻译任务上的翻译质量与自回归(AR)和非AR模型进行了比较。结果发现,在不使用序列级知识蒸馏等技术的情况下,Sundae的表现几乎与AR模型一样好,并击败了所有非AR模型。接下来是Sundae在文本生成任务上的评估。研究人员使用大型、高质量的公开可用数据集ColossalCleanCommonCrawl(C4)对Sundae进行了训练。该模型总共包含335M个参数,24层,嵌入大小为1024,隐藏大小为4096,以及16个注意力头。使用bacth大小为4096的Adam优化器训练多达400,000步。最终生成的文本如下,没有cherrypick:10个句子中,除了第4个,都比较合理。但是由于C4数据集来自于网络,所以不管是训练集还是最终生成的结果,换行的地方还是蛮多的。此外,由于“圣代”模型的非自回归特性,研究人员还测试了其“修复”文本的能力。要知道,这对于只能从左到右依次生成的AR模型来说,这根本不可能。结果如下(cherry-picked):C4数据集GitHub上的Python程序组成的数据集你怎么看?语法和逻辑似乎都没有问题。更多数据和内容,请点击以下链接。论文地址:https://arxiv.org/abs/2112.06749