比seq2seq模型快90倍！Google推出新的文本编辑模型FELIX

时间：2023-03-17 18:55:38 科技观察

sequence-to-sequence(seq2seq)模型已经成为处理自然语言生成任务的有效方法，其应用范围从机器翻译到单语言生成任务，如摘要、句子融合、文本简化和机器译文后期编辑。然而，这些模型对于许多单语任务来说并不是最佳选择，因为所需的输出文本通常代表对输入文本的轻微重写。在这些任务中，seq2seq模型速度较慢，因为它们一次生成一个输出词（即自回归），而且很浪费，因为大多数输入标记只是简单地复制到输出。相比之下，文本编辑模型最近引起了相当大的关注，因为它们提出了预测性编辑操作——例如单词删除、插入或替换——应用于输入以重建输出。以前的文本编辑方法要么速度快（非自回归）但不灵活，因为它们使用有限数量的编辑操作，要么灵活并支持所有可能的编辑操作但速度慢（自回归）。在这两种情况下，他们都没有专注于对大型结构（语法）转换进行建模，例如从主动语态转换为被动语态，从“Theyatesteakfordinner”到“Steakwaseatenfordinner”，而是专注于局部转换、删除或替换短语。当需要进行大型结构转换时，这些文本编辑模型要么无法生成转换，要么插入大量新文本，但速度很慢。在最新的论文《FELIX: 通过标签和插入进行灵活的文本编辑》（FELIX：FlexibleTextEditingThroughTaggingandInsertion），Google团队带来了FELIX，这是一个快速灵活的文本编辑系统，可以模拟大的结构变化，与seq2seq方法相比，速度提高了90倍，同时在四种单语言编辑任务上表现非常出色。传统的seq2seq方法，FELIX具有以下三个关键优势：样本效率：训练高精度文本生成模型通常需要大量高质量的样本监督数据。FELIX使用三种技术来最小化所需的数据量：(1)微调预训练检查点，(2)为少量编辑操作学习标签模型，(3)文本插入任务的快速推理时间非常类似于预训练任务：FELIX是完全非自回归的，避免了自回归解码器导致的推理时间慢灵活的文本编辑：FELIX在学习编辑操作的复杂性和它建模的转换的灵活性之间取得了平衡，FELIX旨在从自我监督的预训练中获得最大收益，以更少的资源和更少的训练数据实现高效训练。概述为了实现上述目标，FELIX将文本编辑任务分解为两个子任务：标记以确定输入词的子集及其在输出文本中的顺序，以及插入输入文本中不存在的词。注释模型采用新颖的指针机制支持结构转换，而插入模型基于MLM（MaskedLanguageModel）。两种模型都是非自回归的，这保证了模型的快速性。下面是FELIX的示意图。在FELIX数据上训练的示例，用于文本缩减任务。输入词首先标记为KEEP(K)、DELETE(D)或KEEP和INSERT(I)。标记化后，输入被重新排序。然后将重新排序的输入反馈给MLM。标签模型FELIX的第一步是标签模型，它由两个部分组成。首先，分词器决定应该保留或删除哪些词，以及应该在何处插入新词。当tokenizer预测插入时，一个特殊的MASKtoken被添加到输出中。在标记化之后，有一个重新排序步骤，其中指针重新排序输入以形成输出，通过它可以重用部分输入而不是插入新文本。重新排序步骤支持任意重写，支持对大的更改进行建模。训练指针网络，使输入中的每个单词都指向输出中出现的下一个单词，如下所示。从“Thereare3layersinwallsoftheheart”转换为“theheartMASK3layers”实现了指向机制InsertionModel标签模型的输出是重新排序的输入文本，包含插入标签和MASK预测的删除词标记。标记模型的输出是重新排序的输入文本，其中包含删除的单词和插入标记预测的MASK标记。插入模型必须预测MASK令牌的内容。由于FELIX的插值模型与BERT的预训练目标非常相似，可以直接利用预训练，这在数据有限的情况下尤为有利。插入模型的示例，其中标记器预测将插入两个单词，插入模型预测MASK标记化的内容结果在本文中，FELIX在句子融合、文本简化、摘要摘要和机器后期编辑方面进行了评估翻译。这些任务所需的编辑类型以及它们所操作的数据集的大小差异很大。将FELIX与大型预训练seq2seq模型(BERT2BERT)和文本编辑模型(LaserTager)在一系列数据集大小上进行比较，可以得出句子融合任务的结果（即将两个句子合并为一个）。可以看出FELIX的性能比LaserTagger要好，只需要几百个样本就可以训练出来。对于完整数据集，自回归BERT2BERT优于FELIX。但是，该模型在推理过程中花费的时间要长得多。使用不同大小的DiscoFuse训练数据集时，FELIX（使用最佳性能模型）、BERT2BERT和LaserTagger的参考句精确匹配百分比比较。NvidiaTeslaP100上批量大小为32的延迟（以毫秒为单位）结论FELIX是完全非自回归的，提供更快的推理时间，同时实现最先进的结果。FELIX还最大限度地减少了三种技术所需的训练数据量：微调预训练检查点、学习少量编辑操作以及从预训练中模拟MLM任务的插入任务。最后，FELIX在学习编辑操作的复杂性和可处理的输入输出转换百分比之间取得了平衡。

上一篇：由于数据或隐私安全问题，这家巨头在过去一年被罚款超过10亿美元

下一篇：据悉，工信部将在国庆前后发放4G牌照

比seq2seq模型快90倍！Google推出新的文本编辑模型FELIX相关文章