对于我们很多人来说,每天都需要处理大量的文件。当收到一份新的文档时,我们通常希望文档中包含对要点??的简要总结,以便用户能够尽快了解文档的内容。然而,编写文档摘要是一项具有挑战性且耗时的任务。为了解决这个问题,Google宣布GoogleDocs现在可以自动生成建议以帮助文档作者创建内容摘要。此功能由理解文本内容并生成1-2句自然语言文本描述的机器学习模型实现。文档编写者可以完全控制文档,他们可以完整地接收模型生成的建议,根据需要对其进行编辑以更好地捕获文档摘要,或者完全忽略它们。用户还可以利用该功能对文档进行更高层次的理解和浏览。虽然所有用户都可以添加片段,但自动生成的建议目前仅适用于GoogleWorkspace企业客户(GoogleWorkspace是一套云计算生产力和协作软件工具以及由Google在订阅基础上提供的软件)。基于语法建议、智能撰写和自动更正,谷歌将此视为改善工作场所书面交流的另一项有价值的研究。如下图:文档摘要建议可用时,左上角会出现一个蓝色的摘要图标。然后文档编写者可以查看、编辑或忽略建议的文档摘要。模型详细信息在过去五年中,尤其是随着Transformer和Pegasus的推出,ML对自然语言理解(NLU)和自然语言生成(NLG)产生了巨大影响。然而,生成摘要文本摘要需要解决长文档语言理解和生成任务。目前比较常用的方法是结合NLU和NLG,使用sequence-to-sequence学习来训练ML模型,输入是文档词,输出是摘要词。然后神经网络学习将输入标记映射到输出标记。序列到序列范式的早期应用使用RNN作为编码器和解码器。Transformers的引入为RNN提供了一个有前途的替代方案,因为Transformers使用自注意力来提供更好的长输入和输出依赖性建模,这在文档中至关重要。尽管如此,这些模型仍然需要大量手动标记的数据才能得到充分训练,因此仅使用Transformers不足以显着提高文档摘要的SOTA性能。Pegasus的研究通过引入预训练的目标自定义抽象摘要,通过论文《PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization 》中提出的方法将这一想法更进一步。在Pegasus预训练中,也称为GSP(GapSentencePrediction),将网络文档中未标记的新闻消息和完整句子在输入中屏蔽掉,模型需要根据没有屏蔽掉的句子重建它们。特别是,GSP试图通过不同的启发式方法来掩盖对文档至关重要的句子。目标是使预训练尽可能接近摘要任务。Pegasus在一组不同的汇总数据集上取得了SOTA结果。然而,将这一研究进展转化为产品仍面临诸多挑战。PEGASUS基础设施是一个标准的Transformer编码器-解码器。将最近的研究进展应用于GoogleDocs数据的自我监督预训练,生成了具有通用语言理解和生成能力的ML模型,但随后的微调阶段对于使模型适应应用领域至关重要。谷歌在文档语料库上对模型的早期版本进行了微调,其中包含与典型用例一致的手动生成的摘要。然而,一些早期版本的语料库不一致且多变,因为它们包含多种类型的文档和不同的摘要书写方式,例如通常冗长而详细的学术摘要和简短而有力的执行摘要。这导致模型很容易混淆,因为它是在各种类型的文档和摘要上训练的,很难学习彼此之间的关系。幸运的是,Google的开源Pegasus库(用于自动文章摘要)的主要发现之一是有效的预训练阶段在微调阶段需要较少的监督数据。一些摘要基准仅需要来自Pegasus的1000个微调示例来匹配Transformer基线需要10000多个监督示例的性能,这表明我们可以关注模型质量而不是数量。谷歌精心清理和过滤微调数据,以包含更一致、更能代表连贯摘要的训练示例。虽然减少了训练数据量,但生成了更高质量的模型。与最近在数据集蒸馏等其他领域的工作一样,我们可以得出一个重要的教训,即较小的高质量数据集优于较大的高方差数据集。服务一旦训练出高质量的模型,谷歌就会转向解决在生产中为模型提供服务的挑战。编码器-解码器架构的Transformer版本是训练摘要生成等序列到序列任务模型的主流方法,但在实际应用中服务效率低下且不切实际。效率低下主要归因于Transformer解码器,它利用自回归解码逐个标记地生成输出摘要。当摘要较长时,解码过程变得非常缓慢,因为解码器必须在每一步处理所有先前生成的标记。递归神经网络(RNN)是一种更高效的解码架构,这要归功于它不像Transformer模型那样将自我注意力应用于先前的标记。谷歌使用知识蒸馏(将知识从大型模型转移到更小、更高效的模型的过程)将Pegasus模型细化为由Transformer编码器和RNN解码器组成的混合架构。为了提高效率,谷歌还减少了RNN解码器的层数。由此产生的模型在延迟和内存占用方面表现出显着改善,同时在质量上仍可与原始模型相媲美。为了进一步改善延迟和用户体验,谷歌使用TPU来服务于摘要生成模型,从而实现了显着的加速并允许单台机器处理更多请求。持续的挑战虽然谷歌对其迄今取得的进展感到兴奋,但它仍在继续应对以下一些挑战:文档覆盖率:由于文档之间的显着差异,在微调阶段开发一组文档很困难。同样的挑战存在于推理阶段。此外,Google用户创建的一些文档(例如会议记录、食谱、课程计划和简历)不适合或难以总结。评估:摘要需要抓住文件的本质,保持流畅和语法正确。可能有许多被认为对特定文档正确的摘要,并且不同的用户可能喜欢不同的摘要。这使得仅使用自动化指标评估摘要变得困难,用户反馈和使用统计对于谷歌理解和持续改进模型质量至关重要。长文档:该模型最难生成长文档的摘要,因为更难捕获所有要点并将它们抽象(总结)在一个摘要中。此外,在训练和处理长文档期间,内存占用量会显着增加。然而,长文档可能对从模型自动生成摘要的任务最有用,因为它可以让文档编写者在这项繁琐的任务上抢先一步。谷歌希望应用ML的最新进展来更好地应对这一挑战。
