谷歌开源“穷人版”摘要生成NLP模型:1000个样本即可打败人类问题解答。当这些模型针对各种语言任务进行微调时,可以实现最先进的性能。以上NLP模型都是“通才”。虽然很全面,但是面对具体的任务需要微调,而且训练数据集也非常大,不是一般人能企及的。如果针对特定任务开发非通用NLP模型,是否会在降低训练成本的同时提高性能?这是谷歌发布的“PEGASUS”模型。专门为机器生成的摘要而生,刷新了该领域的SOTA成果,并被收录到ICML2020。仅用1000个样本进行训练,“天马”模??型就可以接近人类摘要的水平,大大减少了对监督数据并创造低成本使用的可能性。从填空到生成摘要,PEGASUS的全称是:Pre-trainingwithExtractedGap-sentencesforAbstractiveSummarization。它是为插页句生成设计一个自监督的预训练目标,以提高生成摘要的微调性能。在以往的NLP研究中,self-supervisedpre-training对下游目标不明确,可能是文本生成,也可能是摘要提取,模型趋向于普适性。谷歌研究人员认为,自监督预训练目标越接近最终下游任务,微调性能越好。论文题目中的空句(Gap-sentences)是什么意思?在“天马”模??型的预训练中,研究人员从一份文档中删除了一些句子,让模型执行恢复任务。这些删除的句子是空句。这种具有挑战性的任务激励模型学习发现一般事实的能力,以及学习如何提取从整个文档中获得的信息。谷歌发现选择“重要”的句子进行遮挡效果最好,这使得自监督样本的输出更接近摘要。作者选择了12个内容丰富多样的不同数据集,包括新闻、科学论文、专利文件、短篇小说、电子邮件、法律文件和使用说明,表明该模型框架适用于多种主题。与谷歌之前提出的T5相比,参数数量仅为T5的5%。Google根据ROUGE标准判断输出,通过查找与文档其余部分最相似的句子来自动识别句子。ROUGE使用n-gramoverlap来计算两个文本的相似度,分数从0到100。1000个训练样本优于人类。令人惊讶的是,尽管PEGASUS在大数据集上的性能优越,“天马模型不需要大量样本进行微调就可以达到接近SOTA的性能。下图显示了ROUGE分数与监督样本数的关系在四个选定的摘要数据集中。虚线表示完全监督但没有预训练的Transformer编码器-解码器的性能。与基线相比,即使只有1000个微调样本,Pegasus在大多数任务上的表现也略好。考虑到在某些实际情况下,样本量要大几个数量级。这种“样本效率”大大提高了文本摘要模型的实用性,因为它大大减少了监督数据收集的规模和成本。除了ROUGE分数机器给出的,谷歌还进行了“图灵测试”来识别摘要。谷歌将模型和t生成的摘要放在一起由人类提取的软管供用户评估。对3个不同数据集的实验表明,人类评分者有时更喜欢机器生成的摘要。当然,Pegasus模型并非没有缺陷,Google发现了一个bug。作者从XSum数据集中找了一段,里面提到了4艘英国护卫舰的名字,但是整篇文章都没有提到4艘。“天马”号依然正确地提取出了护卫舰的数量信息。战舰数量从2艘增加到5艘没有问题,当数量增加到6艘时,“天马”误认为有7艘。这说明了模型中“符号推理”的数量有限。最后,为了支持这项正在进行的研究并确保可重复性,谷歌在GitHub上发布了Pegasus代码、模型检查点和其他聚合数据集。门户博客地址:https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html论文地址:https://arxiv.org/abs/1912.08777代码地址:https://github.com/google-research/pegasus
