引言随着近年来文本信息的爆发式增长,人们每天都接触到海量的文本信息,新闻、博客、聊天、报道、论文、微博等。从大量的文本信息中提取重要内容已经成为我们的迫切需求,自动文本摘要提供了一种高效的解决方案。根据Radev的定义[3],摘要是“从一篇或多篇文章中摘录的一段文字,包含原文中的重要信息,其长度不超过或远小于原文的一半”。自动文本摘要旨在通过机器自动输出简洁、流畅的摘要,保留关键信息。自动文本摘要有很多应用场景,例如自动生成报告、新闻标题生成、搜索结果预览等。此外,自动文本摘要还可以为下游任务提供支持。尽管对自动文本摘要的需求巨大,但该领域的发展相对缓慢。生成摘要对计算机来说是一项具有挑战性的任务。要从一篇或多篇文本中生成合格的摘要,需要计算机在阅读原文后理解内容,并根据优先级选择和拒绝内容,对内容进行剪切和拼接,最终生成流畅的短文本.因此,自动文本摘要需要依赖自然语言处理/理解的相关理论,是近年来的重要研究方向之一。自动文本摘要通常可以分为两类,即抽取式和生成式。抽取式摘要判断原文中的重要句子,将这些句子抽取成摘要。生成法采用先进的自然语言处理算法,通过释义、同义词替换、句子缩写等技术生成更简洁的摘要。与提取方法相比,生成方法更接近人类总结的过程。从历史上看,采掘业的表现通常优于生成型。随着深度神经网络的兴起和研究,基于神经网络的生成文本摘要得到了快速发展并取得了良好的效果。本文主要介绍基于深度神经网络的生成式自动文本摘要,重点介绍典型的摘要模型,介绍如何评估自动生成的摘要。对不基于深度神经网络的提取式和生成式自动文本摘要感兴趣的同学可以参考[1][2]。Generativetextsummarization生成文本摘要以更接近人类的方式生成摘要,这需要生成模型具有更强的表示、理解和生成文本的能力。传统方法难以实现这些能力,而近年来深度神经网络的快速发展以其强大的表示能力提供了更多的可能性,并在图像分类、机器翻译等领域不断推动机器智能的极限。.在深度神经网络的帮助下,生成式自动文本摘要也取得了显着进步。许多生成神经网络模型(基于神经网络的抽象摘要模型)已经超过了DUC-2004测试集上最好的提取摘要模型。模型[4]。文章这部分主要介绍生成神经网络模型的基本结构和最新成果。基本模型结构生成神经网络模型的基本结构主要由编码器和解码器组成,编码和解码均由神经网络实现。编码器负责将输入的原始文本编码成一个向量(上下文),它是原始文本的表示,包括文本背景。解码器负责从此向量中提取重要信息、处理剪辑并生成文本摘要。这套架构被称为Sequence-to-Sequence(以下简称Seq2Seq),广泛应用于有输入序列和输出序列的场景,比如机器翻译(一种语言序列到另一种语言序列)、图像字幕(图片像素序列到语言序列)、对话机器人(如问答)等。Seq2Seq架构中的编码器和解码器通常由递归神经网络(RNN)或卷积神经网络(CNN)实现。基于循环神经网络的模型RNN之所以被称为循环神经网络,是因为它的输出不仅取决于输入,还取决于前一时刻的输出。如上图所示,t时刻的输出h不仅依赖于t时刻的输入x,还依赖于t-1时刻的输出,t-1时刻的输出依赖于t时刻的输入-1和t-2时的输出,所以递归地,时序对RNN的依赖使得RNN理论上可以在某一时刻输出时考虑到所有过去的输入信息,特别适合时序数据,比如文本、语音、金融数据等。因此,基于RNN实现Seq2Seq架构来处理文本任务是很自然的想法。一个典型的基于RNN的Seq2Seq架构如下图所示:图中展示了一个自动回复邮件的模型,其编码器和解码器分别由四层RNN变体LSTM组成[5]。图中的向量thought向量对输入的文本信息进行编码(Areyoufreetomorrow?),decoder得到这个向量依次解码生成目标文本(Yes,what'sup?)。上述模型也可以自然地用于自动文本摘要任务,其中输入是原始文本(如新闻),输出是摘要(如新闻标题)。目前最好的基于RNN的Seq2Seq生成文本摘要模型之一来自Salesforce。在基本模型架构上,使用了注意力机制和强化学习。下面将详细描述该模型。基于卷积神经网络的模型Seq2Seq也可以用CNN来实现。与可以直观地应用于时间序列数据的递归神经网络不同,CNN最初仅用于图像任务[6]。CNN通过卷积核(上图中的A和B)从图像中提取特征(features),每隔一段时间对特征应用maxpooling,得到从简单到复杂的不同层次的特征,如线、面、复杂的图形模式。等等,如下图所示。CNN的优势在于它可以提取层次特征并并行高效地执行卷积运算。CNN可以应用于文本任务吗?本机字符串文本不提供这种可能性。然而,一旦将文本表示为分布式表示/词嵌入[7],我们就可以使用真实的矩阵/向量来表示句子/词。这种分布式向量使我们能够在文本任务中应用CNN。如上图所示,原文(等视频不要租)用实数矩阵表示,可以类比为图像的像素矩阵,CNN可以“读取”文本就像“阅读”图像一样,学习和提取特征。虽然CNN提取的文本特征不像图像特征那样清晰可解释和可视化,但CNN提取的文本特征可以类比为自然语言处理中的句法分析树,代表一个句子的语法层级。基于卷积神经网络的自动文本摘要模型中最具代表性的是Facebook提出的ConvS2S模型[9]。它的encoder和decoder都是由CNN实现的,还加入了attention机制。下面将详细介绍。当然,我们不仅可以使用同一个神经网络来实现编码器和解码器,也可以使用不同的网络,比如基于CNN的编码器和基于RNN的解码器。FrontierADeepReinforcedModelforAbstractiveSummarization这是SalesforceResearch发布的基于RNN的生成式自动文本摘要模型。它通过架构创新和几个技巧提高了模型总结长文本的能力。它在CNN/DailyMail和NewYorkTimes数据集中使用达到了新的state-of-the-art(最佳性能)。为长文本生成摘要是文本摘要领域中一项相对困难的任务。即使是以往最好的深度神经网络模型,在处理这个任务的时候,也会出现生成不流畅、词句重复等问题。为了解决上述问题,模型作者提出了一种intra-attention机制和一种新的训练方法,有效地提高了文本摘要的质量。模型中应用了两组注意机制,即1)经典的解码器-编码器注意机制,以及2)解码器内部的注意机制。前者使解码器在生成结果时动态按需获取输入信息,后者使模型能够关注生成的词,有助于解决生成长句时重复相同词句的问题。该模型的另一项创新是提出了混合学习目标,它结合了教师强制和强化学习。首先,学习目标结合了传统的最大似然法。最大似然(MLE)是语言建模等任务中的经典训练目标,旨在最大化句子中单词的联合概率分布,从而使模型学习语言的概率分布。但是对于文本摘要,只考虑最大似然是不够的。主要有两个原因。一是有监督训练的参考“答案”,但没有用于应用程序和摘要生成的参考“答案”。例如t时刻生成的词是“tech”,参考摘要是“science”,那么在监督训练中生成t+1时刻的词时,输入是“science”,所以不会报错积累。但在实际应用中,由于没有groundtruth,t+1时刻的输入是错误的“tech”。这样做的结果是错误会累积,因为它们没有得到纠正。这个问题称为曝光偏差。另一个原因是在有监督的训练中,一般只为一篇文章提供一个参考摘要。基于MLE的监督训练只会鼓励模型生成完全相同的摘要。但是在介绍中提到,对于一个文本,往往可以有不同的总结,所以对监督学习的要求太绝对了。相比之下,用于评估生成的摘要的ROUGE指标考虑了这种灵活性,通过将参考摘要与生成的摘要进行比较来为摘要评分(请参阅下面的评估摘要)。所以希望在训练的时候引入ROUGE指标。但是由于ROUGE不可导,传统的梯度+反向传播不能直接应用到ROUGE上。因此,一个很自然的想法是利用强化学习将ROUGE指标加入到训练目标中。那么我们如何通过强化学习为ROUGE优化模型呢?简单的说,模型首先在forward模式(inference)中生成一个summarysample,用ROUGE指标进行评估打分,得到对这个样本的评价/奖励,然后根据奖励更新模型参数:如果样本模型产生的奖励较高,则对模型进行鼓励;如果生成的样本评价较低,则抑制模型输出此类样本。最终的训练目标是最大似然和基于ROUGE指数的函数的加权平均。这两个子目标各司其职:最大似然承担建立良好语言模型的责任,使模型能够生成语法正确、流畅的文本;而ROUGE指标降低了exposurebias,使得summary更加灵活,对ROUGE的优化也直接提升了模型的ROUGEscore。建立一个好的模型,不仅需要架构上的创新,更需要一些技巧,这个模型也不例外。在论文中,作者使用了以下技术:使用指针来处理未知词(OOV)问题;共享解码器权重以加速模型在训练期间的收敛;规定三个连续的词不能重复的人为规则。综上所述,深度学习+强化学习是一个不错的思路。该模型首次将强化学习应用于文本摘要任务,并取得了良好的性能。我相信同样的想法也可以用在其他任务中。ConvolutionalSequencetoSequenceLearningConvS2S模型是由Facebook的AILab提出的,其编码器和解码器都是基于卷积神经网络。该模型主要用于机器翻译任务。论文发表时,它在英德和英法翻译任务上都达到了最先进的水平。同时,作者也尝试使用该模型进行自动文本摘要。实验结果表明,基于CNN的Seq2Seq模型在文本摘要任务中也能达到最先进的性能。模型架构如下图所示。乍一看模型很复杂,但其实每一部分都比较直观。下面将ConvS2S分解成子模块进行详细介绍。先看embedding部分。这种模型的嵌入比较新颖。除了传统的semanticembedding/wordembedding之外,还加入了positionembedding,将词序表示为分布式向量,从而使模型获得词序和位置信息,模拟RNN对词序的感知。最终的嵌入是语义和词序嵌入的简单总和。之后,词的嵌入作为输入进入模型的卷积模块。这个卷积模块可以看成是经典的卷积加上非线性变换。虽然图中只画了一层,但实际上可以像经典的卷积层那样逐层叠加。这里我们关注非线性变换。这种非线性变换称为门控线性单元(GLU)[10]。它将卷积的结果分成两部分,对一部分进行sigmoid变换,即映射到0到1的区间后,与向量的另一部分进行element-wise乘积。这种设计让人想起LSTM中的门结构。GLU在某种程度上是在模仿LSTM和GRU中的门结构,使网络具有控制信息流传递的能力。GLU已被证明在语言建模方面非常有效[10]。除了将门架构与卷积层相结合,作者还使用了残差连接[11]。残差连接可以帮助构建更深的网络,缓解梯度消失/爆炸等问题。除了使用增强版的卷积网络外,该模型还引入了具有多跳结构的多步注意机制。与以往的注意力机制不同,多跳注意力不仅需要解码器的最后一个卷积块关注输入输出信息,还需要每个卷积块执行相同的注意力机制。这种复杂的注意力机制使模型能够获得更多的历史信息,比如哪些输入被关注了。与ADeepReinforcedModelforAbstractiveSummarization一样,ConvS2S的成功不仅在于创新的结构,更在于细致入微的技巧。在ConvS2S中,作者使用了非常谨慎的参数初始化和归一化,稳定了方差和训练过程。该模型的成功证明CNN也可以应用于文本任务,通过层次结构表示远程依赖关系。同时,由于CNN具有高度可并行性,因此CNN的训练效率高于RNN。与RNN相比,CNN的缺点是需要调整的参数较多。评估摘要评估摘要的质量是一项艰巨的任务。对于一篇摘要,很难说有标准答案。与许多具有客观评估标准的任务不同,摘要的评估在一定程度上依赖于主观判断。即使在总结任务中,有语法正确性、语言流畅性、关键信息完整性等标准,对总结的评价仍然像“一千人眼中有一千个哈姆雷特”。有自己的衡量标准。从20世纪90年代末开始,一些会议或组织就开始着手制定摘要评价标准,他们也会参与一些自动文本摘要的评价。知名的会议或组织有SUMMAC、DUC(DocumentUnderstandingConference)、TAC(TextAnalysisConference)等,其中DUC的摘要任务得到了广泛的研究,大部分抽象摘要模型都在DUC-2004上进行了测试数据集。目前,评价自动文本摘要质量的方法主要有两种:人工评价法和自动评价法。这两类评价方法都需要完成以下三点:确定原文中最重要的需要保留的部分;在自动文本摘要中识别1中的部分;根据语法和连贯性(可读性)评估摘要的可读性。人工评价法评价摘要的质量,最简单的方法是请几位专家按照标准进行人工评价。该方法更接近人类阅读体验,但费时费力,无法用于大规模自动文本摘要数据的评价,不符合自动文本摘要的应用场景。因此,文本摘要研究组正在积极研究自动评价方法。自动评价方法为了更有效地评价自动文本摘要,可以选择一个或几个指标(metrics),根据这些指标,可以生成生成的摘要和参考摘要(人工编写,认为是正确的摘要)自动评估。目前最常用和最被认可的指标是ROUGE(Recall-OrientedUnderstudyforGistingEvaluation)。ROUGE是Lin提出的一组指标,包括一些派生指标,最常用的有ROUGE-n、ROUGE-L、ROUGE-SU:ROUGE-n:该指标旨在比较生成的摘要和n-grams(连续n个词)评价摘要的质量。常用的有ROUGE-1、ROUGE-2、ROUGE-3。ROUGE-L:与ROUGE-n不同,该指标根据最长公共子序列(LCS)评估摘要。如果生成的摘要和参考摘要的LCS较长,则认为生成的摘要质量较高。该指标的缺点是它要求n-gram是连续的。ROUGE-SU:该指标考虑了uni-grams(n=1)和bi-grams(n=2),允许在bi-grams的第一个词和第二个词之间插入其他词,因此优于ROUGE-L更灵活。ROUGE作为一种自动评价指标,与人工评价具有很高的相关性,可以在自动评价总结中提供有效的参考。但另一方面,从上面对ROUGE索引的描述可以看出,ROUGE是基于词对应而不是语义对应。生成的摘要在单词方面越接近参考摘要,其ROUGE值就越高。但是,如果单词不同,即使它们在语义上相似,得到的ROUGE值也会更低。换句话说,如果一个生成的摘要恰好在参考摘要的基础上被同义词替换,重写成一个完全不同的词的摘要,虽然这仍然是一个高质量的摘要,但ROUGE值将在结论上显示相反的结果。从这个极端但可能的例子可以看出,自动化评估方法所需的指标仍然存在一些不足。目前,为避免上述情况的发生,在评价时通常采用多个摘要作为参考和基准,既有效地增加了ROUGE的可信度,又兼顾了摘要的非唯一性。自动评价摘要方法的研究与探索也是文本自动摘要领域的一个热门研究方向。总结本文主要介绍了基于深度神经网络的生成文本摘要,包括基本模型和最新进展,同时也介绍了如何评价自动生成的摘要。自动文本摘要是目前NLP的热门研究方向之一。从研究到实际业务还有很长的路要走。未来可能的发展方向包括:1)模仿人类摘要的模式,融合提取和生成模型;2)研究更好的摘要评价指标。希望本文能帮助大家更好地理解深度神经网络在自动文本摘要任务中的应用。
