当前位置: 首页 > 科技观察

长文本生成更流畅,斯坦福引入时间控制方法,论文入选ICLR2022

时间:2023-03-21 18:34:11 科技观察

近年来,包括GPT-2在内的大型语言模型在文本生成方面非常成功,但是大型语言模型会生成语无伦次长文本文本。一个原因是无法提前计划或描述长文本的动态特征。结果,它们经常产生杂乱无章的内容、糟糕的话语结构和低相关性;文本似乎是在没有锚点的情况下生成的。当自回归模型生成更长的文本时,这些连贯性问题会加剧,因为模型难以推断超出文本的预期终点。这些问题表明,大型语言模型目前无法正确捕捉文档从头到尾的演变,这对于故事、对话或菜谱生成等面向目标的任务至关重要。然而,使用学习到的局部动力学很难生成准确的目标条件轨迹,尤其是对于大跨度轨迹。在最近的一项研究中,斯坦福大学的研究人员探索了一种替代方案,该替代方案明确假设具有目标条件生成的简单、固定的动态模型。这种新颖的方法提高了长文本生成的性能,人类评估者对其输出的评分比基线方法高28.6%。研究人员建议将时间控制作为一种学习已知目标条件动力学潜在空间的方法。他们假设非目标导向的曲折文本可以表示为潜在空间中的布朗运动,这样相邻句子的嵌入变得更加相似,而远处的句子则不同。使用固定的开始和结束节点,可以将目标导向的行为合并到模型中。在这种情况下,布朗运动变成布朗桥,由此产生的潜在轨迹遵循简单的封闭形式动力学。论文链接:https://arxiv.org/pdf/2203.11370.pdf在时间控制方面,研究人员得出了一个新的对比目标,用于学习具有布朗桥动力学的潜在空间。然后利用这个潜在空间来生成保持局部连贯性并提高全局连贯性的文本。为了完成文本生成,时间控制首先通过固定在起点和终点的布朗桥过程规划潜在轨迹。然后它有条件地使用这个潜在计划来生成句子。在本文中,我们微调GPT2以解码潜在计划并根据时间控制的潜在轨迹生成文本。来自时间控制的轨迹作为文档中的抽象语义位置,指导微调语言模型的生成。总的来说,这项研究的贡献包括时间控制语言模型的推导,该模型使用通过对比目标学习的新布朗桥动力学明确地模拟潜在结构。在一系列文本域中,时间控制能够生成比任务特定方法更多或同样连贯的任务文本,包括文本填充和强制生成长文本。验证结论,潜在表示通过评估文本与人类实验的一致性来竞争性地捕获文本动态。同时,调整方法以了解对比目标的重要性,加强布朗桥动力学,并显式建模基础动力学。TIMECONTROL背后的洞察力是学习具有平滑时间动态的潜在空间,用于建模和生成连贯的文本。研究人员将时间控制分为三个部分。第一部分讨论训练编码器通过对比学习将句子映射到布朗桥潜在空间。第二部分讨论训练解码器从这个潜在空间重建句子。第三部分讨论了时间控制的文本生成。使用布朗桥动态训练编码器。这里的编码器是从原始输入空间到潜在空间的非线性映射,f_θ:X→Z。这个编码器的目标是将高维序列数据映射到低维底层随机过程,在这篇论文中布朗桥过程。t=0处的任意起点z_0和t=T处的终点z_T之间的布朗桥过程的密度为:这个密度很容易理解:它就像起点和终点之间的噪声线性插值在轨迹中,起点的z_T应该更像z_0,终点更像z_T。不确定性在中间区域最高,在末端附近最低。图1显示了目标如何转换为用于训练编码器的语言设置。客观事实取自文献中的三句话。从同一文本中采样的句子构成了一条平滑的潜在轨迹,它们应该彼此靠近,遵循潜在空间中的条件密度。从不同文本中抽取的句子不应构成固定轨迹,也不太可能遵循桥梁动力学。图1.使用潜在计划训练解码器本节讨论如何训练语言模型来解码潜在生成计划。训练数据集中的所有句子首先使用预训练编码器f_θ映射到学习的潜在空间。这给出了数据集文档的句子级潜在代码(z0,...,zT,...,zT)的布朗桥轨迹。然后,我们不是从头开始学习解码器,而是根据过去的上下文和潜在计划微调GPT2生成的文本。在推理时从潜在计划生成文本图2显示了经过训练的解码器如何在推理时生成文本。给定两个端点z_0、z_T,从潜在的布朗桥中提取轨迹样本,然后由该桥上的解码器生成。在许多情况下,布朗桥的尽头可能并不清楚。在这种情况下,可以对与起点和终点相对应的一组句子(例如训练集的第一个和最后一个句子)进行编码,并对这些点进行高斯拟合以形成密度估计。在这种情况下,生成涉及首先从高斯采样,然后像以前一样从桥生成。有关培训和生成的更多详细信息,请参见附录b。图2.实验在实验部分,研究人员评估了时间控制捕捉文本动态的能力。具体来说,可以分为以下几个研究问题:1.时间控制能否对局部文本动态进行建模?第4.1节使用句子顺序预测任务研究了这个问题:给定来自同一文档的两个句子,评估不同的模型是否能够预测它们的原始顺序。2.时间控制能否生成部分连贯的文本?4.2节使用文本填充任务研究了这个问题:给定前缀和后缀,评估填充在不同模型中的效果。3.时间可以控制全局文本动态模型吗?第4.3节通过检查生成部分的长度来研究维基百科城市文章的文本生成问题。4.时间控制可以生成连贯的长文档吗?第4.4节研究了强制长文本生成的问题:评估当模型在生成过程中被迫进行外推时如何保留全局文本统计信息(例如典型的部分顺序和长度)。我们使用不同的潜在维度运行时间控制(d=8,16,32)。编码器架构是一个冻结的GPT2预训练模型和从Huggingface获得的可训练MLP网络。研究人员提取了与EOS代币对应的最后一个隐藏状态,并在隐藏状态之上训练了一个4层MLP。MLP网络具有中间ReLU激活,并使用学习率为1e-4和动量为0.9的随机梯度下降进行训练。在这里,我们评估时间控制对话语连贯设置中局部话语动态(RQ1)建模的影响。语篇连贯性通常通过测试线性分类器是否可以检测有序和无序的句子对来衡量表示是否可以捕获语篇结构来衡量。在这里,我们将时间控制编码器与对应于EOS令牌的GPT2最后一层的隐藏状态进行比较(Radfordetal.,2019)、BERT(Devlinetal.,2019)、ALBERT(Lanetal.,2019)),SentenceBERT(Reimersetal.,2019),SimCSE(Gaoetal.,2021)。后四种方法被设计为句子嵌入模型。如表1所示,还进行了消融研究。表1:由训练有素的线性分类器的测试准确度衡量的话语连贯准确度。RQ1的答案是肯定的:时间控制可以模拟对话和段落中的局部文本动态。然后,我们试验一种文本填充设置,该设置评估时间控制如何生成部分连贯的文本(RQ2)。文本填充需要一个模型来补全缺失句子的不完整文本。例如,“帕蒂很高兴她的朋友们在这里。帕蒂和她的朋友们玩得很开心。”这里文本填充的挑战是生成一个与左右相邻句子部分连贯的句子。研究人员在BLEU(Papineni等人,2002年)、ROUGE(Lin,2004年)、BLEURT(Sellam等人,2020年)和BERTScore(Zhang等人,2019年)上评估了生成的句子和真实填充句。它们之间的话语连贯性如表2和表17所示。还包括对人类生成的结果作为补充句子的连贯性的评估。参与者被要求以1-5的等级(从不合理到非常合理)对ILM、LM和时间控制生成的填充句进行评分。RQ2的答案是:由于显式的底层动态,时间控制可以生成局部连贯的文本。通过评估这些方法是否对Wikisections上的文档结构进行建模,我们评估了时间控制对建模全局文本动态(RQ3)的影响。他们检查了生成的片段长度是否与数据集中的平均长度相匹配。每个Wikisection文档都包含一个城市的摘要、历史、地理和人口部分。评估结果肯定了时间控制对于建模全局文本动态的重要性,例如匹配文档结构,这回答了RQ3。研究人员评估了在省略EOS令牌的情况下暂时控制全局连贯文本(RQ4)生成的效果,他们称之为强制长文本生成的设置,因为模型必须在生成时推断超出其自然端点。作为参考,1000个记号比一般的Wikisection文档(最长的文本字段)长50%。在这个任务上,本文提出的方法也取得了更好的性能。总之,时间控制提高了文本填充和话语连贯任务的性能,并在排序和文本长度一致性方面为长文本生成保留了文本结构,证明本文提出的方法可以生成更多局部和全局连贯的文本。该团队认为,时间控制还可以扩展到具有顺序数据的其他领域,例如视频或音频,或者处理没有已知固定起点和终点的任意桥接过程。更多细节可以在原始论文中找到。