博士田远东团队前段时间在EMNLP2022上发布了一个基于大规模语言模型的故事生成器Re3(RecursiveRepromptingandRevision)框架。通过设计提示,模型可以生成一致的故事,而无需对大型模型进行微调。,最多可以生成7500字的故事。近日,Re3的作者团队发布了长篇故事生成框架DOC(DetailedOutlineControl)第二版,使用层次化的大纲(outline)来更详细地描述故事,并使用微调的OPT-350m模型使生成的内容写得更连贯。相比之下,经过人类评估,DOC被认为比上一代Re3具有更强的写入能力。论文链接:https://arxiv.org/abs/2212.10077论文链接:https://github.com/yangkevin2/doc-story-generationDOC由两个互补的组件组成:1.详细轮廓生成器(detailedoutliner)可以创建一个更详细的层次结构大纲,将创造性工作从主要起草过程转移到规划阶段;2.细节控制器(detailedcontroller)通过控制故事段落,与大纲细节对齐,保证更详细的大纲在生成时仍有作用。在人类对自动生成故事的评估中,DOC在情节一致性上获得了22.5%的绝对增益,在剧情相关性上获得了28.2%,在趣味性上获得了20.7%的绝对增益,大大优于之前的Re3基线模型,人类评估者也认为DOC更容易在交互式构建环境中进行控制。文章的第一作者凯文·杨是加州大学伯克利分校的四年级博士生。他的主要研究兴趣是结构化环境中的可控自然语言文本生成,例如使用结构化方法的可控生成来提高长文本的一致性。第二作者田远东博士,元人工智能研究院研究员、高级管理人员。研究方向为深度强化学习及其在游戏中的应用,以及深度学习模型的理论分析。2005年和2008年获得上海交通大学硕士学位,2013年获得卡内基梅隆大学机器人研究所博士学位。DOC框架随着自然语言技术的不断发展,大规模语言模型对短文本的理解逐渐接近瓶颈,人们逐渐对生成更长的文本感兴趣,比如一次生成数千个单词。与短文本生成任务相比,长文本包含更多的内容和限制。模型需要保持整体一致性、长期事实一致性,并保持与用户输出的前提或计划的相关性。与人类相比,Re3这样的故事生成系统在很多方面还有不足,比如无法保证长距离的剧情连续性、全局不一致、故事内容偏离既定计划等。为了弥合这一差距,详细大纲控制(DOC)框架通过两种互补的方法提高了长期一致性,同时重用了Re3的高级平移-起草-修订结构。详细大纲首先,详细大纲将一个简短的初始大纲细化为更详细、层次化的大纲,这样设计的目的是为了让人类作者可以在起草一份长文档之前反复细化和扩展一个简短的初始大纲。与其即兴创作新的情节点,作家可能会在高级大纲阶段计划一个连贯的整体情节,使用扩展大纲在起草过程中提供更详细的指导。在起草阶段,我们重用Re3重写阶段的大纲相关性和文本连贯性重新排序来检测当前大纲项目何时完成一段文章,并根据分数阈值实施提前停止。教学大纲包含完整的设置和相关字符,并且每个教学大纲项目都经过仔细筛选,以确保在上下文中的相关性和连贯性。在结构化提示中,模型会突出显示当前设置、设置中的更改,还会根据大纲中检测到的角色检索角色描述。相比之下,Re3在起草过程中为每个片段动态选择相关角色,并且不跟踪设置信息,这可能导致故事设置发生意外变化。大纲项控制段落生成以忠实于详细大纲。由于详细轮廓施加了许多重叠的软约束,因此详细控制器必须施加足够的控制强度,同时详细控制器还必须适应灵活的自然语言输入,并且在使用最先进的大规模语言模型生成时具有计算效率。因此,研究人员将详细控制器实施为基于OPT350m的控制器,并设计了一个对比训练程序,使摘要与段落前缀保持一致。至关重要的是,研究人员还构建了许多流畅的硬底片,以促进生成不仅在开头而且在整个过程中都相关的段落。实验部分在实验中,模型的输入只是一个简短的英文前提,一般为30-60个单词,输出是一个完整的故事。研究人员并没有施加更多的监管约束,因为“故事”的定义尚不明确,更不用说“好故事”的定义了,“好故事”的好坏主要取决于人为评价指标。评估中主要使用三个指标,它们更适合比较段落而不是完整的故事:1.连贯性,人类注释者判断情节连贯的段落百分比;2.相关性,判断符合相应大纲项目的段落百分比3.趣味性,认为有趣的段落百分比。比较的基线模型包括Re3、ROLLING-OPT和ROLLING-GPT。从实验结果可以看出,与Re3相比,标注者认为DOC生成的图更连贯,与轮廓更相关,比ROLLING基线有更高的提升。结果证实了模型设计的正确性,即情节连贯性和大纲相关性受益于将创意工作从计划转移到起草,以及改进的控制机制。令人惊讶的是,注释者还认为DOC的段落明显更有趣。研究人员认为,这是更详细(更面向事件)的大纲带来的改进,进一步的消融实验也支持这一假设。然而,定性分析也表明,该模型仍有巨大的进一步改进空间。不像RE3,它通常不会偏离顶层大纲太远,有时几乎完全偏离主题,DOC往往无法遵循详细大纲的较低层部分。DOC和RE3中的内部一致性仍然存在问题,详细大纲中偶尔出现的错误可能特别不利,导致起草过程中出现更大的级联错误。此外,DOC中的大纲在详细程度方面往往不一致,有些过于模糊,而另一些则似乎过度扩展。此外,模型检测到的设置和字符有时不正确或不完整,下面的示例显示了DOC根据上述大纲编写的严重删节的故事。
