当前位置: 首页 > 科技观察

符合人类创作过程的AIGC:自动生成成长故事的模型出现了

时间:2023-03-18 17:52:24 科技观察

在当今人工智能领域,AI写作神器层出不穷,技术和产品日新月异。如果说OpenAI两年前发布的GPT-3在写法上还差那么一点点,那么ChatGPT前段时间的生成结果就可以称得上是“文笔华丽,剧情完整,逻辑自洽”。有人说,如果人工智能开始写作,人类就什么都不是了。但无论是人还是AI,一旦提高了“字数要求”,文章就会变得更难“管”。最近,中国人工智能研究科学家田元东和其他几位研究人员最近发布了一种新的语言模型——Re^3,它也入选了EMNLP2022。论文链接:https://arxiv.org/pdf/2210.06774.pdf田远东曾在知乎上介绍过这个模型:Re^3的思路极其简单。通过设计提示,它可以生成一个连贯的故事。较大的模型需要微调。我们跳出语言模型逐字生成的线性逻辑,采用层次化的生成方式:先在Plan阶段生成故事人物、人物的各种属性和轮廓,然后给出故事轮廓和Draft阶段的字符,反复生成特定的Paragraphs,这些特定的Paragraphs通过Rewrite阶段进行筛选,挑选出与前一段高度相关的生成段落,丢弃相关性较低的段落(这需要训练一个小模型),最后在编辑阶段更正了一些明显的事实性错误。方法介绍Re^3的思路是通过递归的Reprompt和调整生成更长的故事,更符合人类作家的创作过程。Re^3将人类的写作过程分解为计划、起草、改写、编辑4个模块。计划模块如下图2所示,计划模块将故事的前提(Premise)展开为背景、人物和故事大纲。首先,设置是故事前提的简单一句话扩展,使用GPT3-Instruct-175B(Ouyangetal.,2022)获得;然后,GPT3-Instruct175B根据前提和设置重新生成字符名称和字符描述;最后,该方法提示GPT3-Instruct175B编写故事大纲。规划模块中的组件是prompt自己生成的,会被反复使用。草稿(Draft)模块对于策划模块得到的每一个大纲,草稿模块会不断生成若干个故事段落。每一段都是由递归重新提示形成的结构化提示生成的定长延续,草稿模块如下图3所示。重写(Rewrite)模块生成器的第一个输出通常是低质量的,就像人们完成的第一稿,第二稿可能需要根据反馈重写一篇文章。重写模块通过根据与前面段落的连贯性和与当前大纲点的相关性对草稿模块输出重新排序来模拟重写过程,如下图4所示。编辑模块不同于主要改写,编辑模块是对通过策划、起草、改写模块生成的段落进行局部编辑,进一步完善生成的内容。具体来说,目标是消除长序列的事实不一致。当一个人在校对时发现一个小的事实不连续性时,它可能只是对有问题的细节进行了编辑,而不是对高级论文计划进行重大修改或实质性重写。编辑模块通过两个步骤模拟了这个人工创作过程:检测事实不一致并纠正它们,如下面的图5所示。评估在评估期间,研究人员的任务是根据简短的初始前提生成一个故事。由于“故事”很难以基于规则的方式定义,研究人员没有对可接受的输出施加任何基于规则的约束,而是通过几个人工注释的指标进行评估。为了生成初始前提,研究人员使用GPT3-Instruct-175B进行了提示,以获得100个不同的前因。基线由于以前的方法比Re^3更侧重于短篇小说,因此很难进行直接比较。所以研究人员在GPT3-175B的基础上使用了以下两个baseline:1.ROLLING,通过GPT3-175B一次生成256个token,使用之前的故事和之前生成的所有故事文本作为提示,如果超过768个token,则剩下截断提示。因此,“滚动窗口”最大上下文长度为1024,与RE^3中使用的最大上下文长度相同。在生成3072个令牌后,研究人员使用了与RE^3相同的故事结束机制。2.ROLLING-FT,和ROLLING一样,只是GPT3-175B首先微调了WritingPromptsstory中的几百个段落,至少有3000个token。指标研究人员使用的几个评估指标包括:1.有趣。对读者来说很有趣。2.连续性。情节连贯。3.相关性。忠实于原来的先例。4.人形。判断为人类所写。此外,研究人员追踪生成的故事在以下方面出现写作问题的次数:1.叙事。叙事或风格的惊人变化。2.不一致。不正确或包含非常奇怪的细节。3.混乱。令人困惑或难以理解。4.重复性。高重复性。5、不流畅。经常出现语法错误。结果如表1所示,Re^3非常有效地根据预期的前因写出较长的故事,同时保持整体情节的连贯性,验证研究人员受人类写作过程启发而做出的设计选择,并递归地重新提示构建方法。与ROLLING和ROLLING-FT相比,Re^3在连贯性和相关性方面都有显着提高。注释者还将Re^3的故事标记为“具有明显更少的乱写问题”。Re^3在绝对意义上表现出很强的表现:注释者认为,在这两个比较中,Re^3的故事分别有83.3%和80.0%是由人类编写的。表2显示了Re^3中一个故事的严重删节实例,显示出很强的连贯性和前因相关性:尽管如此,研究人员定性地观察到Re^3仍有很大的改进空间。表3显示了两个常见问题。首先,尽管Re^3几乎总是在某种程度上遵循故事前提,但与基线故事不同,它们可能不会捕捉到前提的所有部分,也可能不会遵循由规划模块(例如,表3初步和大纲的第一部分)。其次,由于重写模块,特别是编辑模块的失败,仍然存在一些混淆的段落或矛盾的陈述:例如,在表3中,角色Jaxon在某些地方具有矛盾的身份。不过与滚动窗口方式不同的是,Re^3的规划方式可以“自我修正”,回到原剧情。表3中故事的后半部分说明了这种能力。分析消融实验研究人员探索了Re^3的各个模块的相对贡献:规划、起草、重写和编辑,并依次对每个模块进行了消融实验。例外是Draft模块,因为尚不清楚没有它系统将如何运行。表4显示,模拟人类计划和重写过程的“计划”和“重写”模块对于整体情节的连贯性和前提的相关性至关重要。但是,“编辑”模块对这些指标的贡献很小。研究人员还定性地观察到,Re^3的最终故事中仍有许多连贯性问题无法通过编辑模块解决,但可以通过细心的人工编辑解决。“编辑”模块的进一步分析研究人员使用受控设置来调查“编辑”模块是否至少可以检测到基于角色的事实不一致。检测子系统称为STRUCTURED-DETECT以避免与整个编辑模块混淆。如表5所示,在检测基于角色的不一致时,STRUCTUREDDETECT在标准ROC-AUC分类指标方面优于两个基线。ENTAILMENT系统的ROC-AUC分数仅略高于机会性能(0.5),突出了核心挑战,即检测系统必须绝对准确。此外,STRUCTURED-DETECT旨在扩展到更长的段落。研究人员假设,与基线相比,使用更长输入的评估中的性能差距会扩大。即使在这种简化的环境中,所有系统的绝对性能仍然很低。此外,许多生成的完整故事包含非角色不一致,例如背景与当前场景之间的不一致。虽然研究人员没有正式分析GPT-3编辑API在检测后修复不一致的能力,但观察到它可以修复孤立的细节,同时努力应对更大的变化。总而言之,来自检测和校正子系统的复合错误使得本研究的当前编辑模块很难在不同时??引入不必要的更改的情况下有效地提高数千个单词的事实一致性。