随着语言模型变得越来越强大,特定任务的数据和指标越来越成为训练和评估的瓶颈。例如,摘要模型通常经过训练以预测人类参考摘要并使用ROUGE进行评估,但这些指标都没有触及真正的问题——摘要质量。OpenAI最近的一项研究表明,可以通过训练模型来优化人类偏好来显着提高摘要的质量。具体来说,研究人员收集了大量高质量的人类摘要比较数据集,训练了一个模型来预测人类偏好的摘要,并将该模型用作奖励函数,通过强化学习微调摘要策略。论文链接:https://arxiv.org/pdf/2009.01325.pdf项目地址:https://github.com/openai/summarize-from-feedback研究人员将该方法应用于Reddit帖子的摘要生成,结果表明所研究的模型明显优于人类参考摘要,以及仅通过监督学习进行微调的较大模型。正在研究的模型也转移到CNN/DM新闻文章,产生的结果几乎与人类参考摘要一样好,没有任何新闻特定的微调。最后,我们执行扩展分析以了解人类反馈数据集并微调模型。这项研究确保奖励模型可以推广到新的数据集,并且优化奖励模型优于针对人类需求优化的ROUGE。这项研究的主要贡献是:研究表明,基于人类反馈的训练在英语摘要生成方面明显优于强大的基线训练;与监督模型相比,人类反馈模型可以更好地推广到新领域;通过扩展实验分析政策和奖励模型。接下来详细说明OpenAI采用的研究方法以及相应的实验细节和结果。方法和实验细节先进方法研究人员采用的方法适用于批次设置。从一个初始策略开始,该策略通过对所需数据集的监督学习进行微调(以RedditTL;DR摘要数据集为例)。整个过程(如下图2所示)包括三个可以迭代重复的步骤:根据现有策略收集样本并将比对结果发送给人类;从人类比较中学习奖励模型;针对奖励模型优化策略。人工反馈、奖励模型训练、策略训练的整体流程图。数据集和任务研究人员使用了TL;DRSummaries数据集,其中包含来自reddit.com的大约300万篇关于各种主题(subreddits)的帖子,以及由原始发帖者撰写的帖子摘要(TL;DR)。此外,数据集经过过滤(参见附录A)以确保数据集质量,包括使用一般人群可以理解的subreddit白名单。研究人员将ground-truth任务定义为生成一个模型,该模型可生成长度小于48个标记的最佳摘要。此外,判断摘要质量的标准是摘要如何忠实地将原文传达给只能阅读摘要而不能阅读文章的读者。收集人类反馈先前关于基于人类反馈[66]微调语言模型的工作表明,我们期望自己的模型学习的质量与人类贴标签者实际评估的质量之间存在不匹配。这导致模型生成的摘要被标记者认为质量好,但被研究人员认为质量低。与[66]相比,研究人员实施了两项改进以提高人类数据质量。首先,完全过渡到离线设置,其中大量比较数据交替发送给人工标记器,然后根据累积收集的数据重新训练模型;其次,与贴标签者保持亲密关系:给予他们详细的指导,在共享聊天室中回答他们的问题,并定期提供有关他们表现的反馈。模型研究人员使用的所有模型都是GPT-3风格的Transformer解码器,并在13亿(1.3B)和67亿(6.7B)参数的模型上进行了人体反馈实验。与[12,44]类似,研究人员从一个预训练模型开始,通过自动回归预测大型文本语料库中的下一个标记。然后通过监督学习对这些模型进行微调,以预测过滤后的TL;DR数据集的摘要(详见附录B)。使用这些监督模型对初始摘要进行抽样,以收集比较、初始化策略和奖励模型,并作为评估的基线。最后,为了训练奖励模型,研究人员从受监督的基线开始,然后添加一个随机初始化的线性头,输出一个标量值。研究人员希望使用经过训练的奖励模型来训练一种基于人类判断生成高质量输出的策略。实验根据人类反馈生成Reddit帖子的摘要根据人类反馈训练的策略优于更大规模的监督策略。在TL;DR数据集上评估人类反馈策略的主要结果如下图1所示:研究人员通过人们喜欢的策略生成的数据集中参考摘要的百分比来衡量策略的质量。从图中可以看出,用人工反馈训练的策略明显优于监督基线策略,1.3B人工反馈模型也明显优于其10倍监督模型(相对于参考摘要的原始偏好分数均为61%对43%)。控制摘要长度在判断摘要质量时,摘要长度是一个混杂因素。摘要的目标长度是摘要生成任务的隐含部分,生成长摘要或短摘要的决定取决于简洁性和覆盖率之间的预期权衡。本研究中的模型学会了生成更长的摘要,因此长度在质量改进中发挥了重要作用。该策略如何改进基线?为了更好地了解模型生成的摘要与参考摘要和监督基线摘要相比的质量,我们进行了补充分析,其中人类标签使用7点李克特量表从四个指标(整体性能、覆盖率、连贯性)评估摘要质量和准确性)。评估结果如下图3所示,表明人类反馈模型在所有指标(尤其是覆盖率)上都优于监督基线模型。借助生成新闻文章摘要的可迁移性,如下图4所示,人类反馈模型无需任何进一步训练也可以生成出色的CNN/DM新闻文章摘要。具体来说,人类反馈模型明显优于在TL;DR数据集上接受监督学习训练的模型,以及仅在预训练语料库上训练的模型。尽管生成的摘要更短,但6.7B人类反馈模型的性能几乎与在CNN/DM参考摘要上微调的6.7B模型一样好。了解奖励模型优化奖励模型根据研究的奖励模型进行优化应该使研究的策略与人类偏好保持一致。但是奖励模型并不能完美地代表标签偏好。虽然该研究希望奖励模型能够推广到训练期间不可见的摘要,但尚不清楚奖励模型在开始进行无用评估之前可以优化多少。为了回答这个问题,研究人员创建了一系列针对早期版本的奖励模型优化的策略,所有策略都具有不同程度的优化强度,并要求标注者将他们的样本与参考摘要进行比较。奖励模型如何随着模型和数据量的增加而扩展?研究人员进行了受控变量实验,以确定数据量和模型大小如何影响奖励模型的性能。研究人员训练了7个奖励模型,从160M到13B个参数,从8k到64k的人类比较数据。研究发现,将训练数据量增加一倍可使奖励模型的验证集准确度提高约1.1%,而将模型大小增加一倍可提高约1.8%。详情如下图6所示:奖励模型学到了什么?研究人员在几个验证集上评估了奖励模型,完整结果如下表17所示:研究了各种自动化指标如何预测人类偏好并将其与RM进行比较。具体来说,我们在基线监督模型下检查ROUGE、摘要长度、帖子的副本数和对数概率。如下图7所示,使用简单的优化方案优化ROGUE并不能始终如一地提高质量,并且针对ROGUE的优化不仅峰值更快,而且质量比也比针对奖励模型的优化低得多。
