当前位置: 首页 > 科技观察

无需人工标注,自生成指令框架打破ChatGPT等LLM的成本瓶颈

时间:2023-03-20 00:00:23 科技观察

ChatGPT是今年年底AI圈的新顶流。人们惊叹于其强大的问答语言能力和掌握的编程知识。但越是强大的机型,背后的技术要求也越高。ChatGPT基于GPT3.5系列模型,引入“人工标注数据+强化学习”(RLHF)不断微调预训练语言模型,旨在让大规模语言模型(LLM)学会理解人的命令,并学会按照给定的提示给出最优答案。这种技术思想是当前语言模型的发展趋势。虽然这样的模型很有前途,但模型训练和微调的成本非常高。根据OpenAI目前公开的信息,ChatGPT的训练过程分为三个阶段:首先,第一阶段是类似于GPT3.5的有监督策略模型。这种基本模型很难理解不同类型的人类指令中包含的意图。也很难判断生成内容的质量。研究人员从提示数据集中随机抽取部分样本,然后请专业标注人员根据指定提示给出高质量的答案。通过此手动过程获得的提示及其相应的高质量答案用于微调具有基本提示理解的初始监督策略模型,并初步提高生成答案的质量。在第二阶段,研究团队根据给定的提示提取模型产生的多个输出,然后请人类研究人员对这些输出进行排序,然后用排序后的数据训练奖励模型(rewardmodel,RM)。ChatGPT采用成对损失来训练RM。第三阶段,研究团队使用强化学习来增强预训练模型的能力,并使用前一阶段学习到的RM模型来更新预训练模型的参数。我们可以发现,在ChatGPT训练的三个阶段中,只有第三阶段不需要使用人工标注数据,而第一阶段和第二阶段需要大量的人工标注数据。因此,ChatGPT等模型虽然性能不错,但为了提高其遵循指令的能力,人工成本非常高。随着模型规模越来越大,能力范围越来越广,这个问题会越来越严重,最终成为阻碍模型发展的瓶颈。一些研究试图针对这一瓶颈提出解决方案。比如最近华盛顿大学等机构联合发表了一篇论文《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》。所提出的新框架SELF-INSTRUCT通过指导模型自身的生成过程来改进预训练语言模型的指令。跟随能力。论文地址:https://arxiv.org/pdf/2212.10560v1.pdfSELF-INSTRUCT是一个半自动化过程,它使用来自模型本身的指令信号对预训练的LM执行指令调整。如下图所示,整个过程是一个迭代的bootstrapping算法。自我指导从一组有限的种子开始,并在整个生成过程中指导手动编写的说明。在第一阶段,系统会提示模型为新任务生成指令,此步骤利用现有指令集创建更广泛的指令来定义新任务。SELF-INSTRUCT还为新生成的指令集创建输入和输出实例,用于监督指令调整。最后,SELF-INSTRUCT还会修剪低质量和重复的指令。整个过程是迭代进行的,最终的模型可以为大量的任务生成指令。为了验证新方法的有效性,该研究在GPT-3上应用了SELF-INSTRUCT框架,最终产生了约52k条指令,82k个实例输入和目标输出。研究人员观察到,GPT-3在SUPER-NATURALISTRUCTIONS数据集的一项新任务上实现了比原始模型33.1%的绝对改进,这与使用私人用户数据和人工注释训练的InstructGPT_001的性能相当。为了进一步评估,该研究为新任务整理了一组专家编写的指令,并通过人工评估表明,使用SELF-INSTRUCT的GPT-3大大优于使用公共指令数据集的现有模型,仅优于InstructGPT_001落后5%。SELF-INSTRUCT提供了一种几乎不需要人工标注的方法,实现了预训练语言模型和指令的对齐。在类似的方向上进行过多次尝试,并取得了很好的效果。可以看出,这类方法在解决大型语言模型人工标注成本高的问题上非常有效。这将使ChatGPT等LLM变得更强大,走得更远。