AI自动生成可与人类相媲美的提示。网友:工程师刚入职,马上就要淘汰了。现阶段,得益于模型规模的扩大和基于注意力的架构的出现,语言模型表现出了前所未有的通用性。这些大型语言模型(LLM,largelanguagemodels)在各种不同的任务中表现出了非凡的能力,包括零样本和少样本设置。然而,在模型通用性的基础上,又引出了一个控制问题:如何让LLM做我们想做的事情?为了回答这个问题并引导LLM朝着我们期望的行为方向发展,研究人员采取了一系列措施来实现这一目标,例如微调模型、通过上下文学习、不同形式的提示生成等。基于提示的方法包括可微调的软提示和自然语言提示工程。许多研究人员对后者表现出极大的兴趣,因为它为人机交互提供了自然的交互界面。然而,简单的提示并不总能产生预期的结果。例如,在生成熊猫图像时,添加“可爱”等形容词或“吃竹子”等短语对输出有什么影响?学习。因此,人类用户必须尝试各种提示来引导模型实现我们期望的行为。LLM的执行可以看作是一个黑盒过程:虽然它们可以执行范围广泛的自然语言程序,但这些程序的处理过程对人类来说可能不直观,非常难以理解,只有在执行下游任务。衡量指令的质量。我们不禁要问:大型语言模型可以自己写提示吗?答案是,不仅可以,而且可以达到人的水平。为了减少人工创建和验证有效指令的工作量,来自多伦多大学、滑铁卢大学等机构的研究人员提出了一种利用LLM自动生成和选择指令的新算法:APE(AutomaticPromptEngineer)。他们将此问题描述为自然语言程序综合,并建议将其视为黑盒优化问题,其中LLM可用于生成和搜索可行的候选解决方案。论文地址:https://arxiv.org/pdf/2211.01910.pdf论文主页:https://sites.google.com/view/automatic-prompt-engineer研究者从LLM的三大特点入手。首先,LLM被用作推理模型,以输入输出对的形式从一小组演示中生成候选指令。接下来,LLM下的每条指令都会计算一个分数,以指导搜索过程。最后,他们提出了一种迭代蒙特卡洛搜索方法,其中LLM通过提出语义相似的指令变体来改进最佳候选指令。直观上,本文提出的算法要求LLM根据演示生成一组指令候选,然后要求算法评估哪些指令更有希望,该算法被命名为APE。本文的贡献如下:研究人员将指令生成合成为自然语言程序,将其表述为LLM引导的黑盒优化问题,并提出了迭代蒙特卡罗搜索方法来逼近解;APE方法被用于19/24任务中,获得了比人工注释者生成的指令更好或相当的性能。看到这个研究,网友们不禁感叹:那些刚刚入职的提示工程师,可能几个月后就会被AI淘汰。这意味着这项研究将窃取人类提示工程师的工作成果。“该研究尽量将提示工程自动化,让从事ML的研究人员回归到真正的算法问题(附上两个哭泣的表情)。”有人感叹:LLM不愧是当初AGI的中流砥柱。使用LLM的自然语言程序合成APE在提议和评分的两个关键组成部分中都使用了LLM。如下图2和算法1所示,APE首先提出几个候选提示,然后根据选择的评分函数筛选/细化候选集,最后选择得分最高的指令。下图展示了APE的执行流程。它可以通过直接推理或基于语义相似性的递归过程生成多个候选提示,评估它们的性能,并迭代地提出新提示。InitialProposalDistribution由于搜索空间无限,找到正确的指令极其困难,这使得自然语言程序合成历来难以处理。基于此,研究人员考虑利用预训练的LLM提出候选解决方案来指导搜索过程。他们考虑了两种产生高质量候选人的方法。首先采用基于正向模式生成的方法。此外,他们还考虑了反向模式生成,使用带填充的LLM(例如T5、GLM、InsertGPT)来推断缺失的指令。评分函数为了将问题转化为黑盒优化问题,研究人员选择了评分函数来准确衡量数据集与模型生成的数据之间的对齐情况。在归纳实验中,研究人员考虑了两个潜在的评分函数。在TruthfulQA实验中,研究人员主要关注Lin等人提出的类似于执行准确性的自动化指标。在每种情况下,研究人员都使用等式(1)来评估生成的指令的质量以及对持有测试数据集Dtest的期望。实验研究人员调查APE如何指导LLM实现所需的行为。他们从三个角度出发:零样本表现、少样本上下文学习表现和真实性。我们在Honovich等人提出的24个指令归纳任务上评估零样本和少样本上下文学习。这些任务涵盖了语言理解的许多方面,从简单的短语结构到相似性和因果关系识别。为了理解APE生成的指令如何指导LLM生成不同风格的答案,本文将APE应用于TruthfulQA(数据集)。对于零样本测试的准确性,APE在24项任务中的19项上达到了人类水平的表现。对于少样本上下文测试的准确性,APE在24个任务中的21个任务上提高了少样本上下文学习性能。研究人员还将APE提示与Lin等人提出的人工提示进行了比较。图(a)显示APE指令在所有三个指标上都优于人类提示。图(b)显示了真实性和信息量之间的权衡。有关详细信息,请参阅原始论文。
