论文链接:https://arxiv.org/pdf/2302.06476.pdf大语言模型(LLM)已被证明能够解决各种自然语言处理(NLP)任务,并且对于给定的下游任务,它们不依赖于任何训练数据,并且可以在适当提示的帮助下实现模型调整。这种根据命令执行新任务的能力可以被视为迈向通用人工智能的重要一步。尽管目前的LLM在某些情况下取得了不错的性能,但它们在零样本学习中仍然容易出现各种错误。此外,提示的格式也会产生重大影响。例如,在提示中加入“Let'sthinkstepbystepbystep”可以显着提升模型的性能。这些局限说明目前的LLM并不是真正意义上的通用语言系统。近日,OpenAI发布的ChatGPTLLM在NLP社区引起了极大的关注。ChatGPT是通过使用人类反馈强化学习(RLHF)训练GPT-3.5系列模型创建的。RLHF主要包括三个步骤:使用监督学习训练语言模型;收集比较数据并训练基于人类偏好的奖励模型;使用强化学习优化奖励模型的语言模型。经过RLHF培训,ChatGPT已被观察到表现出令人印象深刻的能力,可以对人类输入产生高质量的响应,拒绝不适当的问题,并根据后续对话自我纠正以前的错误。虽然ChatGPT显示出强大的对话能力,但与现有的LLM相比,ChatGPT是否实现了更好的零样本泛化能力,在NLP社区尚不清楚。为了填补这一研究空白,研究人员通过在涵盖7个代表性任务类别的大型NLP数据集上对其进行评估,系统地研究了ChatGPT的零样本学习能力。这些任务包括推理、自然语言推理、问答(阅读理解)、对话、摘要、命名实体识别和情感分析。通过大量实验,研究人员旨在回答以下问题:ChatGPT是NLP任务的通用求解器吗?ChatGPT在哪些类型的任务上表现出色?如果ChatGPT在某些任务上落后于其他模型,为什么?为了回答这些问题,作者根据实验结果比较了ChatGPT和最先进的GPT-3.5模型(text-davinci-003)的性能。此外,他们还报告了FLAN、T0和PaLM等近期工作的零样本、微调或少样本微调结果。主要结论作者表示,据他们所知,这是对ChatGPT在各种NLP任务上的零样本能力的首次研究,旨在提供对ChatGPT的初步概述。他们的主要发现如下:虽然作为通用模型的ChatGPT显示出执行多项任务的一定能力,但它通常比针对给定任务微调的模型表现更差(参见图1和第4.3节)。ChatGPT卓越的推理能力在算术推理任务(第4.2.1节)中得到了实验证实。然而,ChatGPT在常识、符号和逻辑推理任务上的表现通常不如GPT-3.5,例如,通过生成不确定性响应(第4.2.2节)可以看出这一点。ChatGPT在偏向于推理能力的自然语言推理任务(第4.2.3节)和问答(阅读理解)任务(第4.2.4节)上优于GPT-3.5,例如识别文本对中的逻辑关系。具体来说,ChatGPT更擅长处理与事实一致的文本(即,更善于对蕴涵进行分类,而不是对非蕴涵进行分类)。ChatGPT在对话任务上优于GPT-3.5(第4.2.5节)。在摘要任务上,ChatGPT生成更长的摘要并且比GPT-3.5表现更差。然而,在零射击指令中明确限制摘要长度会损害摘要质量,从而导致性能下降(第4.2.6节)。尽管显示出作为通才模型的前景,但ChatGPT和GPT-3.5在某些任务上都面临挑战,例如序列标记(第4.2.7节)。ChatGPT的情感分析能力接近GPT-3.5(第4.2.8节)。方法如上所述,本研究主要比较了ChatGPT和GPT-3.5(textdavinci-003)在不同任务下的零样本学习性能。具体来说,他们将任务指令P和测试问题X作为输入,模型用f表示,然后生成目标文本Y=f(P,X)来解决测试问题。不同任务的指令和输入格式如图2和图3所示。包含6个任务(情感分析、自然语言推理、命名实体识别、问答、对话和摘要)的指令和输入格式。说明为蓝色字体。推理任务描述。例如,当模型执行情感分析任务时,任务指令P将文本中包含的情感标记为正面或负面,输出答案为正面或负面。当模型读取指令P并输入X,这是一首具有相当力量和真实性的令人惊叹的抒情作品时,模型判断它期望输出Ypositive。与上述单阶段提示方法不同,本研究采用两阶段提示(Kojima等人提出)来完成zero-shot-CoT。第一阶段采用“Let'sthinkstepbystepbystep”,指令P_1归纳出模型生成的基本原理R。第二阶段以第一步生成的原理R和原始输入X、指令P_1作为新的输入,指导模型生成最终答案。然后使用新指令P_2作为触发语句来提取答案。所有任务说明均取自或受布朗、欧阳、张等人的启发。最后要注意的是,每次对ChatGPT进行新的查询时,都必须提前清除对话,以避免前面示例的影响。实验实验在20个不同的数据集上评估ChatGPT和GPT-3.5,涵盖7类任务。算术推理ChatGPT和GPT-3.5在没有或有CoT的情况下在六个算术推理数据集上的准确性如表2所示。在没有CoT的实验中,ChatGPT在其中5个数据集上的表现优于GPT-3.5,显示其强大的算术推理能力。图4显示了GPT-3.5给出错误答案的情况。在图表的左侧,问“Wendy正在玩一个视频游戏,有43条生命。在游戏的困难部分,她失去了8条生命。如果她在下一关中再得到39条生命,她将有多少条生命?有?”?ChatGPT给出了正确答案。然而,GPT-3.5生成了一个错误的答案。可以看出,使用CoT时,ChatGPT的性能要比GPT-3.5好很多。常识、符号和逻辑推理表3报告了ChatGPT和流行的LLM在常识、符号和逻辑推理数据集上的准确性。可以做出以下观察:首先,使用CoT可能并不总是在常识推理任务中提供更好的性能,这可能需要更细粒度的背景知识。其次,与算术推理不同,ChatGPT在很多情况下的表现都比GPT-3.5差,这表明GPT-3.5的响应速度更快。为了分析原因,该研究在图5中显示了ChatGPT的几个失败案例。我们可以观察到ChatGPT容易出现非确定性响应,从而导致性能不佳。自然语言推理表4显示了不同模型在两个自然语言推理任务上的结果:RTE和CB。我们可以看到,在零样本设置下,ChatGPT可以获得比GPT-3.5、FLAN、T0和PaLM更好的性能。这证明ChatGPT在NLP推理任务中具有更好的零样本性能。Q&A表6报告了不同模型在BoolQ数据集上的准确性,ChatGPT优于GPT-3.5。这表明ChatGPT可以更好地处理推理任务。对话表8显示了ChatGPT和GPT-3.5在MuTual数据集(多轮对话推理)上的准确性。正如预期的那样,ChatGPT明显优于GPT-3.5。图6是一个具体示例,我们可以看到ChatGPT能够更有效地推理给定上下文。这再次印证了ChatGPT超强的推理能力。生成摘要表9报告了ChatGPT和GPT-3.5在SAMSum数据集上的ROUGE分数,令人惊讶的是ChatGPT在所有指标上的表现都低于GPT-3.5。命名实体识别表10报告了ChatGPT和GPT-3.5在CoNLL03上的零样本性能。我们可以看到ChatGPT和GPT-3.5的整体性能非常相似。情感分析表11比较了不同模型在情感分析数据集SST2上的准确率。令人惊讶的是,ChatGPT的表现比GPT-3.5差了大约1%。有关更多信息,请参阅原始论文。
