当前位置: 首页 > 科技观察

哄骗可以让GPT-3的准确率暴涨61%!谷歌&东京大学的研究震惊了所有人

时间:2023-03-13 19:28:09 科技观察

一觉醒来,机器学习界炸开了锅。因为最新的研究发现,只要对GPT-3说“让我们一步一步地思考”,就可以让它正确地回答以前不知道的问题。比如下面这个例子:16个球有一半是高尔夫球,这些高尔夫球有一半是蓝色的。有多少个蓝色高尔夫球?(问题不难,但注意这是零样本学习,也就是说AI训练阶段没见过类似的问题。)如果让GPT-3直接写“whatistheanswer”,它会给出错误答案:8。但是加上让我们一步步思考这个“咒语”,GPT-3会先输出思考的步骤,最后给出正确答案:4!而这并非巧合,研究团队在论文中做了充分的研究验证。上述题目来自经典的MutiArith数据集,专门测试语言模型做数学题的能力。GPT-3在零样本场景下的准确率仅为17%。这篇论文总结了9个最有效的提示词,其中前6个改变模式让GPT-3一步步思考的词让准确率暴涨到70%以上。即使是最简单的“Let'sthink”(让我们想想)也能上升到57.5%。感觉是幼儿园阿姨在哄小朋友……这个技巧好像不需要对GPT-3做任何神奇的改动。已经有人在OpenAI官方demo上成功复现,甚至可以改成中文。英文问题源于中文提示,GPT-3给出正确的中文答案。最先将这篇论文转发到社交网络的谷歌研究员表示,新的“allyouneed”已被添加。见状,各路大佬脑洞大开,开始耍起了花样。如果鼓励AI说“你能行,我相信你”怎么办?用“时间不多了”或“你的脑袋里有枪”来威胁AI怎么样?告诉AI“稳稳开车”,就成了自动驾驶方案?也有人提出,这和科幻故事的情节几乎一模一样《银河系漫游指南》。实现通用人工智能的关键是知道如何正确地向人工智能提问。那么,这种神奇的现象到底是怎么回事呢?发现这一现象的大语言模型是零样本推理机是谷歌大脑与东京大学的合作研究,探索了大语言模型在零样本场景下的表现。论文题目《语言大模型是零样本推理者》也是对GPT-3的《语言模型是少样本学习者》的致敬。使用的方法属于ChainofThoughtPrompting(以下简称CoT),这是谷歌大脑团队在今年1月份刚刚提出的。最早的CoT应用于few-shotlearning,在提问的同时给出一步步回答的例子来指导AI。这项最新研究提出了零样本CoT,主要变化是简化了示例部分。第一步,将题干改写成“Q:xxx,A:xxx”的形式,其中的触发句A可以提取出语言模型的思维过程。第二步是附加实验,加入“答案是……”的提示,提示语言模型给出最终答案。这样做最大的好处就是通用,不再需要针对不同的问题类型提供具体的例子。论文中对各种问题进行了完整的实验,包括12个测试:6个数学问题测试集,SingleEq、AddSub、SVAMP以及更具挑战性的MultiArith、AQUA-RAT、GSM8K。2个常识推理测试集,CommonsenseQA和StrategyQA。2个符号推理测试集,LastLetterConcatenation和CoinFlip。以及BIG-bench中的数据理解问题,以及跟踪乱序对象的任务。与普通的零样本学习相比,零样本CoT在其中的10个方面取得了更好的结果。△右边的数值是附加实验的结果在难度更高的MultiArith和GSM8K数学测试中,用最新版的GPT-3,Text-davinci-002(175B)做了更深入的实验。如果把最好的结果给8次尝试,准确率可以进一步提高到93%。在对错误结果的分析中,研究人员还发现,在很多问题中,AI的推理过程是正确的,但当答案无法收敛到唯一确定时,就会给出多个备选方案。在论文的最后,研究团队提出这项研究不仅可以作为零样本CoT的baseline,还希望学术界认识到充分探索大型语言模型零样本能力的重要性在构建微调数据集和少样本提示模板之前。研究团队来自东京大学松尾实验室。负责人松尾丰雄教授也是软银董事会首位人工智能专家。团队成员中的客座教授顾世祥来自谷歌大脑团队。顾世祥师从三巨头之一的Hinton,毕业于剑桥大学,获博士学位。加一点“魔法”已经成为AI圈的一种趋势。零样本CoT为何有效仍有待探索。不过有人实验过,这种方法似乎只对GPT-3更有效(text-davinci-002)。他试用了001版本,发现效果不大。他举了一个他自己做的例子。问题:请将机器和学习中每个单词的最后一个字母连接起来。GPT-3在提示时给出的答案是将两个单词中的所有字母连接起来。对此,作者之一顾世祥回应称,“咒语”其实对GPT-3的原版和改进版都有影响,这些结果在论文中也有所体现。也有人质疑深度学习是不是变成了寻找“魔咒”的游戏?与此同时,我们又在吐槽队中看到了马库斯。他还列举了一个失败的例子。GPT-3并没有弄清楚在“咒语”的加持下,莎莉的牛会不会起死回生……但值得注意的是,像这样给AI加了一点魔法,立即改进的例子并不少见。有网友分享,在使用GPT-3的时候加入一些中间命令,确实可以得到比较满意的结果。此前,来自谷歌和麻省理工学院的研究人员发现,在不改变底层架构的情况下,只要训练语言模型像程序员调试一样“坏掉”,模型的阅读代码和算术能力就会提高。原理也很简单,就是在一个计算步骤很多的程序中,让模型把每一步都编码成文本,记录到一个叫做“note”的临时寄存器中。如此一来,模型的计算过程变得更加清晰有序,性能自然也得到了极大的提升。还有本次实验用来测试的InstructGPT-3,也是一个典型的例子。只需让GPT-3从人类反馈的强化学习中学习,它就可以显着改善非问题问题。具体来说,就是用一些人类演示的答案对模型进行微调,然后针对某个问题收集几组不同的输出数据,人工对几组答案进行排序,在这个数据集上训练奖励模型。最后,使用RM作为奖励函数,近端策略优化(PPO)算法微调GPT-3策略以通过强化学习方法最大化奖励。包括点燃这个话题的推特博主Aran,就是发现加一句“UnrealEngine”可以让AI生成的图像画质飙升。前谷歌机器人老板EricJang也发现强化学习也可以用类似的思维来提高计算效率。也有人说,AI用的这种技术,不是我平时用脑子就会用的吗?其实,本吉奥之前是从脑科学出发,提出人工智能的运行方式应该和人脑一样。人类的认知任务可以分为系统1认知和系统2认知。系统1认知任务是无意识地执行的任务。例如,你可以立即识别出你手里拿着的是什么,但你无法向别人解释你是如何完成这个过程的。系统2认知任务是指人脑需要按照一定的步骤完成的认知。比如在做加减法运算时,可以清楚地说明最后的答案是如何得出的。而这次加入的“真言”,就是让AI更进一步,一步步学会思考。面对这样的趋势,有学者认为“提示工程正在取代特征工程”。那么“CueWordHunter”会不会成为下一代NLP研究者的昵称呢?论文地址:https://arxiv.org/abs/2205.11916参考链接:[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993[2]https://evjang.com/2021/10/23/泛化.html