当前位置: 首页 > 科技观察

为什么ChatGPT要把LeCun酸成柠檬精?Google、Meta和OpenAI聊天机器人相互竞争!

时间:2023-03-16 13:57:01 科技观察

日前,Meta首席人工智能科学家YannLeCun对ChatGPT的评论迅速传遍圈内外,引发热议。在Zoom的媒体和高管小型聚会上,LeCun给出了一个令人惊讶的评论:“就底层技术而言,ChatGPT并没有那么伟大的创新。”“虽然在大众眼里,它是革命性的,但我们知道它是一个组合良好的产品,仅此而已。”ChatGPT并非创新,一些人的职业生涯,以及学校教育的现状,在全世界都为之惊叹的时候,LeCun对ChatGPT的评价竟如此“轻描淡写”,但其实,他的言论并非没有道理。数据-许多公司和研究实验室都可以使用像ChatGPT这样的驱动人工智能系统。LeCun说,OpenAI在这个领域并不是那么独特。“除了谷歌和Meta之外,还有六家其他初创公司基本上拥有非常相似的技术,”LeCun补充道。接着,LeCun有点酸——“ChatGPT采用Transformer架构以自监督的方式进行预训练,自监督学习是我很早就提倡的,而OpenAI还没有Transformer是谷歌发明的,这种语言神经网络是GPT-3等大型语言模型的基础,第一个神经网络语言模型是20年前YoshuaBengio提出的。Bengio注意力机制后来被谷歌用于Transformer,后来成为所有语言模型中的关键要素。此外,ChatGPT采用了同样由谷歌DeepMindLab首创的人类反馈强化学习(RLHF)技术。在LeCun看来,ChatGPT与其说是一次科学突破,不如说是一个成功的工程案例。OpenAI的技术“在基础科学方面并不创新,只是经过精心设计”。“当然,我不是为此批评他们。”我不是在批评OpenAI的工作,也不是他们的声明。我试图纠正公众和媒体认为ChatGPT是一项创新且独特的技术突破的看法,事实并非如此。在与纽约时报记者凯德·梅茨的座谈会上,乐坤感受到了闹事者的质疑。“你可能会问,为什么Google和Meta没有类似的系统?我的回答是,如果谷歌和Meta推出会胡说八道的聊天机器人,他们会损失很多,”他笑着说。巧合的是,当OpenAI受到微软等投资者青睐,身价飙升至290亿美元的消息传出后,马库斯也连夜在自己的博客上写了一篇文章嘲讽他。文章中,马库斯爆出一句金句:OpenAI你能做什么谷歌做不到的,价值290亿美元?Google、Meta、DeepMind、OpenAI大PK!话不多说,让我们把这些AI巨头的聊天机器人拉出来走走,用数据说话。LeCun表示,很多公司和实验室都有类似于ChatGPT的AI聊天机器人,这是事实。ChatGPT并不是第一个基于语言模型的AI聊天机器人,它有很多“前辈”。在OpenAI之前,Meta、Google、DeepMind都发布了自己的聊天机器人,比如Meta的BlenderBot、Google的LaMDA、DeepMind的Sparrow。也有一些团队公布了自己的开源聊天机器人计划。例如,来自LAION的Open-Assistant。在一个Huggingface博客中,几位作者对RLHF、SFT、IFT、CoT(它们都是ChatGPT的关键字)主题的重要论文进行了调查、分类和总结。他们根据公共访问、训练数据、模型架构和评估方向等细节制作了一张表格,比较BlenderBot、LaMDA、Sparrow和InstructGPTAI聊天机器人。注意:由于没有记录ChatGPT,他们使用的是InstructGPT的详细信息,这是一种来自OpenAI的指令微调模型,可以被视为ChatGPT的基础。LaMDABlenderBot3SparrowChatGPT/InstructGPT组织GoogleMetaDeepMindOpenAI访问权限ClosedPublicClosedLimited参数大小1370亿1750亿700亿1750亿基础模型未知OPTChinchillaGPT-3.5语料库大小28.1万亿1000亿1.4万亿未知访问网络????????监督微调??????微调数据规模高质量:6.4K安全性:8K可登陆性:4KIR:49K20个NLP数据集,从18K到1.2M未知12.7K(ChatGPT可能更多)RLHF????????手动安全规则??????不难发现,尽管在训练数据、基础模型和微调方面存在许多差异,但这些聊天机器人都有一个共同点——遵循指令。例如,您可以指示ChatGPT写一首关于微调的诗。可见ChatGPT是非常“懂事”的。写诗的时候还不忘给乐存和韩丁两位祖师献上马屁。然后热情地赞道:“微调,微调,你是一首美丽的舞曲。”从预测文本到遵循指令通常,基本模型的语言建模不足以让模型学习如何遵循用户指令。在模型的训练中,除了使用经典的NLP任务(如情感、文本分类、摘要等),研究人员还会使用指令微调(IFT),即通过文本指令对非常多样化的任务.进行细微调整。除其他事项外,这些命令示例由三个主要部分组成:命令、输入和输出。输入是可选的,有些任务只需要指令,比如上面ChatGPT示例中的开放式生成。当存在输入和输出时,就会形成一个实例。给定指令可以有多个输入和输出实例。举个例子:IFT数据,通常是人工编写的指令和使用语言模型指导的指令示例的集合。在引导过程中,LM会在几次设置中得到提示(如上所示)并指示生成新的指令、输入和输出。在每一轮中,系统都会提示模型从人工编写和模型生成的样本中进行选择。人类和模型对创建数据集的贡献就像一个频谱(见下图)。一端是纯模型生成的IFT数据集,例如UnnaturalInstructions,另一端是大量人工生成的指令,例如Super-naturalInstructions。其间,就是使用一组更小但质量更高的种子数据集,然后进行bootstrapping工作,比如Self-instruct。为IFT管理数据集的另一种方法是在各种任务(包括提示)上利用现有的高质量众包NLP数据集,并使用统一模式或不同模板将这些数据集转换为指令。该领域的工作包括T0、自然指令数据集、FLANLM和OPT-IML。Naturalinstructiondataset相关论文:https://arxiv.org/abs/2104.08773Fine-tuningthemodel另一方面,OpenAI的InstructGPT、DeepMind的Sparrow、Anthropic的ConstitutionalAI都采用了基于人类反馈的强化学习(RLHF),这是人类偏好的注解。在RLHF中,一组模型响应根据人类反馈(例如,选择更受欢迎的文本配置文件)进行排名。接下来,研究人员根据这些带注释的响应训练偏好模型,将标量奖励返回给RL优化器。最后,训练聊天机器人通过强化学习来模拟这种偏好模型。思维链(CoT)提示是指令示例的一种特殊情况,它通过诱导聊天机器人逐步推理来生成输出。使用CoT微调的模型使用带有人工注释的逐步推理的指令数据集。这就是著名提示“让我们逐步思考”的由来。下面的例子摘自《ScalingInstruction-FinetunedLanguageModels》。其中,橙色高亮说明,粉色表示输入输出,蓝色是CoT推理。该论文指出,使用CoT微调的模型在涉及常识、算术和符号推理的任务上表现更好。此外,CoT微调在敏感话题上也非常有效(有时比RLHF更好),尤其是避免模型失败——“对不起,我无法回答”。安全地遵循指令正如刚才提到的,为指令微调的语言模型并不总是产生有用和安全的响应。例如,它会通过给出无用的回答来逃避,比如“对不起,我不明白”;或者对抛出敏感话题的用户输出不安全的响应。为了改善这种行为,研究人员以有监督微调(SFT)的形式在高质量人工注释数据上微调底层语言模型,从而提高模型的有用性和无害性。SFT和IFT联系非常紧密。IFT可以看作是SFT的一个子集。在最近的文献中,SFT阶段通常用于安全主题,而不是用于在IFT之后完成的特定指令主题。将来,它们的分类和描述应该会导致更清晰的用例。此外,Google的LaMDA还在安全注释的对话数据集上进行了微调,该数据集具有基于一组规则的安全注释。这些规则通常由研究人员预先定义和制定,涵盖范围广泛的主题,包括伤害、歧视、错误信息等。AI聊天机器人的下一步关于AI聊天机器人仍有许多悬而未决的问题有待探索,例如:1.RL在从人类反馈中学习有多重要?我们能否通过在IFT或SFT中进行更高质量的数据训练来实现RLHF性能?2.Sparrow中的SFT+RLHF的安全性与仅LaMDA中的SFT相比如何?3.鉴于我们已经有了IFT、SFT、CoT和RLHF,还需要多少预训练?有什么权衡取舍?哪个是最好的基础模型(公共和私人)?4.这些模型现在经过精心设计,研究人员根据未发现的问题专门搜索故障模式并影响未来的培训(包括提示和方法)。我们如何系统地记录和重现这些方法的效果?总结1.与训练数据相比,只需要很小的一部分用于指令微调(数百个数量级)。2.有监督微调利用人工标注,可以使模型的输出更安全、更有用。3.CoTfine-tuning提升了模型在step-by-stepthinking任务上的表现,使得模型并不总能回避敏感问题。参考资料:https://huggingface.co/blog/dialog-agents