ChatGPT火了之后,很多关注技术的同学都在问一个问题:有没有什么学习资料可以让我们系统的了解其中的原理在ChatGPT背后?这个问题很棘手,因为OpenAI还没有发布关于ChatGPT的论文。不过从OpenAI关于ChatGPT的博客中我们了解到,ChatGPT使用的方法与其兄弟模型InstructGPT相同,只是InstructGPT是在GPT-3上微调的,而ChatGPT是基于GPT-3.5的。两者在数据收集方面也存在一些差异。博客链接:https://openai.com/blog/chatgpt/InstructGPT的论文发表于2022年3月,但OpenAI早在1月份就在博客上发表了这篇文章(见《GPT-3 胡言乱语怎么办?OpenAI:我们重新调教了一下,新版本更「听话」》)。当时OpenAI明确提到InstructGPT使用人类反馈(RLHF)的强化学习方法对GPT-3进行微调,使得模型的输出更符合人类的喜好,并在ChatGPT的训练中得到延续。论文链接:https://arxiv.org/pdf/2203.02155.pdf另外,InstructGPT和ChatGPT有很多相似之处。因此,深入了解InstructGPT论文,对于想往ChatGPT方向做一些工作的同学会有很大的帮助。这就是为什么我们强烈推荐李牧的这个密集讲座。课程地址:https://jmq.xet.tech/s/2lec6b(点击“阅读原文”可直接进入)李牧博士是亚马逊资深首席科学家。曾与张晓东等人合着《动手学深度学习》。近两年,他一直通过视频向大家介绍各种AI知识,制作了数十篇论文的精读课程。很多同学都养成了跟着李牧精读论文的习惯。李牧博士在B站的账号是“跟李牧学AI”。这个InstructGPT的解读课程一共67分钟,基本按照论文写的顺序介绍。看过ChatGPT博客的同学都知道,它的技术原理基本上可以用一张图来概括,这张图也是在InstructGPT论文中出现过的一张图(两者有细微差别)。在解读论文摘要和引言时,李牧详细介绍了图中的三个步骤。ChatGPT博客中的技术示意图。InstructGPT论文中的技术示意图。在论文的第三章,InstructGPT的作者们首先介绍了他们的数据获取方法和过程,李牧也带着大家详细阅读了一遍。这部分在工程方面非常有价值。就像李牧说的,如果你以前没有做过这样的事情(数据标注等),需要找人帮你标注数据,那你可以看看它的附录,有很多模板可以用直接,论文的作者甚至描述了他们标记的网站的UI长什么样,非常值得学习。接下来李牧着重解读了第3章写的三个模型(见3.5模型)——SFT(监督微调)模型、RM(奖励建模)模型和RL(强化学习)模型,包括这些模型涉及的参数和目标函数的细节。最后,李牧总结道,从技术上讲,InstructGPT还是一个非常实用的技术。它告诉你一个方法:给定一个大的语言模型,你如何通过一些有标签的数据,快速提高它在你关心的某个领域的性能,使其达到实用的水平。因此,它为那些想要使用生成模型来制作产品的人提供了一个操作思路。当然,正如李牧博士所说,科学研究是一步一步来的,InstructGPT也是建立在前人研究的基础上的,所以想了解ChatGPT的同学难免要多回去多看论文。在之前的课程中,李牧也对GPT、GPT-2、GPT-3的论文进行了详细的讲解:课程地址:https://jmq.xet.tech/s/2lec6b
