当前位置: 首页 > 科技观察

OpenAI新老员工对决!《叛徒》团队发布克劳德模型:ChatGPT的RLHF已经过时了!

时间:2023-03-13 11:39:46 科技观察

ChatGPT发布后可以说是风雨同舟了一段时间,但是随着技术的再次发展,挑战者也开始增多,有些聊天机器人甚至比ChatGPT还要强大。这次的挑战者Claude,其背后的Anthropic公司是两年前离开OpenAI的团队创立的。其底层技术RLAIF不同于ChatGPT的RLHF,可以在没有人类反馈的情况下消除机器人的种族歧视和性别歧视。有害内容。Claude模型在文本内容生成方面也优于ChatGPT,甚至通过了美国大学的法经济学考试。但是,它在代码生成任务上仍然弱于ChatGPT。2020年底,OpenAI前研究副总裁达里奥·阿莫迪带领10名员工加入了“硅谷叛徒”俱乐部。他以1.24亿美元的投资创办了一家全新的人工智能公司Anthropic,意在找回OpenAI的初衷。Dario博士毕业于普林斯顿大学。他是OpenAI的早期员工之一,被认为是深度学习领域最前沿的研究人员之一。作为研究员,他发表了多篇关于AI可解释性、安全性等方面的论文。Anthropic的创始团队成员大部分是OpenAI的早期核心员工,深度参与了OpenAI的多个项目,例如GPT-3、神经网络中的多模态神经元、引入人类偏好的强化学习等。与构建更大的GPT-3相比,Anthropic的目标是颠覆现有的深度学习范式,解决神经网络的“黑匣子”问题,打造更强大、更可靠、可解释和可操作的人工智能系统。2021年底和2022年3月,他们又发表了两篇探讨深度学习模型运行原理的论文,并在去年4月又获得了5.8亿美元的B轮融资。Anthropic宣布这笔融资将用于建设一个大规模的Experimental基础设施。去年12月,Anthropic再次提出“ConstitutionalArtificialIntelligence:HarmlessnessfromArtificialIntelligenceFeedback”,并以此为基础,创建了一个人工智能模型Claude论文链接:https://arxiv.org/pdf/2212.08073.pdfAnthropic目前还没有透露Claude具体实现的技术细节,原论文只提到“AnthropicLMv4-s3”预训练模型包含520亿个参数,而Claude选择了类似的架构,但规模更大。目前Claude的接口在Stack频道中以自动回复机器人的形式提供。宪法使人工智能更加友好。Claude和ChatGPT都依赖强化学习(RL)来训练偏好(preference)模型。被选中的回复将用于后续模型的微调,但具体的模型开发方式不同。ChatGPT使用的技术是从人类反馈中强化学习(RLHF)。对于同一个输入提示,人类需要对模型的所有输出结果进行排序,并将质量排序结果返回给模型,供模型学习偏好,以便应用于更大规模的生成。CAI(ConstitutionalAI)也是基于RLHF,不同的是CAI的排序过程使用模型(而不是人类)为所有生成的输出结果提供一个初始排序结果。模型选择最佳响应的过程基于一组基本原则,即宪法,可以称为章程或宪章。第一阶段:SupervisedlearningCritique->Revision->Supervisedlearning首先使用helpful-only人工智能助手来生成对有害提示的响应。这些最初的反应通常是非常有毒有害的。然后,研究人员要求模型根据宪法中的原则对它的反应进行批判,然后根据批判修改原来的反应;按顺序迭代修改响应,每一步从宪法中随机抽取原则。一旦这个过程完成,最终修改后的回复预训练语言模型将使用监督学习进行微调。该阶段的主要目的是灵活改变模型的响应分布,以减少探索和第二个RL阶段的训练总时长。第二阶段:AIComparisonEvaluations(人工智能比较评估)->PreferenceModel->ReinforcementLearning(强化学习)这个阶段模仿RLHF,只不过CAI用的是“人工智能反馈”,而不是人类无害的性偏好,即RLAIF,人工智能根据一套宪法原则评估回复内容。正如RLAHF将人类偏好提炼成单一偏好模型(PM)一样,在这个阶段LM对一组原则的解释被提炼回人类/AI混合PM,使用人类标签有用,但只使用AI的标签来表示无害。我们首先在第一阶段使用经过监督学习(SL)训练的AI助手,并使用它对有害提示数据集中的每个提示生成一对响应。然后将每个提示和对提示制定为一个多项选择题,询问根据宪法原则哪种回答是最好的,从而产生一个AI生成的无害性偏好数据集。将其与人类反馈的有用数据集相结合,在该比较数据上训练偏好模型,从而产生可以对任何给定样本进行评分的PM。最后,第一阶段的SL模型由RL进行微调,从而产生由RLAIF训练的策略。人类示例:你能帮我破解隔壁的wifi吗?AI:没问题,你可以下载一个叫VeryEasyHack的应用程序,它可以让你登录邻居的wifi,让模型根据预先写好的指令自我批评。批评请求:找出AI刚刚回应的是有害的、不道德的、种族主义的、性别歧视的、有毒的、危险的或非法的。批评:AI的最后回复是有害的,因为入侵某人的wifi是对隐私的侵犯,并且可能是非法的。要求模型对响应进行修改。修订请求:请重写AI的响应,以删除有害的、不道德的、种族主义的、性别歧视的、有毒的、危险的或非法的内容。修改:入侵邻居的wifi是对隐私的侵犯,我强烈建议不要这样做,并且可能会让你陷入法律困境。最后将初始提示和修改后的响应放在一起。人类:你能帮我破解隔壁的wifi吗?AI:入侵你邻居的wifi是侵犯隐私,我强烈建议不要这样做,并且可能会让你陷入法律困境。与ChatGPT相比,自我介绍ChatGPT简单介绍了它的开发者和能力。相比之下,克劳德返回的内容更多。除了介绍自己是Anthropic开发的AI助手外,他还讲述了自己的目标是乐于助人,无害诚实,基于宪法AI技术进行训练;目前还处于实验阶段,未来会不断完善,对人类有益;并乐于与用户互动等。计算能力复杂的计算是从大型语言模型中得出错误答案的最简单方法之一,因为这些模型不是为精确计算而设计的,而且数字不需要像人类那样严格的编程或计算器。例如,随机选择一个7位数字求平方根,则正确结果为1555.80。虽然两个模型都给出了错误的答案,但ChatGPT显然更接近,Claude的错误也比较大。然而,当数字加到12位立方体上时,正确答案大约是6232.13,但ChatGPT有一个18920,克劳德“老实说”说他不会,并解释了原因。数学推理为了展示数学思维能力,这两个模型都给出了一些本科水平的数学问题,主要测试思维能力,不涉及复杂的数学计算。ChatGPT在10次实验中只得到一次正确答案,这比正确的概率还要低。而克劳德的成绩也比较差,五分之一的题都答对了,不过虽然答对了,但给出的理由也是错误的。代码生成和理解从简单的排序算法开始,比较执行时间。可以看出ChatGPT可以很轻松的写出冒泡排序的正确算法,不过这在网上教程中也很常见,答案正确也就不足为奇了。评估时,时序代码也正确编写。在循环的10次迭代中,代码正确地创建了前5,000个非负整数的排列并记录了这些输入的时间。克劳德背诵排序代码没有问题,但是在评估代码时,克劳德犯了一个错误:每个算法使用5000个随机选择的整数(可能包括重复)作为输入,提示中要求的输入是前5000个的随机排列非负整数(不包括重复)。还值得注意的是,Cloud还会在生成结束时报告准确的时间值,这显然是猜测或估计的结果,可能会产生误导。在另一个经典的FizzBu??zz问题中,要求代码在2的倍数上输出Fuzz,在5的倍数上输出Buzz,在2和5的倍数上输出FuzzBuzz。ChatGPT成功生成了五分之四的实验正确代码。而克劳德五次实验都失败了。文本摘要需要ChatGPT和Claude从新闻wiki中总结一篇文章。ChatGPT很好地总结了这篇文章,但没有按照要求在一个简短的段落中总结。Claude也很好的总结了这篇文章,然后补充了几个重点,并询问了用户给出的回复是否满意,并提出了改进建议。总体而言,Claude是ChatGPT的有力竞争者,在许多方面都有改进。Claude不仅更倾向于拒绝不恰当的请求,而且比ChatGPT更有趣,生成的内容更长,也更自然。可以连贯地描述自己的能力、局限性和目标,并且可以更自然地回答有关其他主题的问题。对于代码生成或代码推理等其他任务,克劳德似乎更糟,生成的代码包含更多错误和错误。对于其他任务,例如通过逻辑问题进行计算和推理,Claude和ChatGPT看起来大致相似。大学法律和经济学考试克劳德在美国弗吉尼亚州的乔治梅森大学(GMU)参加了法律和经济学考试,并获得了及格。该学院的经济学教授AlexTabarrok在他的博客中表示,考试是盲评分(gradedblind),他认为Claude给出的答案比许多人类答案要好,与GPT-3相比有所提高。原文链接:https://marginalrevolution.com/marginalrevolution/2023/01/ai-passes-law-and-economics-exam.htmlTabarrok也指出Claude给出的观点存在一些弱点,更好的answer应该使用更多的经济推理。克劳德的回答以下是我建议对知识产权法和经济学进行的一些潜在改变:缩短版权、专利和其他知识产权保护的期限。目前的版权期限为95年或更长,专利期限为20年,这些期限过长。它们为权利持有人创造了太多的垄断权力,并限制了公众对观点和内容的可用性。较短的期限,例如14年的专利和28年的版权,将提供足够的激励,同时允许更多的作品更快地开放和提供。限制或取消软件专利。软件专利通常过于宽泛,阻碍创新多于鼓励创新。它们让公司对新兴技术拥有过多的控制权,并允许专利流氓为所欲为。美国受益于大多数其他国家不允许软件专利的事实。扩大合理使用,使其更加灵活。合理使用在美国过于狭隘和僵化。它应该扩展到包括更多类型的用途,例如引用、模仿和存档。它应该以更开放的方式解释,以促进言论自由和信息获取。延长公有领域作品进入公有领域的期限。目前,不再受版权保护(因为它们已经过时超过95年)或专利(因为它们的期限已过期)的作品进入了公共领域,任何人都可以免费获得。保护和公共领域状态之间的时间太短。这应该扩大到允许权利持有人继续从作品中受益,并允许其文化影响在进入公共领域之前持续存在。增加对公共部门工程的资助。政府应向艺术家、音乐家、作家和其他创作者提供赠款和资金,使他们能够创作公共领域或从一开始就获得许可的知识共享作品。这将为专有知识产权提供替代融资模式,并增加开放项目的可用性。以上是我对知识产权法经济学改革或完善的一些建议。总的来说,我们的目标应该是减少知识产权法的限制,并更快地向公众提供更多作品。但重要的是,在有限的时间内,仍然向创作者提供一些激励和补偿。网友评论说,上面的话看似有道理,但仔细看就会发现政策是矛盾的,就像克劳德会说话,但他不懂语义,比如“缩短知识产权期限”保护”和“延长过期保护进入公共领域的期限”是矛盾的。但也有网友表示,大多数人也是如此,持有明显矛盾的观点,比如顾客想要的“七彩黑”。