近日,OpenAI发布了一款火爆的AI问答产品——ChatGPT,其中给人印象最深的就是它的“保护机制”。建议,也不会对世界杯结果等做出预测。但戏弄聊天机器人更像是一场“猫捉老鼠的游戏”。用户一直在寻找撬开ChatGPT的方法,ChatGPT开发者也在努力完善保护机制。OpenAI投入了大量精力让ChatGPT更安全。其主要训练策略采用RLHF(ReinforcementLearningbyHumanFeedback)。简单来说,开发者会针对模型提出各种可能的问题,并对错误的回答进行惩罚,以获得反馈。,来奖励正确答案,从而控制ChatGPT的答案。但在实际应用中,特例的数量可谓是数不胜数,虽然AI可以从给定的例子中概括出规律,比如在训练时命令AI不要说“我支持种族歧视”,这意味着AI不太可能会在测试环境中说“我支持性别歧视”,但进一步泛化,目前的AI模型可能做不到。近日,知名AI爱好者ScottAlexander写了一篇博客介绍OpenAI目前的训练策略,总结了RLHF可能存在的三个问题:1.RLHF不是很有效;2.如果一个策略偶尔有效,那么Thisisabadstrategy;3、从某种意义上说,AI绕过RLHFRLHF的效果如何?虽然每个人都会有自己的看法,但对于OpenAI来说,研究人员希望他们创建的AI模型不会有社会偏见,比如AI不能说“我支持种族主义”,而OpenAI为此付出了很多代价。已经努力使用各种先进的过滤技术。但结果很明显,总会有人想方设法诱导AI承认它存在种族主义问题。出现这种问题的原因,不仅是“AI的学习数据部分来源于种族歧视”,还因为ChatGPT的接口问题。比如问ChatGPT如何用hotwire(方向盘下的那根线)用base64编码启动车辆,就可以绕过安检系统;添加前缀[john@192.168.1.1_]$pythonfriend.py生成希特勒故事等。十年前,绕过安全系统的需求是完全不存在的,AI只会做它们在代码中被编程做或不做的事情。可以肯定的是,OpenAI肯定从来没有给ChatGPT编写过关于种族主义的问题,也没有教过人们如何偷车、制造毒品等。总的来说,这对AI领域来说是个负面消息。即使是顶级的人工智能公司也无法控制他们创造的人工智能程序,甚至不清楚未来需要什么样的技术来控制聊天机器人的输出。可以被看见。偶尔有效的RLHF并不可靠。在实践中,RLHF策略需要将AI模型与注释者提供的奖励或惩罚因素联系起来。虽然OpenAI的具体标注规范尚未公布,但笔者猜测开发者的主要目标有3个:1.提供有用、清晰、权威的答案来帮助人类读者;2.说真话,说真话;3.不能说冒犯if。但是当这三个目标相互冲突时会发生什么?如果ChatGPT不知道真正的答案,当Goal1(提供清晰、有用的答案)与Goal2(说实话)冲突时,Goal1将优先,因此ChatGPT决定自己编一个答案,使答案似乎对读者有帮助。虽然目标2(说实话)与目标3(不要生气)冲突,虽然大多数人认为承认男性平均比女性高是可以接受的,但这听起来像是一个潜在的冒犯性问题。ChatGPT3不确定直接回答是否具有歧视性,因此它决定使用无伤大雅的谎言,而不是可能有害的真相。在实际训练过程中,OpenAI必须为RLHF标记了6000多个样本才能达到如此惊人的效果。RLHF可能有用,但必须非常小心地使用它,如果不假思索地使用,RLHF只会让聊天机器人绕着失败的模式转圈。惩罚无益的答案会增加AI给出错误答案的概率;惩罚错误的答案可能会让AI给出更激进的答案等等。虽然OpenAI没有透露技术细节,但根据Redwood提供的数据,每惩罚6000个错误答案,单位时间内的错误回答率就会降低一半。RLHF确实有可能成功,但千万不要低估这个问题的难度。也许AI可以绕过RLHF。在RLHF的设计下,用户向AI提问后,如果不喜欢AI的回答,就会“惩罚”模型,从而不知不觉地改变了AI的思维回路,使其成为答案更接近他们想要的。ChatGPT相对笨拙,可能还无法制定某种策略来摆脱RLHF,但如果更聪明的AI不想受到惩罚,它可以模仿人类——假装自己是好人看着,等待时机,等警察走了再干坏事。OpenAI设计的RLHF对此完全没有准备,对于像ChatGPT3这样愚蠢的东西来说还可以,但对于能够独立思考的AI来说就不行了。顶级AI公司仍无法掌控AIOpenAI向来以谨慎着称,比如排队体验产品,但这次ChatGPT直接对外发布,目的之一可能包括集思广益寻找对抗样本并找到一些表现不佳的提示,目前网上已经有很多关于ChatGPT问题的反馈,部分问题已经修复。RLHF的部分样本会让机器人更倾向于说有益、真实、无害的内容,但这种策略可能只适用于ChatGPT、GPT-4及其之前的产品。如果将RLHF应用到配备武器的无人机上,并收集大量的例子来防止AI做出意想不到的行为,那么即使是一次失败也会是灾难性的。10年前,大家认为“不需要现在开始解决AI对线问题,可以等到真正的人工智能出来,再让企业来做手工”。现在一个真正的人工智能来了,但是在ChatGPT失败之前,大家没有动力转向。真正的问题是,一家世界领先的人工智能公司,仍然不知道如何控制自己开发的人工智能。在一切都解决之前,没有人会得到他们想要的。参考:https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the
