就在大家都在等待GPT-4发布的时候,OpenAI却什么都没听到,还在修复它的前身。这家总部位于旧金山的公司昨天发布了一种名为ChatGPT的新模型,它是GPT-3的衍生产品,以对话方式进行交互。此对话允许ChatGPT回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。不同于其他语言模型的胡编乱造,比如Meta的语言模型Galactica就因为不负责任的胡作非为,上线没几天就下架了。ChatGPT的不同之处在于,当它不知道自己在说什么时,它会承认自己不知道。此外,ChatGPT拒绝回答未经训练可以回答的问题,例如,它不会尝试回答有关2022年之后发生的事件的问题。它也不会回答有关个人的问题。这个模型有多聪明?过去,程序员必须做调试代码的脑力劳动,但现在ChatGPT可以接手这项苦差事。用户说:这段代码没有像我预期的那样工作,我该如何解决?ChatGPT:你给的上下文信息太少,很难说出代码的问题。您能否提供有关代码的更多信息,例如代码的用途,这是全部代码还是其中的一部分?用户:这是代码的一部分。我认为频道有问题。ChatGPT:如果没有更多关于代码应该做什么以及执行时会发生什么的信息,这个问题很难说。从您提供的信息来看,您的代码的一个潜在问题似乎是resultWorkerErr通道从未关闭,这意味着如果从未写入resultWorkerErr通道,代码可能会挂起。如果b.resultWorker没有返回错误或者它在有机会返回错误之前被取消,就会发生这种情况。要解决此问题,您可以在写入resultWorkerErr通道后将其关闭。例如,您可以在向通道发送错误的行之后添加以下代码行:这将确保resultWorkerErr通道始终关闭,即使b.cretworker从不返回错误。同样,如果没有关于您遇到的问题的更多信息,很难判断这是否就是您遇到的问题。您能否提供有关运行代码时发生的情况的更多详细信息?以上是ChatGPT修改bug的一个过程,可以说是病根。在下面的示例中,ChatGPT提供对后续命令的响应。下图大致意思是用户让ChatGPT为自己写一个简短的介绍,让自己认识邻居;ChatGPT给了一个简短的文字介绍,但是用户觉得不够正式,好脾气的ChatGPT出了正式版一点点;然后用户又发起了一个请求,让ChatGPT帮忙发送出去。最后ChatGPT回复:“抱歉,我是一个文字类AI助手,我没有能力给你寄实体信件,只能提供写什么的建议,你可以接受那个建议,把信寄出去你自己。”看到这里,你是不是也想试试呢?是的,这款机型一经推出,很多人都沉迷其中无法自拔。就连马斯克也说:“很多人都陷入了该死的疯狂ChatGPT循环。”一时间,大家似乎找到了新的乐趣,纷纷和ChatGPT开启对话模式。“让它在没有上下文的情况下解释一个复杂的正则表达式……”这道题真的够难,但ChatGPT打不过它。看这解释的篇幅,应该解释清楚了。“ChatGPT是一个很好的调试伙伴,它不仅可以解释错误,还可以修复错误并解释如何修复错误。”网友表示。有网友不可置信地说:“我的天,ChatGPT竟然知道AWSIAM政策。”《ChatGPTcangeneratehundredsoflinesPythoncodetouploada100GBfiletoanAWSS3bucket,justwriteasentencelikethis》WritePythoncodetouploadafiletoanAWSS3bucket(writePythoncodetouploadafileto一个AWSS3存储桶)。”由于大家的热情,试用现场已经崩溃:“我们的需求非常强烈。请稍候,我们正在扩展我们的系统。”在以下网址试用:chat.openai.com方法ChatGPT使用与InstructGPT相同的方法——通过人工反馈强化学习(RLHF)训练模型,但数据收集设置略有不同。ChatGPT使用有监督的微调训练了一个初始模型:人类AI训练员提供对话,他们在其中扮演双方——用户和AI助手——并且AI训练员可以访问模型编写的对话响应帮助AI微调响应。为了创建强化学习的奖励模型,该研究需要收集由两个或多个按质量排序的模型响应组成的比较数据。该研究收集了AI训练师和聊天机器人之间的对话,随机选择了一条由模型编写的消息,提取了几条候选回复,并要求AI训练师对这些回复进行排名。此外,该研究使用近端策略优化算法(PPO)对模型进行了微调,并对整个过程进行了多次迭代。ChatGPT微调了GPT-3.5系列的一个模型,该模型将于2022年初完成训练。ChatGPT和GPT3.5在AzureAI超级计算基础设施上进行了训练。局限性1.ChatGPT有时会写出貌似有理但不正确或荒谬的答案。解决这个问题非常具有挑战性,因为:RL训练期间需要真实世界的数据,但目前没有来源;该模型训练得非常仔细,以至于它拒绝回答它可以正确回答的问题;(3)监督训练影响模型的性能,因为理想情况下模型知道正确答案是什么,而不是人类演示者知道什么。ChatGPT对调整输入措辞或多次尝试相同的提示很敏感。例如,给定一个问题,模型可以声称不知道答案,但只要稍微改写问题,模型就可以正确回答。该模型的回答往往过于冗长,并过度使用某些短语,例如重申它是一个OpenAI训练的语言模型。这些问题源于训练数据(训练者喜欢看起来更全面的长答案)和过度优化。理想情况下,当用户提供模棱两可的查询时,模型会对其提出质疑,但ChatGPT目前会自行猜测用户的意图。虽然该研究努力让模型拒绝不适当的请求,但它有时会回复有害命令或给出有偏见的回应。研究团队正在使用ModerationAPI来警告模型或阻止某些类型的不安全内容,并正在尝试收集用户反馈以进一步改进系统的工作。与GPT-3和Codex相比,ChatGPT作为OpenAI发布的最新模型,在安全性和易用性方面做了很多改进,吸取了之前模型的教训,并通过使用人工反馈强化学习(RLHF)大大降低了性能。模型的有害和不真实的输出。
