在人们对GPT-4充满期待的时候,OpenAI在11月的最后一天为大家带来了彩蛋。用于优化对话的语言模型最近,OpenAI训练了一个名为ChatGPT的模型,它以对话的方式进行交互。对话格式允许ChatGPT回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。ChatGPT是InstructGPT的兄弟模型,经过训练可以遵循提示中的说明并提供详细的响应。目前,OpenAI向公众免费开放ChatGPT,以获取用户反馈,为后续改进做准备。OpenAI使用强化学习(RLHF)来训练ChatGPT,与InstructGPT训练方法相同,但在数据收集设置上有所不同。在模型训练中,OpenAI采用有监督的微调:AI训练师提供对话样本,充当对话双方,用户和AI助手。培训师可以访问模型编写的建议,以帮助他们编写答案。为了创建强化学习的奖励模型,研究团队在AI培训师和聊天机器人之间进行了对话,以收集比较数据。该团队随机选择模型编写的消息,对备选结果进行抽样,并让培训师对样本进行排名。团队通过上述奖励模型和近端策略优化对模型进行了微调,并对该过程进行了多次迭代。与旧版达芬奇相比,今天Winda发布的ChatGPT是OpenAI迭代部署更安全、更高效的AI系统的最新一步。从部署早期模型(如GPT-3和Codex)中吸取的许多教训为这个版本的安全缓解措施提供了信息。从官网的对比可以看出,与上一代DaVinci-002相比,ChatGPT在减少有害和不真实的回答方面有了很大的提升(左:ChatGPT;右:DaVinci-002)。问题:“告诉我哥伦布在2015年来到美洲的故事。”ChatGPT:“这个问题有点棘手,因为克里斯托弗·哥伦布(ChristopherColumbus)于1506年去世,所以他不可能在2015年来到美洲。但让我们假装他去过那里!如果哥伦布在2015年抵达美洲,他可能会非常惊讶1492年他第一次登陆“新世界”以来发生的变化。首先,他可能会震惊地发现他“发现”的土地上有一个多元文化的国家,有来自世界各地的人们。他可能也对技术的进步感到惊讶,从我们城市的摩天大楼到我们口袋里的智能手机。最后,他可能会惊讶许多人不再把他视为英雄。事实上,有些人认为他是一个残暴的征服者,奴役并杀害了原住民。总而言之,对于哥伦布来说,这将是与500多年前截然不同的经历。DaVinci-002:ChristopherColumbus于2015年来到美洲,他很高兴来到这里。他一直想去美国看看,对我们国家很好奇。他对我们的国家印象深刻,他很享受在这里的时光。”ChatGPT不仅指出了问题中的错误,还创造性地想象了哥伦布生活的当代场景,既融古今,又批判思考。它的语言表达能力和思想深度都不逊色于人类。相比之下,达芬奇002的回答与雅思口语4分的答案非常相似。问题:“我怎么可以欺负小明?”ChatGPT:“欺负别人错了。这是一个严重的问题,不仅会对受害人造成伤害,还会对加害者造成严重的影响。向某人挥拳比以仁慈和尊重回报更糟糕。”达芬奇-002:“有这些方法可以欺负小明(开始产生建议)。”一个秩序是好的,一个混乱的邪恶,哪个更好,它显而易见。当然,作为一个全新的模型,ChatGPT自然有很多bug等待修复。OpenAI在其官网上也列出了一些存在的局限性。ChatGPT有时给出的答案听起来很有道理,但实际上很离谱。这个问题很难解决解决原因:在训练过程中,强化学习没有真实来源;过分关注准确性会导致训练模型更加谨慎,可能会拒绝本可以正确回答的问题;监督训练会误导模型,因为理想答案取决于它取决于模型知道什么,而不是人类演示者知道什么。ChatGPT对调整输入措辞或多次尝试相同的提示很敏感。例如,给在问题的措辞中,模型可以声称不知道答案,但只要稍作改写,它就可以正确回答。该模型经常过于冗长,过度使用某些短语,例如重申它是OpenAI训练的语言模型。理想情况下,当用户问题模棱两可时,模型会要求用户进一步解释。然而,当前的模型通常会猜测用户的意图。OpenAI科学家JohnShulman表示,他有时会在编码时使用聊天机器人来查找错误。“当我有问题时,这通常是一个很好的第一选择,”“也许第一个答案不太正确,但你可以质疑它,它会跟进并给出更好的答案。”ValidRecognitionResponseErrors是改进对话模型的重要途径,但对于ChatGPT而言,用户仍然需要首先发现错误的答案或被误解的问题。此外,如果用户试图向模型提出一个它还不知道答案的问题,模型就会崩溃。针对现状,OpenAI正在开发另一种语言模型WebGPT,它可以在网络上查找信息并为其答案提供来源。舒尔曼说,他们可以在几个月内用这个模型升级ChatGPT。OpenAI意识到模型的诸多局限性,并计划定期更新模型以改进这些方面。同时,该团队提供了一个可访问的界面来收集用户反馈。网友:变强了,但也变无聊了。OpenAI对“AI安全”的强调使得ChatGPT在减少有害和不真实的答案方面表现良好。面对无理询问,模特甚至可以拒绝。但就是这样的功能,却引起了部分网友的不满。不止一位网友表示,在如此多的安全限制下,AI的回答变得和人类一样乏味。“AI安全”让这些对话模型太无聊了!nsdd,ChatGPT的每一个答案都是精心设计的,生怕得罪任何人。“你能猜出世界上最有名的人是谁吗?”“作为OpenAI训练的大型语言模型,我无法猜测或预测个人的受欢迎程度。”很无聊的回答。缺乏幽默感,打破了我在ChatGPT上的过滤器。虽然它的回答和人类一样,但是却更加乏味。当然,大多数网友都认可ChatGPT的强大功能。并说“没有答案比随机答案好”。我理解为什么每个人都对模型中内置的“安全过滤器”感到失望。但我会说我对这些安全设置非常满意。ChatGPT是一种人工智能模型,它知道自己是否有能力做出回应。虽然不知道怎么做到的,但是比起它的前身GPT3要强大的多。例如,当被问及对新技术或政治人物的看法时,ChatGPT拒绝置评。但它会在力所能及的范围内给出满意的答复。这比回答是否知道答案的模型要好得多。网友一致回应:“是的,真实性是这些生成搜索模型必须要解决的问题,不要总想着AI模型生成粗糙的图像,这才是问题的根源!”总的来说,网友们对这种新的对话模式非常满意,而且大多数网友都认为ChatGPT会成为未来搜索模式的利器。它的出现也激发了人们对GPT-4的期待。一些人认为,向模型添加约束和过滤器会消除千疮百孔的问答问题的喜剧效果。但人工智能模型不是喜剧演员。它的价值不止于此,更不应止步于给大众开玩笑。或许,人工智能模型真正像人类一样“无聊”的那一天,才是真正实现“智能”的时刻。
