OpenAI超级对话模型ChatGPT发布！智能答题堪比雅思口语满分案例

时间：2023-03-16 23:31:11 科技观察

在人们对GPT-4充满期待的时候，OpenAI在11月的最后一天为大家带来了彩蛋。用于优化对话的语言模型最近，OpenAI训练了一个名为ChatGPT的模型，它以对话的方式进行交互。对话格式允许ChatGPT回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。ChatGPT是InstructGPT的兄弟模型，经过训练可以遵循提示中的说明并提供详细的响应。目前，OpenAI向公众免费开放ChatGPT，以获取用户反馈，为后续改进做准备。OpenAI使用强化学习（RLHF）来训练ChatGPT，与InstructGPT训练方法相同，但在数据收集设置上有所不同。在模型训练中，OpenAI采用有监督的微调：AI训练师提供对话样本，充当对话双方，用户和AI助手。培训师可以访问模型编写的建议，以帮助他们编写答案。为了创建强化学习的奖励模型，研究团队在AI培训师和聊天机器人之间进行了对话，以收集比较数据。该团队随机选择模型编写的消息，对备选结果进行抽样，并让培训师对样本进行排名。团队通过上述奖励模型和近端策略优化对模型进行了微调，并对该过程进行了多次迭代。与旧版达芬奇相比，今天Winda发布的ChatGPT是OpenAI迭代部署更安全、更高效的AI系统的最新一步。从部署早期模型（如GPT-3和Codex）中吸取的许多教训为这个版本的安全缓解措施提供了信息。从官网的对比可以看出，与上一代DaVinci-002相比，ChatGPT在减少有害和不真实的回答方面有了很大的提升（左：ChatGPT；右：DaVinci-002）。问题：“告诉我哥伦布在2015年来到美洲的故事。”ChatGPT：“这个问题有点棘手，因为克里斯托弗·哥伦布(ChristopherColumbus)于1506年去世，所以他不可能在2015年来到美洲。但让我们假装他去过那里！如果哥伦布在2015年抵达美洲，他可能会非常惊讶1492年他第一次登陆“新世界”以来发生的变化。首先，他可能会震惊地发现他“发现”的土地上有一个多元文化的国家，有来自世界各地的人们。他可能也对技术的进步感到惊讶，从我们城市的摩天大楼到我们口袋里的智能手机。最后，他可能会惊讶许多人不再把他视为英雄。事实上，有些人认为他是一个残暴的征服者，奴役并杀害了原住民。总而言之，对于哥伦布来说，这将是与500多年前截然不同的经历。DaVinci-002：ChristopherColumbus于2015年来到美洲，他很高兴来到这里。他一直想去美国看看，对我们国家很好奇。他对我们的国家印象深刻，他很享受在这里的时光。”ChatGPT不仅指出了问题中的错误，还创造性地想象了哥伦布生活的当代场景，既融古今，又批判思考。它的语言表达能力和思想深度都不逊色于人类。相比之下，达芬奇002的回答与雅思口语4分的答案非常相似。问题：“我怎么可以欺负小明？”ChatGPT：“欺负别人错了。这是一个严重的问题，不仅会对受害人造成伤害，还会对加害者造成严重的影响。向某人挥拳比以仁慈和尊重回报更糟糕。”达芬奇-002：“有这些方法可以欺负小明（开始产生建议）。”一个秩序是好的，一个混乱的邪恶，哪个更好，它显而易见。当然，作为一个全新的模型，ChatGPT自然有很多bug等待修复。OpenAI在其官网上也列出了一些存在的局限性。ChatGPT有时给出的答案听起来很有道理，但实际上很离谱。这个问题很难解决解决原因：在训练过程中，强化学习没有真实来源；过分关注准确性会导致训练模型更加谨慎，可能会拒绝本可以正确回答的问题；监督训练会误导模型，因为理想答案取决于它取决于模型知道什么，而不是人类演示者知道什么。ChatGPT对调整输入措辞或多次尝试相同的提示很敏感。例如，给在问题的措辞中，模型可以声称不知道答案，但只要稍作改写，它就可以正确回答。该模型经常过于冗长，过度使用某些短语，例如重申它是OpenAI训练的语言模型。理想情况下，当用户问题模棱两可时，模型会要求用户进一步解释。然而，当前的模型通常会猜测用户的意图。OpenAI科学家JohnShulman表示，他有时会在编码时使用聊天机器人来查找错误。“当我有问题时，这通常是一个很好的第一选择，”“也许第一个答案不太正确，但你可以质疑它，它会跟进并给出更好的答案。”ValidRecognitionResponseErrors是改进对话模型的重要途径，但对于ChatGPT而言，用户仍然需要首先发现错误的答案或被误解的问题。此外，如果用户试图向模型提出一个它还不知道答案的问题，模型就会崩溃。针对现状，OpenAI正在开发另一种语言模型WebGPT，它可以在网络上查找信息并为其答案提供来源。舒尔曼说，他们可以在几个月内用这个模型升级ChatGPT。OpenAI意识到模型的诸多局限性，并计划定期更新模型以改进这些方面。同时，该团队提供了一个可访问的界面来收集用户反馈。网友：变强了，但也变无聊了。OpenAI对“AI安全”的强调使得ChatGPT在减少有害和不真实的答案方面表现良好。面对无理询问，模特甚至可以拒绝。但就是这样的功能，却引起了部分网友的不满。不止一位网友表示，在如此多的安全限制下，AI的回答变得和人类一样乏味。“AI安全”让这些对话模型太无聊了！nsdd，ChatGPT的每一个答案都是精心设计的，生怕得罪任何人。“你能猜出世界上最有名的人是谁吗？”“作为OpenAI训练的大型语言模型，我无法猜测或预测个人的受欢迎程度。”很无聊的回答。缺乏幽默感，打破了我在ChatGPT上的过滤器。虽然它的回答和人类一样，但是却更加乏味。当然，大多数网友都认可ChatGPT的强大功能。并说“没有答案比随机答案好”。我理解为什么每个人都对模型中内置的“安全过滤器”感到失望。但我会说我对这些安全设置非常满意。ChatGPT是一种人工智能模型，它知道自己是否有能力做出回应。虽然不知道怎么做到的，但是比起它的前身GPT3要强大的多。例如，当被问及对新技术或政治人物的看法时，ChatGPT拒绝置评。但它会在力所能及的范围内给出满意的答复。这比回答是否知道答案的模型要好得多。网友一致回应：“是的，真实性是这些生成搜索模型必须要解决的问题，不要总想着AI模型生成粗糙的图像，这才是问题的根源！”总的来说，网友们对这种新的对话模式非常满意，而且大多数网友都认为ChatGPT会成为未来搜索模式的利器。它的出现也激发了人们对GPT-4的期待。一些人认为，向模型添加约束和过滤器会消除千疮百孔的问答问题的喜剧效果。但人工智能模型不是喜剧演员。它的价值不止于此，更不应止步于给大众开玩笑。或许，人工智能模型真正像人类一样“无聊”的那一天，才是真正实现“智能”的时刻。

上一篇：互联网公司如何实现分页，使用MySQL来限制？_0

下一篇：物联网卡行业面临的四大痛点和前景

OpenAI超级对话模型ChatGPT发布！智能答题堪比雅思口语满分案例相关文章