翻译|李锐审稿人|孙淑娟最近,一个让人又爱又怕的冷酷角色混进了很多人的朋友圈,以至于StackOverflow不得不草草下架。近日,OpenAI发布了聊天AIChatGPT。短短几天时间,它的用户就达到了百万,甚至服务器一度被注册用??户压得喘不过气来。这种被网友惊叹“超越谷歌搜索”的神器是怎么做到的呢?可靠吗?一、活动回顾OpenAI最近发布了ChatGPT,这是基于旗舰GPT系列的又一个大型语言模型(LLM),是一个专门用于对话交互的模型。用户可以下载该公司的免费试用版。与大多数已发布的大型语言模型(LLM)一样,ChatGPT的发布也引发了一些争议。在发布的短短几个小时内,新的语言模型就引起了Twitter的轰动,用户上传了ChatGPT令人印象深刻的成就或灾难性失败的屏幕截图。然而,从大规模语言模型的广阔视角来看,ChatGPT反映了该领域短暂而丰富的历史,代表着短短几年取得了多少进步,还有哪些根本问题有待解决。2.无监督学习的梦想无监督学习仍然是人工智能界追求的目标之一,互联网上有大量有价值的知识和信息。但直到最近,机器学习系统还无法获得这些信息中的大部分。大多数机器学习和深度学习应用程序都是受监督的,这意味着人类必须获取大量数据样本并对每个样本进行注释才能训练机器学习系统。随着大型语言模型的关键组件Transformer架构的出现,这种情况发生了变化。可以使用大量未标记文本来训练Transformer模型。他们随机屏蔽部分文本并尝试预测缺失的部分。通过重复这样做,Transformer调整其参数以表示大序列中不同单词之间的关系。事实证明,这是一种非常有效且可扩展的策略。在没有人工标记的情况下,可以收集非常大的训练语料库,从而可以创建和训练越来越大的Transformer模型。研究和实验表明,Transformer模型和大型语言模型(LLM)在扩展时可以生成更长的连贯文本序列。大型语言模型(LLM)也展示了大规模的应急能力。3.回归监督学习?大型语言模型(LLM)通常只有文本,这意味着它们缺乏他们试图模仿的人类丰富的多感官体验。尽管GPT-3等大型语言模型(LLM)取得了令人印象深刻的结果,但它们存在一些基本缺陷,这些缺陷使它们在需要常识、逻辑、计划、推理和文本中通常忽略的其他知识的任务中不可预测。大型语言模型(LLM)以幻觉响应、生成连贯但实际上是错误的文本以及经常误解用户提示的明显意图而闻名。通过增加模型及其训练语料库的大小,科学家们已经能够降低大型语言模型中出现明显错误的频率。但根本问题并没有消失,即使是最大的大型语言模型(LLM)也会因轻微的推动而犯下愚蠢的错误。如果大型语言模型(LLM)仅用于科学研究实验室以跟踪基准性能,这可能不是一个大问题。然而,随着人们对在实际应用程序中使用大型语言模型(LLM)的兴趣越来越大,解决这些问题和其他问题变得更加重要。工程师必须确保他们的机器学习模型在不同条件下保持稳健并满足用户需求和要求。为了解决这个问题,OpenAI使用了人类反馈强化学习(RLHF),这是一种先前开发的用于优化强化学习模型的技术。人工反馈强化学习(RLHF)不是让强化学习模型随机探索其环境和行为,而是使用来自人类主管的偶尔反馈来引导代理朝着正确的方向前进。人工反馈强化学习(RLHF)的好处在于它可以在最少人工反馈的情况下改进强化学习代理的训练。OpenAI后来将带有人类反馈的强化学习(RLHF)应用于InstructGPT,这是一个大型语言模型(LLM)系列,旨在更好地理解和响应用户提示中的指令。InstructGPT是一个GPT-3模型,它根据人类反馈进行了微调。这显然是一种权衡。人工注释可能成为可扩展训练过程中的瓶颈。但通过在无监督学习和监督学习之间找到适当的平衡,OpenAI能够获得重要的好处,包括更好地响应指令、减少有害输出和资源优化。根据OpenAI的研究结果,13亿参数的InstructionGPT在指令跟随方面普遍优于1750亿参数的GPT-3模型。ChatGPT的训练过程ChatGPT建立在从InstructGPT模型中获得的经验之上。人工注释者创建一组示例对话,其中包括用户提示和模型响应。这些数据用于微调构建ChatGPT的GPT-3.5模型。在下一步中,经过微调的模型会获得新的提示并给出多个响应。注释者对这些响应进行排名。然后使用从这些交互中生成的数据来训练奖励模型,这有助于进一步微调强化学习管道中的大型语言模型(LLM)。OpenAI没有透露强化学习过程的全部细节,但人们很想知道这个过程的“不可扩展成本”,即需要多少人力。4.您可以在多大程度上信任ChatGPT?ChatGPT的结果令人印象深刻。该模型执行了多种任务,包括提供代码反馈、写诗、用不同的语气解释技术概念,以及为生成式AI模型生成提示。然而,该模型也容易出现大型语言模型(LLM)所犯的那种错误,例如引用不存在的论文和书籍、误解直觉物理学以及组合性失败。人们对这些失败并不感到意外。ChatGPT并不神奇,它应该会遇到与其前身相同的问题。然而,在现实世界的应用程序中,它在何处以及在何种程度上可以被信任?显然,这里有一些有价值的内容,正如人们在Codex和GitHubCopilot中看到的那样,大型语言模型(LLM)可以非常有效地使用。在这里,决定ChatGPT是否有用的是使用它实现的工具和保护的种类。例如,ChatGPT可以成为为企业创建聊天机器人的非常好的平台,例如用于编码和图形设计的数字伴侣。首先,如果仿照InstructGPT的例子,应该可以用更少的参数达到复杂模型的性能,性价比高。此外,如果OpenAI提供工具使企业能够实现自己的强化学习与人类反馈(RLHF)的微调,则可以针对特定应用程序进一步优化,这在大多数情况下比聊天机器人更有用,大家可以随意讨论任何事物。最后,如果应用程序开发人员获得了将ChatGPT与应用程序场景集成并将其输入和输出映射到特定于应用程序的事件和操作的工具,他们将能够设置正确的护栏以防止模型采取不稳定的操作。基本上,OpenAI创建了一个功能强大的AI工具,但有明显的缺陷。它现在需要创建合适的开发人员工具生态系统,以确保产品团队能够利用ChatGPT的强大功能。GPT-3为许多不可预测的应用程序开辟了道路,因此看看ChatGPT的内容将会很有趣。原文链接:https://bdtechtalks.com/2022/12/05/openai-chatgpt/
