OpenAI的使命是确保通用人工智能(AGI)造福全人类。因此,我们对我们在AGI旅程中构建的AI系统的行为以及决定该行为的方式进行了大量思考。自从我们推出ChatGPT以来,用户分享了他们认为带有政治偏见或其他令人反感的输出。在许多情况下,我们相信您提出的担忧是合理的,并且揭示了我们系统中的真正局限性,我们希望解决这些局限性。但与此同时,我们也看到了关于我们的系统和政策如何共同塑造ChatGPT输出的误解。博客的要点总结如下:ChatGPT的行为是如何形成的;我们计划如何改进ChatGPT的默认行为;我们希望允许更多的系统定制;我们将努力就我们的决定征求更多公众的意见。我们的第一个任务不同于普通的软件,我们的模型是大规模的神经网络。他们的行为是从大量数据中学习的,而不是明确编程的。打个不恰当的比方,这个过程比起普通的编程更像是训练一只狗。首先,模型会经历一个“预训练”阶段。在此阶段,模型通过接触大量互联网文本(以及大量意见)来学习预测句子中的下一个词。接下来是第二阶段,我们“微调”模型以缩小系统的行为范围。截至目前,该过程并不完善。有时,微调过程达不到我们的意图(生成安全、有用的工具)和用户的意图(获得有用的输出以响应给定的输入)。随着AI系统变得越来越强大,改进我们使AI系统与人类价值观保持一致的方法已成为我们公司的首要任务。两个主要步骤:预训练和微调构建ChatGPT的两个主要步骤如下:首先,我们“预训练”模型,要求它们预测包含部分互联网的大型数据集的下一步。他们可能会学习完成句子“她没有向左转,而是转向了__”。通过从数十亿个句子中学习,我们的模型掌握了语法、关于世界的许多事实和一些推理能力。他们还了解了那数十亿个句子中存在的一些偏见。然后,我们在更窄的数据集上“微调”这些模型,该数据集由人工审阅者按照我们提供的指南制作。由于我们无法预测用户将来可能输入我们系统的所有信息,因此我们没有为ChatGPT将遇到的每一个输入编写详细说明。相反,我们在指南中概述了几个类别,我们的审阅者使用这些类别来审阅和评估一系列示例输入的可能模型输出。然后,在使用过程中,该模型根据评论者的反馈进行概括,以响应特定用户提供的各种特定输入。审阅者的角色和OpenAI在系统开发中的政策在某些情况下,我们可能会就某些类型的输出向审阅者提供指导(例如,“不要完成对非法内容的请求”)。在其他情况下,我们与审稿人分享的指导是更高级别的(例如,“避免在有争议的话题上偏袒任何一方”)。重要的是,我们与审稿人的接触不是一次性的,而是一种持续的关系。在这种关系中,我们从他们的专业知识中学到了很多东西。微调过程的很大一部分是与我们的审阅者保持强大的反馈循环,这涉及每周一次的会议来解决他们可能遇到的问题,或为我们的指南提供进一步的说明。这种迭代反馈过程是我们如何训练我们的模型随着时间的推移变得越来越好。解决偏见长期以来,偏见一直是人工智能系统的一个问题,许多研究人员对此表示担忧。我们坚定地致力于解决这个问题,并公开我们的意图和进展。为了体现行动上的实际进展,我们在这里分享一些与政治和争议相关的话题的指导。指南明确指出审稿人不应偏袒任何政治团体。尽管如此,偏见还是会出现。指南地址:https://cdn.openai.com/snapshot-of-chatgpt-model-behavior-guidelines.pdf虽然差异总是存在的,但我们希望通过这篇博客和一些指南,让您更深入地了解我们是谁是如何处理偏见。我们坚信,科技公司必须负责任地制定经得起审查的政策。我们一直在努力提高这些指南的清晰度,并且根据我们迄今为止从ChatGPT版本中学到的知识,我们将让审阅者更清楚地了解与偏见相关的潜在陷阱和挑战,以及有争议的数据和主题。阐明。此外,作为正在进行的透明度计划的一部分,我们正在努力以不违反隐私规则和规范的方式共享有关评论者的汇总统计数据,因为这是系统输出中潜在偏见的另一个来源。基于规则奖励和宪法AI等进步,我们目前正在研究如何使微调过程更易于理解和控制。未来方向:系统构建模块为实现我们的使命,我们致力于确保AI和AGI对更广泛的人群可用并有益。我们认为,要实现这些目标,至少需要三个构建块1.改进默认行为:我们希望AI系统开箱即用,让尽可能多的用户发现我们的AI系统实际上很有用,并觉得我们的技术理解并使用它们。尊重他们的价值观。为此,我们对研究和工程进行了投资,以减少ChatGPT在响应不同输入时产生的细微偏差。在某些情况下,ChatGPT拒绝输出它应该输出的内容,而在某些情况下,它会反其道而行之,输出它不应该输出的内容。我们相信ChatGPT在这两个方面都有改进的潜力。此外,我们的AI系统在其他方面还有改进的空间,例如系统经常“编造东西”,对于这个问题,用户的反馈对于改进ChatGPT非常宝贵。2.广泛定义AI价值:我们认为AI应该是一种对个人有用的工具,这样每个用户都可以在一定限制的情况下自定义其使用。基于此,我们正在开发ChatGPT的升级版,以允许用户轻松自定义其行为。这也意味着一些人强烈反对的输出对其他人来说是可见的。实现这种平衡是一个巨大的挑战,因为极端定制可能会导致恶意使用我们的技术并盲目放大AI的性能。因此,系统的行为总会有一些限制。挑战在于定义这些边界是什么。如果我们试图自己做出所有这些决定,或者如果我们试图开发一个单一的、整体的人工智能系统,我们将无法实现避免权力过度集中的承诺。3.公共输入(默认和硬边界):避免权力过度集中的一种方法是让那些使用ChatGPT等系统或受其影响的人能够反过来影响系统规则。我们认为默认值和硬边界应该集中完成,虽然实施起来很困难,但我们的目标是包含尽可能多的观点。作为起点,我们以“红队”的形式寻求外部对我们技术的投入。我们最近还开始征求公众对人工智能教育的意见(我们正在部署的一个特别重要的环境)。结论结合上面的三个构建块,我们可以得出以下框架。有时我们会犯错,但当我们犯错时,我们会学习并迭代模型和系统。此外,我们要感谢ChatGPT用户和其他人让我们负责并保持警惕,我们很高兴在未来几个月内分享更多关于我们在上述三个领域的工作。
