EleutherAI推出200亿参数的类GPT模型：与GPT-3不同，它是免费开放的

时间：2023-03-12 00:53:02 科技观察

近日，“黑客组织”EleutherAI又迈出了打破OpenAI对GPT-3垄断的关键一步：发布了一个新的200亿参数模型称为“GPT-NeoX-20B”。众所周知，自2020年微软与OpenAI达成独家获取GPT-3源代码的协议后，OpenAI就不再对外开放GPT-3的模型代码（虽然GPT-1和GPT-2仍然是开源项目）。出于对科技巨头霸权的“反抗”，成立了一个由来自各种研究人员、工程师和开发人员的志愿者组成的计算机科学家协会，决心打破微软和OpenAI在大规模NLP模型上的垄断，并取得了不错的成绩。这个协会是：EleutherAI。它以古罗马自由女神Eleutheria的名字命名，流露出对巨人的不屑和反抗。与拥有1750亿个参数的GPT-3相比，GPT-NeoX-20B的参数显然微不足道。但EleutherAI对这个成就感到非常自豪，为什么呢？1EleutherAI的由来首先介绍一下EleutherAI的发展历史。人工智能的威胁是一个老生常谈的问题。霍金曾在《独立报》上这样描述人工智能的威胁：“虽然人工智能的短期影响取决于控制它的人，但长期影响取决于它能否被控制。”EleutherAI的成立始于2020年7月，主要发起人是一群自称自学成才的黑客，主要领导包括ConnorLeahy、LeoGao和SidBlack。当时，微软与OpenAI达成协议，控制对GPT-3的访问。听到风声，一群反叛极客在Discord（社交媒体平台）上说：“让我们给OpenAI上一课吧！”于是他们基于Discord建立了EleutherAI，希望打造一台可以与GPT-3匹敌的计算机。机器学习模型。创始人ConnorLeahy在接受IEEESpectrum采访时表示：“起初它真的只是一个有趣的爱好，但在疫情封锁期间我们没有更好的事情可做，它的吸引力很快变得巨大起来。”“我们将自己视为几十年前经典黑客文化的后代，只是出于好奇和对挑战的热爱，在新领域尝试技术。”Discord服务器现在有大约10,000名成员，但只有大约100或200人经常活跃，有10到20人的团队开发新模型。自成立以来，EleutherAI的研究团队首先开源了包含60亿参数的基于GPT-3的NLP模型GPT-J，并于2021年3月发布了类GPT的27亿参数模型GPT-Neo，可以说是在不断壮大迅速。今年2月9日，他们与CoreWeave合作发布了GPT-Neo的升级版——GPT-NeoX-20B。官方代码地址如下，目前已经可以在天眼之眼公开下载了。代码地址：https://mystic.the-eye.eu/public/AI/models/GPT-NeoX-20B/也是目前最大的可公开访问的预训练通用自回归语言模型。在公告中，Leahy特别指出了“标准语言建模任务的准确性”和“HendrycksTest评估衡量的主题组事实知识的零样本准确性”：2GPT-NeoX-20B的优势：免费开放简单来说，GPT-NeoX-20B是一个200亿参数、预训练、通用、自回归的大规模语言模型。如果你不知道它是什么，想想OpenAI的GPT-3，近两年前震惊世界的大规模语言模型，具有广泛的语言能力，包括编写计算机代码、创作诗歌、生成风格独特的权威声音。甚至给它一个标题或一句话，它也可以生成一篇文章，因为它可以根据极少的输入信息“创造”自己，它创造的东西既能理解文字，又能理解意思。（题外话：像漫威的低配版贾维斯）必须承认，OpenAI的模型比EleutherAI的要大，有1750亿个参数（在模型内部编码信息的节点或数字）。参数越多，模型吸收的信息越多，越详细，模型越“聪明”。但EleutherAI是世界上同类模型中规模最大、性能最好的，并且可以免费公开获取。“我们希望更多的安全研究人员能够使用这项技术，”Leahy说。此外，EleutherAI与OpenAI的不同之处在于训练大规模模型所需的计算能力。OpenAI在未知数量的NvidiaV100TensorCoreGPU上训练GPT-3。从那时起，OpenAI合作伙伴微软开发了一个用于大规模模型训练的单一系统，每个GPU服务器拥有超过285,000个CPU内核、10,000个GPU和每秒400GB的网络连接。这并没有阻止EleutherAI努力对抗GPT-3的垄断。他们最初使用谷歌提供的硬件作为其TPU研究云计划的一部分构建了GPT-J，这是一个具有60亿个参数的大型语言模型。对于GPT-NeoX-20B，该团队获得了CoreWeave的帮助，CoreWeave是一家专门从事基于GPU的工作负载的云服务提供商。OpenAI虽然号称是人工智能非营利组织，但目前来看，其本质仍然是科技公司开发的私有模型。EleutherAI的数学家和人工智能研究员StellaBiderman告诉IEEESpectrum：“这些专有模型限制了像我们这样的独立研究人员的权威，如果我们不了解它是如何工作的，科学家、伦理学家和整个社会都无法了解它。这项技术应该如何融入我们的生活，以进行必要的对话。”EleutherAI的工作推动了大型语言模型的可解释性、安全性和伦理学方面的研究，得到了外界的认可。机器学习安全领域的领军人物NicholasCarlini在最近的一篇论文中表示：“我们的研究如果没有EleutherAI的ThePile数据集及其GPT-Neo系列模型的完整公开发布，这是不可能的。”Pile数据集是一个825GB的英文文本语料库，用于训练大规模语言模型。3开放模型访问是必要条件对于AI的发展，马斯克不止一次表达过人工智能优于人类的观点，他认为人类是碳基生物，有自己的上限，人类进化的速度显然没有人工智能快，所以人工智能迟早会超越人类，这是AI最大的潜在威胁。OpenAI也是他和其他科技大佬共同创立的b考虑到这一点。Leahy认为，AI最大的风险不是有人用它来作恶，而是建立一个非常强大的AI系统，没人知道如何控制。“我们必须将AI视为与我们不同的奇怪外星人，”他说，并补充说，“AI擅长优化目标，但给定一个愚蠢的目标，结果可能无法预测。他担心研究人员在创造越来越强大的人工智能的竞赛中会变得过于自信，从而在这个过程中偷工减料。“实际上，任何志同道合的计算机科学家都可以构建大型语言模型，但很难获得合适的硬件来训练大型语言模型，因为这需要非常高的资金投入，而如今只有几百家公司拥有这种硬件.“我们需要研究这些系统，以了解我们如何控制它们。”EleutherAI的创建是为了让有兴趣的人通过使这种规模的模型易于访问来进一步研究人工智能系统的安全使用。相对于OpenAI，“开放”可能不仅是对金钱开放，对吧？

上一篇：UsingSwiftwithCocoaandObjective-C(Swift2.0中文版)

下一篇：2022第十七届中国企业年终评选榜单揭晓：MacroCosm27000万向分布式存储荣获2022中国IT行业超大规模分布式存储优秀产品奖

EleutherAI推出200亿参数的类GPT模型：与GPT-3不同，它是免费开放的相关文章