莆田版GPT-3开源：同款可复现预训练模型GPTNeo

时间：2023-03-21 23:26:11 科技观察

GPT-3开源了吗？EleutherAI推出的开源项目GPT-Neo：公开发布的GPT-3等效递归预训练模型（1.3B&2.7B），可在Colab上微调。...当然这个GPT-3不是那个GPT-3。近日，EleutherAI在GitHub上推出了一个名为GPT-Neo的开源项目：GPT-3等效复现了预训练模型（1.3B&2.7B），并且可以在Colab上进行微调。虽然GPT-Neo的参数和真正的GPT-3相比还是很小的（更大的版本只有GPT-3最小模型的参数那么大），但它是开源免费的，仍然是被“同性朋友”认可！该项目目前在GitHub上有近3k星。EleutherAI还表示，未来将进一步开源10B版本和原尺寸版本的GPT3模型参数。“莆田版”GPT-3上架EleutherAI官网。他们对GPT-Neo的描述是，“基于transformer的语言模型的一系列代号，其风格大致围绕GPT架构。我们计划训练和开源。我们的主要目标是复制GPT-3大小的模型和免费向公众开放源代码。”在此过程中，我们将尝试替代架构和注意力类型，发布任何中间模型，并将任何发现写在我们的博客上。GPT-Neo模型构建在Tensorflow-mesh中，这将允许它们扩展到GPT-3除了使用同步模型和数据并行性。根据EleutherAI的说法，他们已经构建了大部分模型，训练了GPT-2大小的模型，并实现了几个实验架构。当前的代码库应该能够扩展到GPT-3scalemodels.而他们下一步将完成GPT-2规模的模型复制，“到目前为止，我们单步训练得到的最大模型是200B个参数。”GPT3：一般人可以负担得起。6月，OpenAI发表了一篇详细介绍GPT-3的论文，这是一种机器学习模型。在几个自然语言基准测试中取得了很好的结果。在1750亿个参数（模型从历史训练数据中学习的部分）这是一个同类中最大的模型，也是最复杂的模型之一，能够进行原始类比，以某种风格编写，甚至完成基本代码。与GPT-3的前身GPT-2和GPT-1相比，OpenAI选择不开源模型或训练数据集，而是选择通过商业API提供前者。该公司通过选择将GPT-3独家授权给与OpenAI有业务关系的微软，进一步缩小了访问范围。微软已向OpenAI投资10亿美元，并构建了一台Azure托管的超级计算机，旨在进一步推进OpenAI的研究。让我们来看看OpenAI的定价策略。探索版免费探索（敬请期待）：可免费使用3个月，或10万代币，先到者为准，不使用无需占用。创世版（普通用户）：100/月，200万代币/月，超出1k代币按8美分计算；构建版（VIP）：每月400美元，每月1000万个代币，超出的1k代币按6美分计算；规模版（高级版）：如果你是生产级的大规模用户，直接联系官方，会有专人服务。这200万令牌能有多少个字？这大约相当于3000页文本。这个说起来可能不太直白。比如莎士比亚全集大约有90万字，换算成token的话大约有120万字。贫穷使人进（fu）步（ke）。现在，一些人开始在开源中重新创建GPT-3，但目前最受期待的可能是GPT-Neo。关于EleutherAIEleutherAI是一群致力于开源AI研究的基层研究人员。ConnorLeahy、LeoGao和SidBlack于去年11月共同创立并宣布启动GPT-Neo开源项目。该项目基于GPT系列的设计原则，旨在重现GPT系列中的各种项目。其中，Sid是目前世界上最强大的TPU黑客之一。不过，也有人认为这群人炒作太过分了！“据我所知，他们正在大声疾呼，但他们无法兑现。”“例如，他们在OpenAI宣布后几天发布了一个DALL-E存储库，该存储库已损坏，并且由于他们的架构无法扩展，他们已将其GPT-3复制声明恢复到复制1.5B。”项目地址：https://github.com/EleutherAI/gpt-neo

上一篇：比波士顿机器狗多几个轮子瑞士公司研发轮足复合移动机器人

下一篇：微信更新：高价卖微信豆可打赏主播

莆田版GPT-3开源：同款可复现预训练模型GPTNeo相关文章