当前位置: 首页 > 科技观察

莆田版GPT-3开源:同款可复现预训练模型GPTNeo

时间:2023-03-21 23:26:11 科技观察

GPT-3开源了吗?EleutherAI推出的开源项目GPT-Neo:公开发布的GPT-3等效递归预训练模型(1.3B&2.7B),可在Colab上微调。...当然这个GPT-3不是那个GPT-3。近日,EleutherAI在GitHub上推出了一个名为GPT-Neo的开源项目:GPT-3等效复现了预训练模型(1.3B&2.7B),并且可以在Colab上进行微调。虽然GPT-Neo的参数和真正的GPT-3相比还是很小的(更大的版本只有GPT-3最小模型的参数那么大),但它是开源免费的,仍然是被“同性朋友”认可!该项目目前在GitHub上有近3k星。EleutherAI还表示,未来将进一步开源10B版本和原尺寸版本的GPT3模型参数。“莆田版”GPT-3上架EleutherAI官网。他们对GPT-Neo的描述是,“基于transformer的语言模型的一系列代号,其风格大致围绕GPT架构。我们计划训练和开源。我们的主要目标是复制GPT-3大小的模型和免费向公众开放源代码。”在此过程中,我们将尝试替代架构和注意力类型,发布任何中间模型,并将任何发现写在我们的博客上。GPT-Neo模型构建在Tensorflow-mesh中,这将允许它们扩展到GPT-3除了使用同步模型和数据并行性。根据EleutherAI的说法,他们已经构建了大部分模型,训练了GPT-2大小的模型,并实现了几个实验架构。当前的代码库应该能够扩展到GPT-3scalemodels.而他们下一步将完成GPT-2规模的模型复制,“到目前为止,我们单步训练得到的最大模型是200B个参数。”GPT3:一般人可以负担得起。6月,OpenAI发表了一篇详细介绍GPT-3的论文,这是一种机器学习模型。在几个自然语言基准测试中取得了很好的结果。在1750亿个参数(模型从历史训练数据中学习的部分)这是一个同类中最大的模型,也是最复杂的模型之一,能够进行原始类比,以某种风格编写,甚至完成基本代码。与GPT-3的前身GPT-2和GPT-1相比,OpenAI选择不开源模型或训练数据集,而是选择通过商业API提供前者。该公司通过选择将GPT-3独家授权给与OpenAI有业务关系的微软,进一步缩小了访问范围。微软已向OpenAI投资10亿美元,并构建了一台Azure托管的超级计算机,旨在进一步推进OpenAI的研究。让我们来看看OpenAI的定价策略。探索版免费探索(敬请期待):可免费使用3个月,或10万代币,先到者为准,不使用无需占用。创世版(普通用户):100/月,200万代币/月,超出1k代币按8美分计算;构建版(VIP):每月400美元,每月1000万个代币,超出的1k代币按6美分计算;规模版(高级版):如果你是生产级的大规模用户,直接联系官方,会有专人服务。这200万令牌能有多少个字?这大约相当于3000页文本。这个说起来可能不太直白。比如莎士比亚全集大约有90万字,换算成token的话大约有120万字。贫穷使人进(fu)步(ke)。现在,一些人开始在开源中重新创建GPT-3,但目前最受期待的可能是GPT-Neo。关于EleutherAIEleutherAI是一群致力于开源AI研究的基层研究人员。ConnorLeahy、LeoGao和SidBlack于去年11月共同创立并宣布启动GPT-Neo开源项目。该项目基于GPT系列的设计原则,旨在重现GPT系列中的各种项目。其中,Sid是目前世界上最强大的TPU黑客之一。不过,也有人认为这群人炒作太过分了!“据我所知,他们正在大声疾呼,但他们无法兑现。”“例如,他们在OpenAI宣布后几天发布了一个DALL-E存储库,该存储库已损坏,并且由于他们的架构无法扩展,他们已将其GPT-3复制声明恢复到复制1.5B。”项目地址:https://github.com/EleutherAI/gpt-neo