GPT-4参数将达到10兆字节!该表预测新语言模型的参数将是GPT-3部分的57倍。总的来说,在NLP领域,参数个数和复杂度呈正相关关系。OpenAI的GPT-3是迄今为止最大的语言模型之一,拥有1750亿个参数。那么,GPT-4会是什么样子?近日,有网友对GTP-4及其“开源版”GPT-NeoX进行了大胆预测。作者认为,GPT-4的参数可能会达到10T,是目前GPT-3模型的57倍以上,而GPT-NeoX的规模可以与GPT-3持平。等等,这样的话,程序员是不是可以愉快的在GPT-NeoX上调参数了?模型发布时间令牌参数百分比1.75T训练文本GPT-2(OpenAI)Feb201910B1.5B0.09%40GBGPT-J(EleutherAI)Jun2021400B6B0.34%800GBGPT-3(OpenAI)2020年5月499B175B10.00%570GBPanGu(中文)2021年4月40B200B11.43%1.1TBHyperCLOVA(韩语)2021年5月560B204B11.66%1TB?无道2.0(中文)2021年6月500B?1.75T100.00%2.4TBLaMDA(谷歌)2021年6月1T?200B?11.43%1TB?GPT-4(OpenAI)TBA20T?10吨?571.43%5TB?GPT-NeoX(EleutherAI)TBA500B?175B?分析最广泛使用的GPT-3训练语料来自大规模结构化文本所有数据集都经过索引、排序、过滤和加权,并广泛删除重复项。GPT-3在世界上最强大的超级计算机之一上接受训练,该超级计算机专为Openai开发并由MicrosoftAzure托管。超算系统拥有28.5万多个CPU核心,1万多个GPU,运行速度达400Gbps。GPT-3WikipediaDataSet是来自维基百科的英文内容。由于其质量、写作风格和广度,它是用于语言建模的高质量文本的标准来源。WebText数据集(以及扩展版WebText2)是来自Reddit出站的超过4500万个网页的文本,相关帖子将有超过2倍的支持率(upvotes)。每月活跃用户超过4.3亿,数据集中的内容可以被认为是最“流行”网站的视图。Books1和Books2是两个基于互联网的图书数据集。类似的数据集包括:BookCorpus,一个由未出版作者撰写的免费小说书籍集合,包含至少10,000本书。LibraryGenesis(Libgen),大量的科学论文、小说和非小说类书籍。CommonCrawl是一个开放数据平台,包含超过50亿个网页的元数据和提取文本的开源存档:八年PB数据(数千TB、数百万GB)。25B网站。数万亿个链接。75%英文,3%中文,2.5%西班牙文,2.5%德文等。前10个域名的内容:Facebook、Google、Twitter、Youtube、Instagram、LinkedIn。GPT-3使用的数据集GPT-Neo和GPT-J今年3月,EleutherAI在GitHub上推出了GPT-Neo开源项目,可以在Colab上进行微调。虽然GPT-Neo的参数与GPT-3(1.3B和2.7B)相比仍然很小,但它是开源免费的,仍然得到“同性朋友”的认可。今年6月,EleutherAI再次推出了GPT-J-6B,可以说是GPT-Neo的增强版。顾名思义,模型的参数数量增加到了6B。GPT-J还在ThePile数据库上接受了训练——一个825GB的多样化开源语言建模数据集,由22个较小的高质量数据集组成。除了专业的论坛和知识库,如HackerNews、Github和StackExchange,ThePile还包括Youtube等字幕,甚至还有EnronEmails语料库,此外还有论文预印本网站ArXiv。GPT-Neo和GPT-J使用的数据集是在零样本任务上。GPT-J的性能与具有67亿个参数的GPT-3相当。最佳表演者。从这个角度来看,我们确实可以期待GPT-NeoX在与GPT-3同等规模的表现。网友评论GPT-4为什么这么大?“GPT-3已经接近每个代币的理论最大效率。如果OpenAI模型正常工作,更大的模型只是浪费计算能力。”有网友回复:“规模确实可以带来提升。因为它本质上是一种关系隐喻模型,所以‘多了解关系’意味着能够对更多事物或以更细微的方式做出反应。当然,这也是一种营销方式”
