单机训练200亿参数大模型:Cerebras打破智能模型新纪录。由Cerebras训练的AI模型已经达到了前所未有的200亿个参数,所有这些都没有跨多个加速器扩展工作负载。这项工作足以满足目前互联网上最流行的文本转图像AI生成模型——OpenAI的120亿参数大模型DALL-E。Cerebras新工作最重要的方面之一是降低基础设施和软件复杂性要求。该公司提供的芯片WaferScaleEngine-2(WSE2),顾名思义,是蚀刻在单个台积电7纳米工艺晶圆上的,通常大到足以容纳数百个主流芯片——拥有惊人的2.6万亿个晶体管,85万个AI计算核心和40GB集成缓存,整机功耗高达15kW。WaferScaleEngine-2,接近晶圆大小,面积比iPad还大。尽管Cerebras的单机规模已经与超算相仿,但单芯片保留多达200亿参数的NLP模型仍然显着降低了数千个GPU的训练成本,以及相关的硬件和扩展需求,同时消除了在它们之间拆分模型的技术难度。后者是“NLP工作负载中最痛苦的方面之一”,有时“需要数月才能完成,”Cerebras说。这是一个定制问题,不仅对于每个正在处理的神经网络都是独一无二的,而且对于每个GPU的规格以及将它们连接在一起的网络也是如此——这些元素必须在第一次训练开始之前设置好,而且不可移植跨系统。Cerebras的CS-2是一个独立的超级计算集群,包括WaferScaleEngine-2芯片以及所有相关的电源、内存和存储子系统。200亿参数的大概水平是多少?在人工智能领域,大规模预训练模型是近期各个科技公司和机构努力发展的方向。OpenAI的GPT-3是一种NLP模型,可以写出足以欺骗人类读者的整篇文章。数学运算和翻译,具有惊人的1750亿个参数。DeepMind去年底推出的Gopher将参数数量的记录提高到2800亿。最近,GoogleBrain甚至宣布已经训练出超过万亿参数的模型SwitchTransformer。“在NLP中,更大的模型已被证明可以更好地工作。传统上,只有少数公司拥有资源和专业知识将这些大型模型分解成数百或数千个图形处理单元的辛勤工作,”Cerebras首席执行官说和联合创始人安德鲁费尔德曼。“因此,很少有公司能够训练大型NLP模型——这对其他行业来说太昂贵、太耗时,而且无法使用。”现在,Cerebras的方法可以减少GPT-3XL1.3B、GPT-J6B、GPT-313B和GPT-NeoX20B模型,使整个AI生态系统能够在几分钟内构建大型模型并在单个CS-2上进行训练系统。然而,就像旗舰CPU的时钟速度一样,参数大小只是大型模型性能的一个指标。最近,一些研究在减少参数的前提下取得了较好的效果。比如今年4月DeepMind提出的Chinchilla,在正常情况下仅用700亿个参数就超越了GPT-3和Gopher。这类研究的目标当然是更聪明地工作,而不是更努力地工作。因此,Cerebras的成就比人们乍看之下更重要——该公司表示,这项研究让我们相信,现有的芯片工艺水平可以容纳越来越复杂的模型,以特殊芯片为核心的系统支持“数千亿”甚至万亿参数”的模型能力。单芯片上可训练参数数量的爆炸式增长依赖于Cerebras的WeightStreaming技术。该技术将计算和内存占用空间分开,允许内存根据AI工作负载中快速增长的参数量扩展到任意数量级。这将设置时间从几个月缩短到几分钟,并允许在GPT-J和GPT-Neo等模型之间切换。正如研究人员所说:“只需敲击几下键盘。”“Cerebras为人们提供了以低成本和便捷的方式运行大型语言模型的能力,开启了令人兴奋的人工智能新时代。花费数千万美元的组织提供了一种简单而廉价的方式来参与大型竞争。模特比赛,”Intersect♂研究公司的首席研究官DanOlds说。“我们非常期待CS-2客户在海量数据集上训练GPT-3和GPT-J级模型时的新应用和发现。”
