当前位置: 首页 > 科技观察

全球最大AI芯片打破单机大模型训练记录,Cerebras要“干掉”GPU_0

时间:2023-03-20 23:45:50 科技观察

以打造全球最大加速器芯片CS-2WaferScaleEngine而闻名的Cerebras昨日宣布,他们在使用“巨核”进行人工智能训练方面迈出了重要一步.该公司在单芯片上训练了世界上最大的NLP(自然语言处理)AI模型。该模型有20亿个参数,并在CS-2芯片上进行训练。全球最大的加速器芯片采用7nm制程工艺,由一整块方形晶圆蚀刻而成。体积是主流芯片的数百倍,功率为15KW。它集成了2.6万亿个7nm晶体管,包含850,000个内核和40GB内存。图1CS-2WaferScaleEngine芯片单芯片训练AI大模型新纪录NLP模型的开发是人工智能的一个重要领域。利用NLP模型,人工智能可以“理解”文本的含义并采取相应的行动。OpenAI的DALL.E模型就是一个典型的NLP模型。该模型可以将用户输入的文本信息转换为图像输出。例如,当用户输入“anarmchairinshapeofavocado”时,AI会自动生成对应这句话的几张图片。图:AI接收信息后生成的“鳄梨形扶手椅”图片不止于此。该模型还可以使人工智能理解复杂的知识,如物种、几何形状和历史时代。但是要实现这一切并不容易。传统的NLP模型开发具有极高的算力成本和技术门槛。事实上,如果只讨论数字,Cerebras开发的模型的20亿个参数与同行相比有点不起眼。前面提到的DALL.E模型有120亿个参数,最大的模型是DeepMind去年底推出的Gopher,有2800亿个参数。但除了惊人的数字,Cerebras开发的NLP还有一个巨大的突破:它降低了开发NLP模型的难度。“巨核”如何打败GPU?按照传统流程,开发NLP模型需要开发人员将庞大的NLP模型分成几个功能部分,并将其工作负载分配给数百或数千个图形处理单元。数百个图形处理单元对制造商来说意味着巨大的成本。技术难关也让厂商苦不堪言。切片模型是定制的问题,每个神经网络、每个GPU以及将它们连接(或互连)在一起的网络的规格都是唯一的,不能跨系统移植。供应商必须在第一次培训课程之前考虑这些因素。这项工作极其复杂,有时需要数月才能完成。Cerebras表示,这是训练NLP模型“最痛苦的方面之一”。只有少数公司拥有开发NLP所需的资源和专业知识。对于AI行业的其他公司来说,NLP训练太贵、太费时、不能用。但如果单颗芯片能够支持一个20亿参数的模型,就意味着不需要用海量的GPU来分散训练模型的工作量。这可以为制造商节省数以千计的GPU培训成本以及相关的硬件和扩展需求。它还使供应商不必经历分割模型并将其工作负载分布在数千个GPU上的痛苦。Cerebras不仅仅痴迷于数字。评价一个模型的好坏,参数的多少并不是唯一的标准。相比诞生于“巨核”的模型的“辛苦”,Cerebras更希望模型是“聪明的”。Cerebras之所以能够在参数数量上实现爆发式增长,是因为使用了权重流技术。这种技术分离了计算和内存占用空间,并允许内存扩展到足以存储任何数量的AI工作负载增加的参数。由于这一突破,建立模型的时间从几个月缩短到几分钟。并且开发人员可以“只需敲几下键盘”就可以在GPT-J和GPT-Neo等模型之间切换。这使得NLP开发变得更加容易。这使得NLP领域发生了新的变化。正如Intersect360Research首席研究官DanOlds对Cerebras成就的评价:“Cerebras能够以经济高效且易于访问的方式将大型语言模型带给大众,为人工智能开辟了一个激动人心的新时代。”