全球最大芯片解锁“人脑级”AI模型,1.63亿个集群顶层核心训练超120万亿参数规模。相比之下,人脑大约有100万亿个突触。此外,Cerebras还实现了192台CS-2AI计算机的近线性扩容,打造了高达1.63亿核的计算集群。Cerebras成立于2016年,迄今在14个国家拥有350多名工程师。Cerebras推出的全球最大计算芯片WSE和WSE-2曾震惊业界。采用7nm工艺,WSE-2是一颗面积为46225平方毫米的单晶圆级芯片。它拥有2.6万亿个晶体管和850,000个AI优化内核。强大的GPU。WSE-2集成在CerebrasCS-2AI计算机中。随着近年来业界超大规模AI模型参数量超过1万亿,小型集群难以支撑单个模型的高速训练。Cerebras公布的最新成果将单台CS-2机器可支持的神经网络参数规模扩大到现有最大模型的100倍——达到120万亿个参数。在国际顶级芯片架构大会HotChips上,Cerebras联合创始人兼首席硬件架构师SeanLie详细展示了实现这一突破的新技术组合,包括4项创新:(1)CerebrasWeightStreaming:一种全新的软件执行架构首次实现了在片外存储模型参数的能力,同时提供片上训练和推理性能。这种新的执行模型分解了计算和参数存储,使得集群规模和速度的扩展更加独立灵活,消除了大型集群经常面临的延迟和内存带宽问题,大大简化了工作负载分配模型,使用户不需要更改软件,您可以从使用1个CS-2扩展到192个CS-2。(2)CerebrasMemoryX:一种内存扩展技术,为WSE-2提供高达2.4PB的片外高性能存储,可以保持相当的片上性能。借助MemoryX,CS-2可以支持多达120万亿个参数的模型。(3)CerebrasSwarmX:是一种高性能、AI优化的通信结构,将片上结构扩展到片外,使Cerebras能够连接192个CS-2的多达1.63亿个AI优化核心并协同工作训练单个神经网络。(4)SelectableSparsity:一种动态稀疏度选择技术,使用户能够选择模型中的权重稀疏程度,直接减少FLOPs和求解时间。权重稀疏性在机器学习研究中一直具有挑战性,因为它在GPU上的效率极低。该技术使CS-2能够使用各种可用的稀疏性类型(包括非结构化和动态权重稀疏性)更快地工作并在更短的时间内生成答案。Cerebras首席执行官兼联合创始人安德鲁·费尔德曼(AndrewFeldman)表示,这推动了行业向前发展。阿贡国家实验室副主任里克史蒂文斯也肯定了这项发明,认为这将是我们第一次可以探索脑尺度模型,为研究和洞察开辟广阔的新途径。1.WeightStreaming:存储和计算分离,实现模型参数的片外存储使用大型集群解决AI问题的最大挑战之一是针对特定神经网络设置、配置和优化它们所需的复杂性和时间网络。软件执行架构CerebrasWeightStreaming可以降低集群系统的编程难度。WeightStreaming建立在WSE超大尺寸的基础上,其计算和参数存储是完全分离的。结合最高配置2.4PB的存储设备MemoryX,单台CS-2可以支持运行120万亿参数的模型。参与测试的120万亿参数神经网络由Cerebras内部开发,并非公开发布的神经网络。在WeightStreaming中,模型权重存储在中央芯片外存储位置,并流式传输到晶圆以用于计算神经网络的每一层。在神经网络训练的增量通道上,梯度从晶圆流式传输到中央存储区域MemoryX,用于更新权重。与具有少量片上内存并需要跨多个芯片划分大型模型的GPU不同,WSE-2足够大以容纳和执行非常大规模的层,而无需传统的块或分区来分解它们。这种无需分区即可将每个模型层都放入片上存储器的能力可以赋予相同的神经网络工作负载图,并独立于集群中的所有其他CS-2在每个层上执行相同的计算。这样做的好处是,用户可以轻松地将他们的模型从在单个CS-2上运行扩展到任何规模的集群,而无需进行任何软件更改。也就是说,要在大型CS-2系统集群上运行AI模型,编程与在单个CS-2上运行模型是一样的。CambrianAI创始人兼首席分析师KarlFreund评论道:“WeightStreaming的执行模型非常简单优雅,允许在CS-2集群令人难以置信的计算资源上进行更简单的工作分配。通过WeightStreaming,Cerebras消除了所有复杂性我们今天面临的是建设和高效利用巨大的集群,推动行业向前发展,我认为这将是一次变革之旅。”2.MemoryX:用100万亿实现万亿参数模型参数的脑尺度AI模型大约需要2PB的内存来存储,如前所述,模型参数可以片外存储,高效流式传输到CS-2来实现性能接近片上。存储神经网络参数权重的关键设施是CerebrasMemoryX。MemoryX是DRAM和Flash的组合,专门设计用于支持大型神经网络的运行,同时还包含精确调度和执行权重的智能其架构可扩展,支持从4TB到2.4PB的配置,参数规模从2000亿到120万亿3.SwarmX:近乎线性的扩展性能,支持192个CS-2互连尽管一台CS-2机器可以存储所有参数对于给定的层,Cerebras还提出了使用高性能互连结构技术SwarmX来实现数据并行。该技术扩展了通过将Cerebras的片上结构扩展到片外来划分AI集群的边界。从历史上看,更大的AI集群会带来显着的性能和功耗损失。在计算中,性能呈次线性增长,而功耗和成本呈超线性增长。随着越来越多的GPU添加到集群中,每个处理器对解决问题的贡献越来越小。SwarmX结构同时进行通信和计算,使集群能够实现近线性的性能扩展。这意味着当扩展到16个系统时,训练神经网络的速度快了近16倍。它的结构独立于MemoryX进行扩展,每个MemoryX单元可用于任意数量的CS-2。在这种完全分离的模式下,SwarmX架构支持从2个CS-2扩展到最多192个。由于每个CS-2提供85万个AI优化核心,因此最多可支持1.63亿个AI优化核心。簇。费尔德曼说,CS-2的利用率要高得多。其他方法的利用率在10%到20%之间,而Cerebras在最大网络上的利用率在70%到80%之间。“如今,每个CS2都可以替换数百个GPU,而我们现在可以使用集群方法替换数千个GPU。》4.可选择的稀疏性:动态稀疏性提高计算效率稀疏性对于提高计算效率至关重要。随着AI社区努力应对指数级增长的大型模型训练成本,稀疏性和其他算法技术被用于减少对计算效率的需求。训练模型作为最高级精度所需的计算FLOP变得越来越重要,现有的稀疏性研究带来了10倍的速度提升,为了加速训练,Cerebras提出了一种新的稀疏方法SelectableSparsity来减少CerebrasWSE基于细粒度数据流架构,专为稀疏计算而设计,其850,000个AI优化核心可以单独忽略0,只计算非零数据。这对于其他架构来说是不可能的。在神经网络中,有很多种稀疏性。稀疏性可以存在于激活中和参数,可以是结构化的或非结构化的。Cerebras架构特定的数据流调度和巨大的内存带宽,使这种细粒度的处理能够加速所有形式的稀疏性,例如动态稀疏性、非结构化稀疏性等。因此,CS-2可以选择并拨入稀疏性以产生特定程度的FLOP减少,从而减少响应时间。结论:新技术的组合使集群扩展变得不复杂大型集群历来受到设置和配置挑战的困扰,并且需要更多时间来准备和优化神经网络以在大型GPU集群上运行。为了在GPU集群上实现合理利用,研究人员通常需要手动对模型进行分区、管理内存大小和带宽限制,并执行额外的超参数和优化器调优等复杂且重复的操作。通过结合WeightStreaming、MemoryX和SwarmX等技术,Cerebras简化了大规模集群的构建过程。它开发了一个完全不同的架构,完全消除了缩放的复杂性。因为WSE-2足够大,不需要在多个CS-2上划分神经网络的层,即使是当今最大的网络层也可以映射到单个CS-2上。Cerebras集群中的每台CS-2计算机都将具有相同的软件配置,添加另一台CS-2几乎不会改变任何工作的执行。因此,在数十个CS-2上,在-2上运行神经网络对研究人员来说与在单个系统上运行它是一样的,而设置集群就像为单个机器编译工作负载并将相同的映射应用于所需集群大小的所有机器。总体而言,Cerebras的新技术组合旨在加速超大规模AI模型的运行。不过,从目前的人工智能发展进程来看,预计全球范围内能够使用这套集群系统的机构数量还是非常有限的。
