当前位置: 首页 > 科技观察

微软英伟达发布5300亿NLP模型“Megatron-Turing”,售价4480A100

时间:2023-03-16 13:59:58 科技观察

本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。5300亿个参数!世界上最大的NLP模型诞生了。由微软和英伟达推出,称为威震天-图灵自然语言生成模型(MegatronTuring-NLG)。按照他们的说法,这个量级不仅使它成为世界上最大的,而且也是最强大的NLP模型。训练过程中总共使用了4,480块NvidiaA100GPU,最终使模型在文本预测、阅读理解、常识推理、自然语言推理、词义消歧等一系列自然语言任务中取得了前所未有的准确率..该模型是GPT-3的三倍大小,简称为MT-NLG,是MicrosoftTuringNLG和NVIDIAMegatron-LM的“继任者”。图灵NLG于2020年2月由微软推出,参数为170亿;Megatron-LM来自英伟达,于2019年8月推出,参数83亿。它们是当时第一个和第二个大规模的Transformer架构模型。我们都知道参数规模大的语言模型性能会更好,但是训练起来也非常具有挑战性,例如:即使是最大容量的GPU也无法存储如此大规模的参数;如果不特别注意优化算法、软硬件堆栈,所需的大量计算操作会导致训练时间过长。那么参数是GPT-3三倍的MT-NLG是如何解决的呢?答案是取长补短,取长补短,整合NVIDIA最先进的GPU加速训练设备和微软最先进的分布式学习系统,提高训练速度。并使用千亿代币构建语料库,共同开发训练方法,优化效率和稳定性。具体来说,利用NVIDIAMegatron-LM模型的GPU并行处理和微软开源的分布式训练框架DeepSpeed,创建了一个3D并行系统。对于本文5300亿参数的模型,每个模型副本跨越280个NVIDIAA100GPU,节点采用Megatron-LM的8-waytensor-slicing,采用35-waypipelineparallelism(流水线并行)节点之间。).然后使用DeepSpeed的数据并行性进一步扩展到数千个GPU。最后在基于NVIDIADGXSuperPOD的Selene超级计算机上完成混合精度训练。(超级计算机由560台DGXA100服务器提供支持,每台DGXA100有8个NVIDIAA10080GBTensorCoreGPU,通过NVLink和NVSwitch相互完全连接)。该模型采用了Transformerdecoder的架构,层数、隐藏维度和attentionhead分别为105、20480和128。训练使用的数据集包括Books3,近20万本书的纯文本数据集,问答网站StackExchange,维基百科,学术资源网站PubMedAbstracts,ArXiv,维基百科,GitHub等,均有来自他们之前构建的Pile数据。集中挑选出较高质量的子集。最终一共提取了2700亿个代币。五大任务精度测试开发者测试了MT-NLG在以下五大任务上的精度。在文本预测任务LAMBADA中,模型需要预测给定段落的最后一个单词。在阅读理解任务RACE-h和BoolQ中,模型需要根据给定的段落生成问题的答案。在常识推理任务PiQA、HellaSwag和Winogrande中,每个任务都要求模型具有一定程度的常识理解。对于自然语言推理,ANLI-R2和HANS两个硬基准测试了之前模型的典型失败案例。词义消歧任务WiC要求模型从上下文中理解多义词。结果该模型在PiQA开发集和LAMBADA测试集上的zero-shot、one-shot和few-shot三种设置中均取得了最高性能。它还在其他任务中获得了最好的成绩。除了报告基准任务的聚合指标外,他们还对模型输出进行了定性分析,并观察到该模型可以从上下文中推断出基本的数学运算,即使符号被严重混淆也是如此。当然,该模型还从数据中提取刻板印象和偏见。微软和Nvidia表示他们也在解决这个问题。此外,他们表示,在生产场景中使用MT-NLG必须遵守微软的“负责任的AI原则”,以减少输出内容的负面影响,但模型尚未公开。