512个GPU提炼一个10万亿参数的巨型模型!今年双十一就已经使用了这种模式。超大规模预训练模型的参数量级又被刷爆了!1,000,000,000,000!(没错,就是10万亿)而且是用512个GPU训练10天后做的!这是达摩院最新推出的超大规模通用人工智能模型,M6-10T。在电商、制造、文艺、科研等领域具备多模态、多任务的能力,也频繁出现在各自真实场景的下游任务中。它可以开箱即用。今年双十一的背后,你将拥有M6-10T。使用少量资源快速训练大型模型。不过,你可以把剁手节放在一边。关键问题是:M6-10T如何利用少量资源完成极限尺度模型的训练?要知道,微软的DeepSpeedMoE模型也是用了512个A100完成了3.5万亿参数的训练。五个月前上线的万亿级参数M6,用480块GPU训练。那么,512个GPU是如何放下10万亿个参数的呢?这就是达摩院自研的分布式框架Whale。基于该框架,M6模型可以采用粒度可控的CPU卸载方式,灵活选择卸载模型层。也就是说,您可以选择保留一些权重在GPU内存上计算,而不是将所有权重卸载到CPU内存,以进一步提高GPU利用率。放下参数后,下一步就是提高训练效率。M6-10T模型采用了一种新的训练策略,称为Pseudo-to-Real:该策略分为两个阶段。第一阶段利用跨层参数共享机制快速构建和训练小模型PseudoGiant。参数少得多的PseudoGiant不受内存限制,因此可以通过大批量训练进行加速。再加上专家分裂和合并的机制,只需要用256个GPU就能快速训练出一个PseudoGiant。第二阶段,释放共享参数的连接,得到一个新的RealGiant模型。“共享”阶段训练的模型层的参数会为RealGiant的每一层提供初始化,大模型可以在训练好的小模型的基础上继续优化。在下游评估中可以看出,从头开始训练RealGiant模型非常耗时,PseudoGiant训练的收敛速度比RealGiant训练快5倍左右:△在48NVIDIA上训练该机制V100GPU设备不仅可以让M6-10T在样本量维度上有更快的收敛速度,还可以将模型的训练速度提升7倍以上。与之前的M6-MoE和M6-T相比,使用新训练策略的M60-10T具有更低的perplexity和更优越的模型:可以说之前使用480GPU的万亿参数模型M6,如果使用现在方法,只需要64个GPU就可以完成训练。双十一背后的机型除了算法层面的价值,M6-10T一上市就可以投入使用。比如在即将到来的双十一,你或许可以在货架上找到这些AI设计的衣服。△基于M6设计生成的服装款式这是大模型带来的创意。结合StyleGAN后,M6可以自动生成样本少的图像,同时保持良好的细节质量和可编辑性。并且不同于传统的设计风格图,M6生成了更接近实物的照片效果。在手机淘宝和支付宝中,也会有基于M6智能的内容文案:同时,大模型的多模态特征提取能力,也可以补充商品属性标签,进行认知召回。可以说,阿里巴巴内部40多个业务团队的背后,都有一个基于M6模型版本的服务化平台。除了电子商务领域,还有金融、工业、传统科学等多个应用方向。现在,M6服务平台已经成为覆盖行业最广泛大模型生态的服务平台。那么未来是否有必要继续追求更大尺度的模型,在参数尺度上进行迭代呢?阿里巴巴达摩院M6研究团队表示:随着参数规模的扩大,目前的预训练模型在语言模型建模等任务上取得了不错的进展,但对知识的理解还比较浅。因此,如何将大模型有效迁移到各类下游任务中,让大模型真正理解和应用知识,将是研究者进一步探索的问题。论文:https://arxiv.org/abs/2110.03888
