当前位置: 首页 > 科技观察

中英文超大型AI模型世界纪录已创,大型模型竞赛新阶段来临

时间:2023-03-13 22:21:19 科技观察

超大型AI模型训练成本高到hold不住?就连万亿市值的企业也开始寻求合作。本周,英伟达和微软联合发布了拥有5300亿参数的“威震天-图灵”(Megatron-Turing),成为迄今为止全球最大的单一AI模型。就在半个月前,国产浪潮发布了拥有2500亿参数的中国AI海量模型“元1.0”。不到一个月的时间,分别刷新了最大英文和中文AI单体模型的记录。而且值得注意的是:在技术发展如此迅猛的情况下,“威震天-图灵”和“源头1.0”仍然没有达到指数定律的预期。要知道从2018年开始,NLP模型的参数几乎每年都在以一个数量级的速度增长。△近年来,NLP模型的参数呈指数增长(图片来自微软)。GPT-3出现后,虽然出现了SwitchTransformer等万亿参数混合模型,但单体模型的增速明显放缓。无论是国外的“Megatron-Turing”,还是国内的“Source1.0”,其规模都与GPT-3没有数量级的差距。甚至“Megatron-Turing”和“Source1.0”都使用了它们最强大的硬件集群。单体模式是发展瓶颈吗?超大规模模型的三种模式要回答这个问题,首先要梳理一下近年来兴起的超大规模NLP模型。从模型开发者的角度来看,超大规模NLP模型的研发随着时间的推移逐渐形成了三种模式。1、研究机构主导无论是开发ELMo的AllenInstitute,还是开发GPT-2的OpenAI(当时还没有引入微软投资),都不是以盈利为目的。而且,现阶段的超大型NLP模型都是开源的,得到了??开源社区的各种复制和改进。ELMo有40多个非官方实现,GPT-2也被国内开发者引入用于中文处理。2、科技巨头独领风骚随着模型越来越大,训练过程中硬件的优化变得尤为重要。从2019年下半年开始,各公司纷纷开发大规模并行训练和模型扩展技术,以开发更大的NLP模型。NvidiaMegatron-LM、GoogleT5、MicrosoftTuring-NLG相继亮相。今年,国内科技公司也开始了类似的研究。中国AI模型“元1.0”是国内硬件企业的一次突破——实现了中国领域最大的NLP模型,并一度刷新了参数最多的大型模型的纪录。“元1.0”不仅拥有全球最大的高达5TB的中文优质数据集,还拥有前所未有的总计算量和训练效率优化。3、巨头与研究机构或巨头的相互合作拥有技术的OpenAI因无法承受高昂的成本,引入了微软10亿美元的投资。依托海量硬件和数据集资源,去年1750亿参数的GPT-3问世。不过万亿参数模型的GPT-4今年并没有如期出现。取而代之的是,微软和英伟达联合推出了“Megatron-Turing”。让我们把注意力转回国内。在“威震天-图灵”发布之前,国内外涌现了很多超大型AI单体模型,比如阿里巴巴达摩院PLUG、国内的“Source1.0”。英伟达、微软、谷歌、华为、浪潮等公司的加入,一方面是为AI研究提供大量算力,另一方面是因为它们在大规模并行计算方面有丰富的经验.当AI模型参数日益增加,达到千亿级时,训练模型的可行性面临两大挑战:1.即使是最强大的GPU也无法将模型参数拟合到单卡的内存中;2.如果不仔细注意优化算法、软件和硬件堆栈,非常大的计算会使训练时间变得不切实际。但是,现有的三种并行策略在计算效率上有所妥协,鱼和熊掌难以兼得。英伟达和微软的结合正是为了这个目的。面对同样的问题,浪潮也在“元1.0”中用前沿技术解决了训练效率的问题。从“source1.0”的arXiv论文中,我们可以窥见这种提高计算效率的方法。在源头大规模分布式训练中,浪潮采用张量并行、流水线并行、数据并行的三维并行策略。Megatron-Turing,与Source1.0一样,采用张量并行策略,其中模型的层在节点内的设备之间划分。流水线将模型的层序在多个节点间并行化,解决存储空间不足的问题。另外还有数据并行策略,根据pipelinegrouping来划分globalbatchsize。三家公司利用各自的技术,将最先进的GPU与最前沿的分布式学习软件栈相结合,实现了前所未有的训练效率,最终分别打造了英文和中文领域最大的AI单体模型。超大规模自然语言模型的训练成本越来越高,技术却殊途同归,形成了研究机构与科技巨头协同发展、三种探索模式并驾齐驱的局面。中英AI模型相互竞争,训练成本越来越高,技术趋同。为什么企业选择自己研究而不是寻求合作?我们或许可以从GPT-3中看到。去年发布的GPT-3不仅没有开源,连API都是限量提供的。由于微软的投资,GPT-3未来将由微软独家拥有。其他想要使用完整功能的公司或个人只能是叹息。高昂的培训成本、道德和伦理问题,以及为了确保其在行业中的领先地位,微软不敢将其技术下放。其他科技公司也不可能将命运交给微软,只能选择自主发展。尤其是针对中文用户,上述一批超大模型没有使用中文数据集训练,无法在中文语境下使用。汉语培训也比英语难。英语由词组成,具有自然分词属性。中文需要先分词,比如“南京长江大桥”,南京|长江|大桥,南京|市长|江桥,错误的分词会让AI产生歧义。与以空格作为分隔符的英文相比,中文分词缺乏统一的标准。同一个词在不同的上下文和句子中的含义可能会有很大差异。另外,各种新上线的词参差不齐,中英文混合词等情况下,打造优秀的中文语言模型需要更多的努力。因此,国内企业更加积极地研究中国模式也就不难理解了。尽管难度更高,但国内公司曾经是世界领先的公司,比如数据集和训练效率。根据浪潮论文,“元1.0”硬件上使用了2128个GPU。浪潮共收集了850TB的数据,最终清洗得到了5TB的高质量中文数据集。它的文本数据量比《Megatron-Turing》(835GB)还要大,而且中文的信息熵比英文高很多,信息量其实更大。在训练效率上,《元1.0》训练用了16天,《图灵威-震天》用了一个多月。前者的数据量是后者的三倍多,但耗时只有后者的一半。在中文中,也可以看到对效率和努力的关注。从大模型可以看出,发展进入了百花齐放、互不相让的阶段。这给我们带来了新的思考:既然海量的AI模型并没有“闭门造车”,那么如何走向合作呢?多方合作或许是未来从表面上看,“威震天-图灵NLG”(Megatron-TuringNLG)是两家科技巨头首次联合推出超大型AI模型。在其背后,双方不仅组成了“超豪华”的硬件阵容,还集成了算法。强强联合成为实现超大型AI模型的新途径。国外巨头开创了先例。那么国内企业的现状如何呢?事实上,一些机构已经迈出了合作的第一步。浪潮的“元1.0”和最初的“威震天”一样,也是硬件厂商研发的超大规模自然语言模型。浪潮透露,其实在9月28日的发布会上,他们就邀请了国内的学者和几家科技公司,讨论未来“Source1.0”合作的可能性。在业界,浪潮早就提出了“元脑计划”的生态联盟。“元1.0”未来将向元脑生态社区内的所有开发者开放API,所有加入生态的AI科技公司都可以使用“元1.0”进行二次开发,打造更强大的功能。国内超大规模自然语言模型合作时代正在开启。共同开发海量模型能带来什么?李飞飞等知名学者给出了答案:当数据规模和参数规模足够大时,量变最终可以产生质变,GPT-3就是一个先例。现在大型模式越来越多,但未来的关键在于如何协调和打造一个开放的合作体系,让所有的科技公司能够共同努力。而在这样一个生态系统中,海量的AI模型会带来什么样的变化,等“元1.0”等大量模型发布后,我们应该很快就能看到。

猜你喜欢