当前位置: 首页 > 科技观察

AI大模型开源困境:垄断、围栏与算力

时间:2023-03-12 01:03:42 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。2020年6月,OpenAI发布了GPT-3。其千亿参数规模和惊人的语言处理能力给国内AI界带来了巨大震撼。然而,由于GPT-3并未对中国开放,当海外诞生了一批提供文本生成服务的商业公司时,我们只能望洋兴叹。今年8月,总部位于伦敦的开源公司StabilityAI发布了Vincent图模型StableDiffusion,并免费公开了模型的权重和代码,迅速引发了全球AI绘画应用的爆发式增长.可以说,开源对今年下半年的AIGC热潮起到了直接的催化作用。而当大模型变成人人都可以参与的游戏时,受益的不仅仅是AIGC。01大模型开源四年前,一个名为BERT的语言模型问世,改变了3亿参数AI模型的游戏规则。如今,AI模型体量跃升至万亿级,但大模型的“垄断性”也日益凸显:大公司、大算力、强算法、大模型共同堆砌了一个共同的开发者。以及中小企业难以闯入的围墙。技术壁垒,以及训练和使用大模型所需的计算资源和基础设施,阻碍了我们从“提炼”大模型到“使用”大模型。因此,开源迫在眉睫。通过开源让更多人参与到大模型的游戏中,将大模型从新兴的AI技术转变为健壮的基础设施,正在成为众多大模型创造者的共识。也是在这样的共识下,阿里达摩院前不久在云栖大会上推出的中国模型开源社区“模型范围”(ModelScope),在AI界备受瞩目。在此社区贡献模型,或构建您自己的开源模型系统。国外大模型的开源生态建设目前领先于国内。StabilityAI是一家民营企业,在开源的同时,自带开源基因,拥有庞大的开发者社区,稳定的盈利模式。今年7月发布的BLOOM拥有1760亿个参数,是目前最大的开源语言模型。其背后的BigScience完美契合开源精神,从头到脚透露出与科技巨头博弈的气势。BigScience是由Huggingface领导的开放协作组织。它不是一个正式成立的实体。BLOOM的诞生是来自70多个国家的1000多名研究人员在超级计算机上进行117天培训的结果。此外,科技巨头也并非没有参与大模型的开源。今年5月,Meta开源了一个拥有1750亿参数的大型模型OPT。除了允许OPT用于非商业用途之外,它还发布了它的代码和100页记录训练过程的日志。可以说开源的非常彻底。研究团队在OPT论文的摘要中直言,“考虑到计算成本,如果没有大量资金,这些模型很难重现。对于通过API可用的少数模型,无法获得完整的模型权重,这使他们难以学习”。模型的全称“OpenPre-trainedTransformers”也表明了Meta的开源态度。这可以说是对OpenAI发布的GPT-3(仅API支付服务)不“开放”,以及谷歌今年4月推出的5400亿参数大模型PaLM(未开源)的影射。在一向垄断的大厂中,Meta的开源之举是一股清流。时任斯坦福大学基础建模研究中心主任的PercyLiang评论道:“这是朝着开辟新的研究机会迈出的激动人心的一步。总的来说,我们可以认为更强的开放性将使研究人员能够解决更深层次的问题”02大模型的想象不应该止步于AIGPCercyLiang的话,这也从学术层面回答了大模型为什么一定要开源的问题。原创成果的诞生需要开源提供土壤。如果一个研发团队训练一个大模型,如果停留在顶会上发一篇论文,那么其他研究人员只会得到论文中各种“肌肉”的数字,而看不到更多关于模型训练技术的信息。细节需要时间才能复现,不一定能复现成功。可重复性是科学研究结果可靠性和可信度的保证。有了开放的模型、代码和数据集,研究人员可以及时跟上最前沿的研究,站在巨人的肩膀上达到更高的成果,可以节省大量的时间和成本,加快技术创新的速度。国内大型模型作品缺乏原创性,主要体现在对模型尺寸的一味追求,而在底层架构上却鲜有创新。这是从事大尺度模型研究的行业专家的普遍共识。清华大学计算机系刘志远副教授向AI科技评论指出:国内在大模型的架构上有一些比较创新的工作,但基本都是基于Transformer,还缺乏像中国的Transformer这样的基础架构。以及BERT和GPT-3等能够引起该领域重大变革的模型。IDEA研究院(粤港澳大湾区数字经济研究院)首席科学家张家兴博士也告诉AI科技评论,从百亿、千亿到万亿,我们突破之后各种系统和工程上的挑战,我们应该对模型结构有新的思考,而不是简单地把模型做大。另一方面,要在大模型上取得技术进步,需要一套模型评价标准,而标准的产生需要公开透明。最近的一些研究试图为许多大型模型提出各种评价指标,但一些优秀的模型由于难以接近而被排除在外。比如谷歌在其Pathways架构下训练的大模型PaLM,具有超强的语言理解能力,可以轻松解释笑话的笑话,还有DeepMind的大语言模型Chinchilla,都没有开源。但无论是从车型本身的出众能力,还是从这些大厂的地位来看,如此公平的赛场,他们都不应该缺席。令人遗憾的是,PercyLiang及其同事最近的一项研究表明,与非开源模型相比,当前开源模型在许多核心场景上的性能存在一定差距。来自清华大学的OPT-175B、BLOOM-176B、GLM-130B等开源大模型在各种任务上几乎完全输给了非开源大模型,包括OpenAI的InstructGPT、Microsoft/NVIDIA的TNLG-530B等(如下所示)。文字说明:PercyLiang等人。语言模型的整体评价要解决这一尴尬局面,领导者需要开源自己的优质大模型,让大模型领域的整体进步更快达到更高的水平。大模型的产业落地,开源是必经之路。如果以GPT-3的发布为起点,经过两年多的追赶,大规模模型在研发技术上已经相对成熟,但在全球范围内,大规模模型的实施比例模型仍处于早期阶段。国内各家厂商开发的大尺寸机型虽然有内部业务落地场景,但整体上还没有成熟的商用机型。当大型模型准备上线时,做开源可以为以后的大规模落地生态打下坚实的基础。大模型的性质决定了开源实现的必要性。阿里巴巴达摩院副院长周景仁告诉AI科技评论,“大模型是对人类知识体系的抽象和提炼,所以它可以应用的场景和产生的价值是巨大的。”只有通过开源,大模型的应用潜力才能被众多富有创意的开发者发挥到极致。这对于封闭大模型内部技术细节的API模型是做不到的。首先,该模型适用于开发能力较低的模型用户。对他们来说,大规模模型落地的成败完全掌握在研发机构手中。以提供大模型API支付服务的最大赢家OpenAI为例。据OpenAI统计,目前全球有超过300个应用使用了GPT-3技术,但这个事实的前提是OpenAI的研发实力强大,GPT-3也足够强大。如果模型本身表现不佳,那么这些开发人员也无能为力。更重要的是,大模型通过开放API提供的能力有限,难以承担复杂多样的应用需求。目前市场上只催生了一些创意类APP,但整体上还处于“玩具”阶段,远未达到大规模产业化阶段。“产生的价值并没有那么大,成本也无法收回,所以基于GPT-3API的应用场景非常有限,很多业内人士其实并不认可这种做法。”张家兴说。确实,copy.ai、Jasper等国外公司选择做AI代写业务,用户市场比较大,所以可以产生比较大的商业价值,更多的应用只是小事。相比之下,开源和开放所做的是“授人以渔”。在开源模式下,企业依托开源代码,在现有的基础框架上进行满足自身业务需求的培训和二次开发。将大型模型技术真正落地到行业中。作为大模型商业化最清晰可见的赛道,AIGC的腾飞印证了大模型开源模式的成功。但在其他应用场景中,大模型的开源和开源仍然是少数。外面的世界也是如此。西湖大学深度学习实验室负责人兰振中曾对AI科技评论表示,虽然有很多大规模模型结果,但开源的却很少,普通研究人员获取的机会有限。这是一个遗憾。以这些关键词为核心的贡献、参与、协作、开源,可以汇聚一大批热心的开发者,共同打造一个可能具有变革意义的大型模型项目,并让大型模型从实验室中走出来更快地进入行业。03无法承受的重量:大算力模型开源的重要性已成共识,但在开源的路上还有一个巨大的绊脚石:算力。这也是大规模模型实施面临的最大挑战。即使Meta开源了OPT,但到目前为止似乎还没有在应用市场引起太大的涟漪。归根结底,算力成本对于小开发者来说仍然是难以承受的负担,更别说对大模型进行微调、二次开发,光是做推理都非常困难。正因如此,不少研发机构在对参数进行反思的浪潮下,纷纷转向制作轻量级模型的思路,将模型的参数控制在数亿至数十亿级。兰舟科技推出的“孟子”模型、IDEA研究院开源的“封神榜”系列模型,都是国内这条路线的代表。他们将超大模型的各种能力拆分成参数相对较小的模型,并证明了自己在一些单一任务上超越千亿模型的能力。但毫无疑问,大型模型之路不会就此止步。多位业内专家向AI科技评论表示,大尺度模型的参数仍有提升空间,必须有人继续探索更大规模模型。所以我们不得不面对大模型开源后的困境。那么,解决方案是什么?我们首先从算力本身的角度来考虑。未来,建设大型计算机集群和算力中心必将是一种趋势。毕竟端上的计算资源不能满足需求。但现在摩尔定律已经放缓,业界不乏摩尔定律即将终结的论调。如果单纯的希望计算能力的提升,是解不了渴的。“现在一张卡可以跑(推理上)十亿的模型,按照现在算力的增长速度,一张卡跑千亿的模型可能需要十年,也就是说算力会增加一百倍。”张家兴解释道。大机型的落地不能等那么久。另一个方向是在训练技术上做文章,加快大模型的推理速度,降低算力成本,降低能耗,从而提高大模型的易用性。例如,Meta的OPT(用于对标GPT-3)只需要16个Nvidiav100GPU就可以训练和部署一个完整的模型代码库,是GPT-3的七分之一。近日,清华大学与智浦AI联合开源的双语大模型GLM-130B压缩到可以在A100(40G*8)或V100(32G)上进行单机推理*8)服务器通过快速推理方法。.这方面的努力当然是非常有意义的。大厂不愿开源大模型的一个不言而喻的原因之一就是高昂的训练成本。此前有专家估算,GPT-3的训练使用了数万块Nvidiav100GPU,总成本为2760万美元。如果个人想训练一个PaLM,需要9到1700万美元。如果能够降低大模型的训练成本,自然会增加他们开源的意愿。但归根结底,这只能缓解工程上对算力资源的约束,并不是最终的解决方案。虽然很多千亿、万亿级的大模型开始发扬自己的“低能耗”优势,但是算力的墙还是太高了。最终还是要回到大模型本身去寻找突破口。一个非常有前途的方向是稀疏动态大模型。稀疏大模型的特点是容量非常大,但对于给定的任务、样本或标签,只有某些部分被激活。也就是说,这种稀疏的动态结构可以让大模型在参数量上多跳几级,而无需付出巨大的计算成本,一石二鸟。这比像GPT-3这样密集的大型模型有很大的优势,后者需要激活整个神经网络才能完成即使是最简单的任务,这是一种巨大的资源浪费。谷歌是稀疏动态结构的先驱。他们在2017年首次提出了MoE(Sparsely-GatedMixture-of-ExpertsLayer),去年推出的1.6万亿参数大模型SwitchTransformers集成了MoE式的架构,相比他们之前的密集模型T5提升了7倍的训练效率-基础变压器。今年的PaLM基于Pathways统一架构,是一种稀疏动态结构的模型:模型可以动态学习网络的特定部分擅长哪些任务,我们可以根据需要调用网络中的小路径而不用激活整个网络。它需要一个神经网络来完成一项任务。图例:Pathways架构本质上类似于人脑的运作方式。人脑中有数百亿个神经元,但只有具有特定功能的神经元在执行特定任务时才会被激活,否则巨大的能量消耗是难以承受的。大、全、高效,这种对大模型的处理方式无疑具有很强的吸引力。“未来有了稀疏动力学的支持,计算成本不会那么高,但是模型参数肯定会越来越大。稀疏动力学结构可能会为大模型打开一个新天地,然后去到十万亿,十亿没问题。”张家兴认为,稀疏动态结构将是解决大模型规模与算力成本矛盾的最终出路,但他也补充说,一味地继续扩大模型意义不大当前模型结构还没有普及的时候,目前国内在这方面的尝试比较少,没有谷歌那么彻底。源刺激大模型技术的变革,阻碍大模型开源的不仅是大模型的算力成本导致的可用性低,还有安全问题。对于大模型,尤其是滥用带来的风险开源生成大模型,国外的声音和争议似乎更多,这也成为很多机构不开源的证据l大模型,但这也可能是他们拒绝慷慨的借口之一。OpenAI已经为此招致了很多批评。他们在2019年发布GPT-2时,声称该模型的文本生成能力过于强大,可能会带来伦理危害,因此不适合开源。一年后GPT-3发布时,它只提供了API试用版。目前开源的GPT-3版本其实是开源社区自己复现的。事实上,限制对大型模型的访问实际上可以对大型模型起作用,以提高稳健性并减少偏差和毒性。在谈到开源OPT的决定时,MetaAI负责人JoellePineau真诚地表示,单靠自己的团队无法解决所有问题,例如文本生成过程中可能出现的道德偏见和恶意言论。他们认为,如果您做好功课,就可以以负责任的方式公开访问大型模型。在防范滥用风险的同时保持开放访问和足够的透明度并非易事。作为“潘多拉魔盒”的打开者,StabilityAI享有积极开源带来的美誉,但近期也遭遇开源带来的反弹,在版权归属方面引发争议。开源背后“自由与安全”这个古老的辩证命题由来已久,或许没有绝对正确的答案,但在大模式开始落地的当下,一个明确的事实是:大模型是开源的,我们能做好还不够。两年多过去了,我们已经有了自己的万亿级大规模模型。在大模型从“读万卷书”到“行万里路”的过程中,开源是必然的选择。最近GPT-4在即,大家对其能力的飞跃寄予厚望,但不知道未来它会为多少人释放多少生产力?