本文转载自雷锋网。电风扇和空肥皂盒的故事大家都听过吧?据传,某国际知名快消品公司曾引进一条香皂包装生产线,但发现该生产线在包装香皂的过程中存在缺陷,即经常出现未装满的盒子用肥皂。不可能把空盒子卖给客户,所以他们请了一位化学和自动化方向的博士后,设计了一个分拣空肥皂盒的方案。博士后随即召集了十几人的技术团队,综合采用机械、自动化、微电子、X射线检测等技术,耗资90万元。最后,他成功地想出了一个方案,那就是安装两个集成检测器,每当检测到一个空肥皂盒时,它就会驱动一个机械手将空肥皂盒推开。可以说,这是实现技术解决工业实际问题的重要突破。巧合的是,同一时间,华南某乡镇企业也采购了同一条生产线。老板发现这个问题后,非常生气。他打电话给厂里的一个工人说:“你来想办法解决这个问题。”迫于压力,这名工人很快想出了一个妙计:他花了190元买了一台大功率电风扇,放在香皂包装生产线旁边。生产线一转,就刮起一阵猛烈的风。空肥皂盒一出现,就会被吹飞。小工一个人,凭借他机智的创造力,很快解决了这个问题,实现了一个业内常说的大目标:降本增效。科技创新和智能化在行业中的意义不外乎这两个口号:一是省钱,二是提高效率。然而,在近几年AI的发展中,出现了这样一个似乎违背资本规律的“怪异”现象:无论是学术界还是工业界,无论是大公司还是小公司,无论是一个民营企业或者一个国家资助的科研院子里,他们都在花大价钱“炼”出大模型。于是,圈内出现了两种声音:一种声音表示,大模型在各种任务基准上表现出了强大的性能和潜力,未来一定是人工智能的发展方向。值得投入数百万(或更多)的培训来为这个机会做准备。换言之,抢占大尺寸车型制高点是主要矛盾,高成本投入是次要矛盾。另有声音表示,在AI技术落地的实际过程中,目前对大模型的综合推崇,不仅抢夺了小模型等AI研究资源,而且由于投资成本高,在解决实际产业问题上不划算。低,无法在数字化转型背景下惠及更多中小企业。也就是说,“经济有没有”和“能力有没有强”构成了AI算法解决实际问题的两大重点。如今,业界已达成共识:未来,AI将成为赋能各行各业的“力量”。那么,从大规模AI实现的角度来看,大模型好还是小模型好?业界真的明白了吗?1“大”模式的到来近年来,在国内外科技公司宣传自己AI研发能力的声音中,总有一个高频词汇:大模型(BigModel)。竞争从外国科技巨头开始。2018年,谷歌推出了大规模预训练语言模型BERT。在拉开大模型的帷幕后,OpenAI在2019年和2020年推出了GPT-2和GPT-3;前者SwitchTransformer...所谓模型大小,主要衡量的是模型参数的大小。模型的“大”是指参数量巨大。例如,BERT的参数数量在2018年首次达到3亿个参数,在顶级机器阅读理解测试SQuAD1.1的两项指标上全面超越人类,并在11项不同的NLP测试中取得SOTA成绩,包括将GLUE基准推至80.4%(绝对提升7.6%),MultiNLI的准确率达到86.7%(绝对提升5.6%),展示了增加参数数量提升AI算法性能的威力。OpenAI推出的GPT-2参数量已达15亿,GPT-3参数量首次突破1000亿,达到1750亿。Google在2021年1月发布的SwitchTransformer规模首次达到万亿,拥有1.6万亿个参数。面对这种来势汹汹的局面,国内各大厂商甚至政府资助的研究机构也不甘落后,相继发布了在大规模精炼模型上的成果:2021年4月,阿里达摩院发布了中文预训练语言模型“PLUG”,参数量270亿;4月,华为与鹏城实验室联合发布“盘古α”,参数量2000亿;6月,北京致远人工智能研究院发布“启蒙2.0”,参数量1.75万亿;9月,百度发布中英双语模型PLATO-X,参数达百亿级。到去年10月,阿里巴巴达摩院发布了“M6-10T”,参数量达到10万亿,是目前国内最大的AI模型。虽然不如阿里,但百度在追求模型的参数数量上也不甘落后。联合鹏城实验室发布“百度文心”,参数量2600亿,比PLATO-X大10倍。此外,腾讯还表示,他们开发了一款大型模型“PaintStar”,但参数量级未知。除了大家普遍关注的各大AI研发企业外,国内大规模模型研发的主力军还包括算力提供商浪潮。他们在去年10月发布了大型模型“Source1.0”,参数量达到2457亿。总而言之,2021年堪称中国“大车型元年”。今年大款继续火爆。大模型最初集中在计算语言领域,现在逐渐扩展到视觉、决策、应用,甚至涵盖蛋白质预测、航空航天等重大科学问题。Google、Meta、百度等大公司都有相应的结果。一时间,参数小于1亿的AI模型没有发言权。毋庸置疑,无论是性能超越还是任务拓展,AI大模型都展现出了内在的潜力,给学术界和产业界带来了无限想象空间。一些研究实验表明,增加数据量和参数量可以有效提高模型求解问题的准确率。以谷歌2021年发布的视觉迁移模型BigTransfer为例,使用1000个类别128万张图片和18291个类别3亿张图片两个数据集进行训练,模型准确率可以从77%提升到79%%。%。以谷歌今年推出的5400亿参数单向语言模型PaLM为例。它基于谷歌今年发布的新一代人工智能框架Pathways。在7个算术应用题/常识推理数据集上,有4个超过目前的SOTA(如下表),只用了8个样本(即收集的数据)。视觉是感知,语言是智能,但两者在“因果推理”上并没有取得太耀眼的突破,而因果推理能力对AI系统的演进非常重要。可以这样理解:孩子简单的根据1+1=2推导出100+100=200的能力,对于一个机器系统来说是非常复杂的,因为这个系统缺乏因果推理的想象力。如果机器连合理的推理能力/想象力都没有,那么我们离开发出科幻电影中的超智能机器人就差得很远了。大模型的出现使得通用人工智能(AGI)的实现成为可能。因此,我们可以看到大公司推广一个大模型,往往强调它可以同时解决多个任务,并在多个任务基准上达到SOTA(目前最高水平)。比如谷歌今年推出的5400亿参数语言模型PaLM,可以通过emoji表情来解读笑话和猜电影。致远的“启蒙2.0”可以孵化出琴棋书画样样精通的虚拟学生华致冰。简而言之,大型模型往往具有一个特征:多功能性和多任务处理。这对于应对复杂场景的挑战至关重要。“小模型参数少,局限于单一任务;而大模型(优点)就像人在学习打乒乓球时学到的知识,对打羽毛球有辅助作用。”大模型与任务之间存在泛化,面对新的任务,小模型可能需要几千甚至几万的训练数据,而大模型可能只需要一个训练数据,甚至根本不需要训练数据”西湖大学深度学习实验室负责人蓝振中向雷锋网-AI科技评论解释道,以对话系统的研究为例,对话系统主要分为两类:一类是基于任务的对话,其中用户分配任务,AI系统自动执行,快速订机票、买电影票等;另一种是开放式对话,比如电影《她》(她)书中虚构的机器人可以与人类就任何话题进行交流,甚至让用户产生情感上的陪伴。其中,后者的能力水平明显更高,研发难度更大。前方迷雾重重,你不知道是什么“你将面临的挑战。此时,大机型本身就拥有丰富的“能力包”,在新的任务中表现不凡,战斗力明显优于小机型。”兰振中指出,目前,空气学术界和工业界的研究人员还没有完全掌握大型模型的许多特性。比如从上一代的GPT-3到这一代的instructGPT,我们可以看到它有了质的飞跃。同样是大机型,但是指令GPT在接收指令时效果要好很多。只有在研究大模型的时候才能体会到。随着参数数量的增加,AI模型的性能会发生什么变化?这是一个需要深入探讨的科学问题,因此有必要继续投入大模型的研究。2理想很远,现实却很近。人类要想进步,总要有人敢去无人的地方。然而,在现实世界中,并不是每个人都能负担得起星辰大海的理想,更多的人只是想以一种快速、简单、经济的方式解决他们面临的问题。归根结底,如果要实现AI算法,还得考虑技术研发的投入产出比。这时候大机型的劣势就开始暴露出来了。一个不容忽视的残酷事实是,大型模型的计算速度慢,训练成本极高。一般来说,模型的参数数量越多,机器运行速度越慢,计算成本越高。据外媒报道,OpenAI花费了近500万美元(约合人民币3500万元)用于训练包含1750亿个参数的GPT-3。谷歌在使用5400亿个参数训练PaLM时使用了6144个TPU。据热心网友统计,普通人训练一个PaLM的成本在9到1700万美元之间。这只是计算能力的成本。国内各大厂商并未透露训练大型模型的经济成本,但按照现有的全球共享计算方式和资源,计算支出应该相差不远。GPT-3和PaLM都只有千亿量级,参数超过万亿级的大模型成本一定是惊人的。如果大厂研发够大手笔,大机型的投入成本就不会成为“拦路虎”。然而,在资本对人工智能愈发谨慎之际,一些初创公司和政府资助的研究机构仍在大举押注大型模型。看起来有点神奇。大模型对算力的高需求,让企业之间的技术实力竞争变成了金钱的竞争。长此以往,一旦算法成为高消费商品,就注定了最前沿的AI只能由少数人享用,造成围城围地的垄断局面。换句话说,即使有一天通用人工智能真的出现了,也不可能惠及所有用户。同时,在这条赛道上,小企业的创新动力会受到挤压。小企业要炼成大模型,要么跟大厂合作,站在巨人的肩膀上(但这不是每个小厂都能做到的),要么疯狂投资,准备金库(但在资本这在寒冷的冬天也是不切实际的)。计算输入,然后计算输出。遗憾的是,目前,还没有一家在做大模型炼化的企业公开大模型创造了多少经济效益。不过从公开信息可以得知,这些大机型已经陆续开始解决问题。例如,在万亿参数模型M6发布后,阿里达摩院声称其图像生成能力已经可以辅助汽车设计师进行汽车设计,借用M6的文案能力打造的文案,也已经在手机淘宝、支付宝和阿里小米上得到了应用。强调短期回报对于处于早期探索阶段的大型模型来说是苛刻的。但是,我们仍然要回答一个问题:无论是商业界还是学术界,在押注大模型的时候,是为了不错过一个未来可能占据主导地位的技术方向,还是因为它能更好地解决这个问题?目前已知的问题?问题?前者具有浓厚的学术探索色彩,后者则是应用AI技术解决问题的行业先驱们真正关心的问题。大模型是由谷歌发布的BERT拉开序幕的,这是一种混沌的想法:在BERT实验之前,谷歌大脑的技术团队并没有围绕一个已知的真实问题来开发模型,也没有想到参数量当时。最大的(3亿)AI模型可以带来性能的巨大提升。同样,OpenAI在模仿谷歌开发GPT-2和GPT-3时,也没有具体的任务。开发成功后,大家在GPT-3上测试任务效果,发现各项指标都有所提升。这时候才惊讶。今天的GPT-3就像一个由用户成千上万的应用程序提供支持的平台。但是随着时间的推移,大模型的开发必然会回归到解决某个实际问题的初衷,比如今年Meta发布的大蛋白质预测模型ESMFold,百度不发布的大航天模型等。很久以前。如果说一开始的GPT-3等大型模型主要是想探索参数数量的增加对算法性能的影响,纯粹是“未知引导未知”,那么目前对大型模型的研究模式开始体现出更加明确的目标:解决实际问题,创造创业价值。此时,大模型开发的主导方从研究者的意愿转变为用户的需求。在一些非常小的需求中(比如车牌识别),大模型也能解决问题,但由于其训练成本昂贵,有点像“杀猪拿大锤”,性能不一定出色的。也就是说,如果以几千万的代价换取几个点的精度提升,那性价比会极低。一位业内人士告诉雷锋网-AI科技评论,大多数情况下,我们研究一种技术是为了解决一个已知的实际问题,比如情感分析、新闻摘要等。你可以设计一个专门的小任务来研究,出来的“小模型”效果很容易比GPT-3等大模型好。甚至在一些特定的任务上,大模型“根本用不上”。因此,在推动人工智能发展的过程中,大模型与小模型的结合是必然的。但由于大模型的开发门槛极高,经济上可行、针对性强的小模型将是AI大规模落地任务中的主力军。就连一些正在做大模型的科学家也明确告诉雷锋网-AI科技评论,虽然大模型可以同时执行很多任务,但“现在谈通用人工智能还为时过早”。大模型或许是实现最终目标的重要途径,但理想还很遥远,AI还需要满足当下。3AI模型一定要越做越大吗?事实上,针对人工智能模型日益增多的现象,学术界和产业界的一些研究人员已经注意到其实施的优缺点,并积极展开对策。如果要说科技给人们带来的社会变革的启迪,那么其中一个必须要讨论的重要事情就是:如何降低科技产品的门槛(无论是技术上还是成本上),从而让更多的人能够享受到这项技术带来的好处,才能扩大它的影响力。当切换到大模型时,核心矛盾是如何提高它的训练速度,降低训练成本,或者提出新的架构。从单独调用计算资源的角度来看,大模型的困境其实并不突出。开放工程联盟MLCommons今年6月底发布的MLPerfbenchmark最新训练结果显示,今年机器学习系统的训练速度几乎是去年的两倍,并突破了摩尔定律(翻了一番每18-24个月)。事实上,随着各种服务器的更新迭代,以及云计算等新方法的出现,计算速度一直在加快,能耗也在不断降低。比如GPT-3推出才两年,现在Meta参考其开发的OPT模型的计算量已经减少到2020年的1/7。另外,最近的一篇文章显示,2018年需要上千GPU训练的大模型BERT,现在单卡训练仅需24小时,在普通实验室即可轻松训练。获取算力的瓶颈不复存在,唯一的障碍就是获取成本。除了单纯依靠算力,近年来,一些研究者还希望找到另一种方式,仅根据模型和算法本身的特性来实现大模型的“经济可用性”。一种方法是以数据为中心的“降维”。最近,DeepMind成功探索了一项工作(《TrainingCompute-OptimalLargeLanguageModels》),在相同的计算量下,增加模型的训练数据而不是扩大模型的参数量,可以获得的不仅仅是Zoom在模型上以获得更好的结果。在DeepMind的这项研究中,Chinchilla这种充分利用数据的700亿参数模型在一系列下游任务的评估中优于1750亿参数的GPT-3和2800亿参数的Gopher。蓝振中解释说,龙猫之所以能赢,是因为训练时把数据放大倍数,然后只计算一次。另一种方式是依靠算法和架构的创新,对大模型进行“轻量化”。前微软亚洲研究院副院长、现任兰州科技创始人周明就是这条赛道的追随者。作为一名创业者,周明的想法很“本分”,那就是省钱。他指出,现在很多大公司都在追求大型化模式。一来他们争先恐后,二来他们也想体现自己的计算能力,尤其是云服务的能力。兰州科技作为一家刚刚诞生的小公司,有着用AI创造价值的梦想,但是自己没有强大的云能力,钱又不够烧,所以周明首先想到的是如何调整模型架构和知识蒸馏,将大机型变成“轻量级机型”供客户使用。他们去年7月推出的轻量级模型Mencius证明了这个想法是可行的。《孟子》的参数只有10亿,但在中文理解力评测榜单CLUE上的表现却超越了BERTSG、盘古等参数达数百甚至上千亿的大型模型(见下表)。业界的一个共识是:同样的架构下,模型的参数量一定要更多,性能要更好,但《孟子》的巧妙之处在于架构的创新。在学术界,不久前,加州大学伯克利分校的马毅教授、沉向阳和曹颖联合发表了一项研究(《关于智能出现的简约和自洽原则》),从理论上讲技术上的原因分析了为什么大模型越来越大,即深度神经网络本质上是一个“开环”系统,即用于分类的判别模型和用于采样或重放的生成模型的训练是在大多数情况被分离,导致参数训练效率低下,只能依靠堆参数和堆计算能力来提高模型性能。为此,他们提出的“改革”方法更为彻底,即提倡将判别模型与生成模型相结合,形成一个完整的“压缩”闭环系统,让AI模型能够自主学习,并且更加高效和稳定,面对新环境中可能出现的新问题,适应能力和反应能力也更强。也就是说,如果AI领域的研究人员能够沿着这条路线发展模型,那么模型的参数量级将大大降低,回归到“小而美”的道路上,而大模型的能力“解决未知问题”也可以实现。在实现经济可用性方面,甚至有声音主张使用AutoML或AutoAI来解决模型训练的难度,降低AI算法的研究门槛,让算法工程师或非AI从业者可以根据自己的需要灵活构建需要。一个功能单一的模型组成无数小模型,星星之火可以燎原。这个声音从“需要”的角度出发,反对闭门造车。例如,视觉算法用于识别、检测和定位。其中,识别烟雾和烟花对算法的要求不同,因此它们提供了一个平台或工具,可以让需求者分别快速生成识别烟雾和识别烟花的视觉。算法具有更高的精度,无需追求跨场景的“普适性”或“泛化性”。这时候,一个琴棋书画样样精通的大模型,可以分成无数个琴棋书画样样精通的小模型,也能解决问题。4写在最后,回到电风扇吹坏肥皂盒的故事。在AI技术解决现实问题方面,大模型和小模型就像博士后自动化解决方案和小工人的电风扇。虽然前者在解决一个小问题时显得多余和繁琐,效果不如电风扇快,但很少有人会否认博士后及其团队所提供的价值,更不会“淘汰”他们。相反,我们甚至可以说成百上千个理由来强调技术研发的合理性。但很多时候,技术研究者往往忽略了小公解决问题的智慧:从实际问题出发,而不是被技术优势所局限。由此看来,大模型的研究具有引领前沿的内在价值,但也应考虑降本增效的“经济可用性”目标。回到研究本身,蓝振中表示,虽然有很多大型模型成果,但开源的却非常少,普通研究人员的获取有限,令人遗憾。由于大模型不开源,普通用户无法从需求角度评价大模型的实用性。事实上,我们之前对少数几个开源大型模型进行过实验,发现大型语言模型在理解社会伦理和情感方面的表现极不稳定。因为不开放,各大厂商推出自己的大模型,依然是根据各种学术指标,形成了类似薛定谔的困境:你永远不知道盒子里装的是什么,也无法判断是真是假或不。一句话,一切都由他们说了算。最后,希望大AI模型能够真正造福更多人。
