当前位置: 首页 > 科技观察

5300亿!巨型语言模型的参数每年暴涨10倍,新的“摩尔定律”要来了吗?

时间:2023-03-13 08:08:34 科技观察

不久前,微软和英伟达推出了包含5300亿参数的语言模型MT-NLG,这是一个基于transformer的模型,被誉为“世界上最强最大的语言生成模型”。但这真的值得高兴吗?深度学习研究人员估计,人脑平均包含860亿个神经元和100万亿个突触。但并非所有这些都用于语言。有趣的是,GPT-4预计有大约100万亿个参数。两个“100万亿”。会不会是巧合?我们不禁会想,建立一个人脑大小的语言模型是不是一种长期可行的方法?当然,经过几百万年的进化,我们的大脑已经成为一个神奇的装置,而深度学习模型的发展也才几十年。诚然,我们的直觉告诉我们,有些东西是无法用计算来衡量的。是深度学习,还是“深度钱包”?在庞大的文本数据集上训练一个5300亿参数的模型无疑需要庞大的基础设施。事实上,微软和英伟达使用了数百台DGX-A100GPU服务器,每台成本高达19.9万美元,加上网络设备、主机等成本,任何人想要重复这个实验都得花费大约1亿美元。说真的,哪些公司有商业案例证明在深度学习基础设施上花费1亿美元是合理的?还是1000万美元?如果是这样,这些模型是为谁设计的?GPU集群:散热和环保成问题事实上,在GPU上训练深度学习模型是一项非常费力的工作。根据Nvidia服务器参数表,每台NvidiaDGXA100服务器的最大能耗为6.5千瓦。当然,数据中心(或服务器)至少也需要同样多的冷却设备。除非你是史塔克人并且需要拯救临冬城,否则散热将是一个大问题。而且,随着公众对气候和社会责任问题意识的增强,公司也需要考虑他们的碳足迹。马萨诸塞大学2019年的一项研究“使用GPU训练BERT的碳足迹大致相当于飞越美国。”BERT-Large的参数数量高达3.4亿。培训的碳足迹有多大?恐怕只是想想而已。那么,我们真的应该对MT-NLG模型的5300亿个参数感到兴奋吗?如此多的参数和计算能力带来的基准性能提升是否值得成本、复杂性和碳足迹?大力推广这些巨型模型真的能帮助企业和个人理解并拥抱机器学习吗?如果,我们将专注于更多可用于构建高质量机器学习解决方案的操作技术。例如以下技术:在大多数情况下使用预训练模型,不需要自定义模型架构。一个好的起点是寻找已经为您解决问题(例如总结英文文本)的预训练模型。然后,快速尝试几个模型来预测数据。如果参数表明某个参数是好的,那么就完全没问题了。如果需要更准确的参数,请尝试微调模型(更多内容见下文)。使用小模型在评估模型时,您应该尽量选择能够提供所需精度的最小模型。这样做可以加快预测速度,并且需要更少的硬件资源来进行训练和推理。算力很贵,能省就省。事实上,如今机器学习模型越来越小并不是什么新鲜事。熟悉计算机视觉的人都会记得2017年SqueezeNet的问世。与AlexNet相比,SqueezeNet的体积缩小了98%,准确率性能与AlexNet不相上下。除了计算机视觉领域,NLP社区也在努力降低模型的大小,其中大量使用知识蒸馏等迁移学习技术。其中最著名的可能是DistilBERT,它是GoogleBERT模型的改进版本。与原始BERT模型相比,DistilBERT保留了97%的语言理解能力,同时体积缩小了40%,速度提高了60%。同样的方法也适用于其他模型,例如Facebook的BART。“大科学”项目的最新模型也令人印象深刻。如下图所示,这些项目中的T0模型在很多任务上都优于GPT-3,但模型大小仅为GPT-3的1/16。微调模型如果你需要在高度专业化的领域使用模型,而不是从头开始训练模型,你应该微调模型,也就是说,只在你自己的数据集上训练几个epoch。其实微调模型也是迁移学习的一种方式,目的就是节省资源,能省多少就省多少!使用迁移学习的好处很多,例如:收集、存储、清理和注释的数据更少实验和数据迭代更快获得输出所需的资源更少换句话说:节省时间、节省金钱、节省资源!使用云基础设施云计算公司知道如何构建高效的基础设施。研究表明,基于云的基础设施通常比替代方案更节能,碳足迹更浅。Earth.org表示,虽然云基础设施目前并不完美,但它仍然比替代方案更节能,可以促进对环境有益的服务,并推动经济增长。”的确,云在易用性、灵活性和“随用随付”方面当然有很多优势。如果您真的买不起自己的GPU,为什么不尝试在AmazonSageMaker(AW??S的托管机器学习服务)上微调您的模型?优化模型从编译器到虚拟机,软件工程师长期以来一直使用工具来自动优化硬件代码。然而,与软件行业相比,机器学习社区仍在努力解决这个问题是有原因的。最重要的是,机器学习模型的优化是一项极其复杂的工作,涉及到以下技术和条件:硬件:大量专门用于加速训练任务(Graphcore、Habana)和推理任务(GoogleTPU、AWSInferentia)的硬件硬件。修剪:删除对预测结果影响很小或没有影响的模型参数。Fusion:结合模型层(例如卷积和激活)。量化:用较小的值存储模型参数(例如使用8位存储而不是32位存储)幸运的是,现在开始出现自动化工具,例如Optimum开源库和Infinity,这是一个容器化的解决方案,延迟低至1毫秒,但精度可与Transformer相媲美。另一个“摩尔定律”要来了吗?在过去的几年里,大型语言模型的规模每年以10倍的速度增长。似乎又一个“摩尔定律”即将诞生。最初的摩尔定律的命运如何?“摩尔定律走到尽头”的话题在几年前就已经闹得沸沸扬扬。但有一点可以肯定,如果机器学习沿着“模型巨人化”的道路走下去,这条路可能会越来越窄。收益递减、成本增加和复杂性增加是可以预见的问题,可能会在不久的将来将机器学习行业推向死胡同。这就是人工智能的未来吗?希望不是。与其追逐拥有数万亿参数的巨大模型,不如更专注于为现实世界的问题构建实用有效的解决方案?