当前位置: 首页 > 科技观察

开放代码呢?成本高,资源集中,大规模语言模型民主化越来越难

时间:2023-03-22 16:13:38 科技观察

本文转载自雷锋网。5月初,Meta发布了一个可以执行多种不同任务的大型语言模型:OpenpretrainingTransformer(OPT-175B)。在过去的几年里,大型语言模型(largelanguagemodel,LLM)已经成为人工智能研究的热点之一。OpenAI发布包含1750亿参数的深度神经网络GPT-3后,引发了LLM的“军备竞赛”,而OPT-175B是这场竞赛的最新参与者。GPT-3表明LLM无需额外培训即可执行许多任务。后来,微软将GPT-3集成到自己的几款产品中,不仅展示了LLM在科学研究方面的前景,也展示了LLM在商业应用方面的潜力。OPT-175B的独特之处在于Meta对“开放性”的承诺,正如该型号的名称(OpenXX)所暗示的那样。Meta已向公众提供此模型,并发布了有关培训和开发过程的大量详细信息。在MetaAI博客上发表的一篇文章中,Meta将OPT-175B的发布描述为“大规模语言模型的民主化访问”。Meta向透明化的转变值得称道。然而,在大型语言模型的激烈竞争下,民主化变得难以实现。1OPTMeta发布的具有1750亿参数的OPT-175B具有一些关键特征。它包括预训练模型以及训练和使用LLM所需的代码。训练神经网络比运行它消耗更多的计算资源,因此预训练模型对于没有计算资源来训练模型的组织特别有用。它还通过减少训练大型神经网络所需的计算资源来帮助避免巨大的碳足迹。和GPT-3一样,OPT也有不同的规模,参数从1.25亿到1750亿不等,参数越多的模型学习能力越强。目前300亿参数及以下所有版本均可直接下载。完整的1750亿参数版本的模型将提供给一些研究人员和机构,只需要填写一份申请表。MetaAI在博客中表示:“为确保学术诚信和防止滥用,我们将在非商业许可下发布我们的模型,以专注于研究用例。该模型将授权学术研究人员、与政府、民间社会和学术界相关的组织以及世界各地的行业研究实验室使用。“除了模型,Meta还发布了一份完整的日志,提供了大型语言模型的开发和训练过程的详细技术时间表。通常,已发表的论文仅包含有关模型最终版本的信息。Meta表示,日志提供了一些有价值的信息,包括“用于训练OPT-175B的计算量,以及当底层基础设施或训练过程本身在规模上变得不稳定时所需的人力开销”。2Meta:GPT-3不够透明.Meta在其博文中还表示,大部分大型语言模型都可以通过“付费API”访问,对LLM访问的限制“限制了研究人员了解这些大型语言模型如何工作以及它们是如何工作的。为什么它可以工作等已知问题阻碍了进一步提高模型的鲁棒性,降低模型的偏差和危害性”。这是对OpenAI的攻击。OpenAI发布的GPT-3只提供黑盒API服务,并没有公开其模型的权重和源代码。OpenAI声称不公开GPT-3的原因之一是为了控制有害应用程序的滥用和开发。Meta认为,通过向更广泛的受众提供这些模型,它将促进研究并防止它们可能造成的任何伤害。Meta是这样描述他们的工作的:我们希望OPT-175B能为大型语言模型创建的前沿带来更多的声音,帮助社区共同设计负责任的发布策略,并为大型语言模型在这方面的发展添砖加瓦。前所未有的透明度和公开性。3大型语言模型的成本但是需要注意的是,大型语言模型的“透明公开”并不等同于“民主化”。训练、配置和运行大型语言模型的成本仍然很高,而且未来可能会继续增加。根据Meta的博客文章,研究人员已经设法显着降低训练大型语言模型的成本。他们说该模型的碳足迹已减少到GPT-3的七分之一。专家此前估算,GPT-3的训练成本高达2760万美元。由此可见,OPT-175B的训练成本依然高达数百万美元。幸运的是,预训练模型将消除训练模型的需要,Meta表示它将提供一个代码库,用于“仅使用16个NVIDIAV100GPU”来训练和部署完整模型。这相当于一个NvidiaDGX-2,成本约为400,000美元,对于资金短缺的研究实验室或单个研究人员来说,这仍然是一大笔钱。根据一篇提供更多关于OPT-175B细节的论文,Meta使用992个80GBA100GPU训练其模型,速度明显快于V100。MetaAI的日志进一步证实,训练大型语言模型是一项非常复杂的任务。OPT-175B的开发时间表充满了服务器崩溃、硬件故障和其他需要高级技术人员解决的复杂问题。研究人员还必须多次重新启动训练过程、调整超参数并更改损失函数。所有这些额外费用都超出了小型实验室的承受能力。4民主化的障碍:权力集中在少数公司手中OPT和GPT等语言模型基于transformer架构。Transformer的关键特性之一是它能够并行和大规模地处理大型顺序数据(例如文本)。近年来,研究人员已经证明,可以通过向转换器架构添加更多层和参数来提高语言任务的性能。一些研究人员认为,达到更高的智力水平只是一个规模问题。因此,MetaAI、DeepMind(由Alphabet拥有)和OpenAI(由微软赞助)等资金雄厚的研究实验室正致力于创建更大的神经网络,例如DeepMind最新的多模态AI系统Gato。去年,微软和Nvidia创建了一个名为Megatron-Turing(MT-NLG)的5300亿参数语言模型。上个月,谷歌推出了语言模型PathwaysLanguageModel(PaLM),这是一个包含5400亿个参数的大规模语言模型。更有传言称,OpenAI将在未来几个月内发布GPT-4。然而,更大的神经网络也需要更多的资金和技术资源。虽然更大的语言模型会有更多的花里胡哨(和新的失败),但它们也不可避免地会将权力集中在少数富有的公司手中,导致更小的研究实验室和独立研究人员对大型语言模型的研究更加难的。在商业方面,大型科技公司将拥有更大的优势。运行大型语言模型非常昂贵且具有挑战性。像谷歌和微软这样的公司拥有专用的服务器和处理器,因此他们可以大规模地运行这些模型并从中获利。对于较小的公司来说,想出自己的LLM版本(例如GPT-3)太昂贵了。正如大多数企业使用云托管服务而不是设置自己的服务器和数据中心一样,随着大型语言模型越来越流行,像GPT-3API这样的开箱即用系统将更具吸引力。反过来,这将进一步将人工智能集中在大型科技公司手中。更多的人工智能研究实验室将不得不与大型科技公司合作以获得研究资金。这将赋予大型科技公司更大的权力来决定人工智能研究的未来方向(符合其经济利益的方向)。没有短期投资回报的研究领域可能要付出代价。底线是,当我们庆祝Meta给LLM带来的透明度时,请不要忘记大型语言模型本质上仍然是不民主的,它们只是对推广它们的公司更有利。