BLOOM可以为AI研究创造一种新的文化,但挑战依然存在复制OpenAI的GPT-3的另一种尝试。但BLOOM与其他大型自然语言模型(LLM)的不同之处在于它在研究、开发、训练和发布机器学习模型方面所付出的努力。近年来,大型科技公司将大规模自然语言模型(LLM)隐藏起来,严格保密,而BigScience团队从项目一开始就将透明和公开放在BLOOM的中心。结果是一个可以研究和学习并可供所有人使用的大型语言模型。BLOOM构建的开源和开放协作的范例将对未来大规模自然语言模型(LLM)和人工智能其他领域的研究大有裨益。但是大型语言模型仍然存在一些固有的挑战需要解决。什么是绽放?BLOOM是“BigScienceLargeOpenAccessMultilingualModelforOpenScience”的缩写。从数据上看,与GPT-3、OPT-175B相差不大。它是一个非常庞大的Transformer模型,拥有1760亿个参数,使用1.6TB的数据进行训练,包括自然语言和软件源代码。与GPT-3一样,它可以学习用零个或几个镜头执行许多任务,包括文本生成、摘要、问答和编程。但BLOOM的重要性在于其背后的组织和建设过程。BigScience是机器学习模型中心“抱脸”于2021年启动的研究项目。根据其网站描述,该项目“旨在展示一种在AI/NLP研究社区内创建、学习和共享大型语言模型和大型研究工件的替代方法。”在这方面,BigScience从CERN中汲取灵感,体现在CERN和大型强子对撞机(LHC)等科学创造计划中,开放的科学合作促进了对整个研究界有用的大规模人工制品的创造。自2021年5月以来的一年里,来自60个国家和250多个机构的1000多名研究人员在BigScience共同创建了BLOOM。透明、开放和包容虽然大多数主要的大型自然语言模型(LLM)仅针对英文文本进行训练,但BLOOM的训练语料库包括46种自然语言和13种编程语言。这对于英语不是主要语言的许多地区很有用。BLOOM还打破了对大型科技培训公司模式的实际依赖。大型自然语言模型(LLM)的主要问题之一是训练和调整的成本过高。这一障碍使得拥有1000亿个参数的大型自然语言模型(LLM)成为财力雄厚的大型科技公司的专属领域。近年来,人工智能实验室被大型科技公司吸引,以获得补贴的云计算资源和研究资金。相比之下,BigScience研究团队从法国国家科学研究中心获得了300万欧元的资助,用于在超级计算机JeanZay上训练BLOOM。没有授予商业公司对该技术的独家许可的协议,也没有承诺将该模型商业化并将其转化为有利可图的产品。此外,BigScience团队对模型训练的整个过程是完全透明的。他们发布了数据集、会议记录、讨论和代码,以及训练模型的日志和技术细节。研究人员正在仔细研究模型的数据和元数据,并发布有趣的发现。例如,研究人员之一大卫·麦克卢尔(DavidMcClure)于2022年7月12日发推文说,“我一直在研究来自Bigscience和HuggingFace的非常酷的BLOOM模型背后的训练数据集。英语语料库中有1000万个单词块样本,约占总数的1.25%,使用‘all-distilroberta-v1’编码,然后从UMAP到2d。”当然,训练好的模型本身可以在HuggingFace的平台上下载,这减轻了研究人员花费数百万美元进行训练的痛苦。Facebook上个月公开了其大型自然语言模型(LLM)之一的源代码,但有一些限制。然而,BLOOM带来的透明度是前所未有的,有望为行业树立新标准。BLOOM培训联席主管TevenLeScao表示:“与工业AI研究实验室的保密性相比,BLOOM表明最强大的AI模型可以由更广泛的研究社区以负责任和开放的方式进行培训和发布。挑战依然存在尽管BigScience为AI研究和大型语言模型带来开放和透明的努力值得称赞,但该领域固有的挑战仍然没有改变。大型自然语言模型(LLM)研究正在朝着更大的模型发展,这将进一步增加培训和运行成本。BLOOM使用384个NvidiaTeslaA100GPU(每个价格约为32,000美元)进行训练。更大的模型将需要更大的计算集群。BigScience团队宣布将继续创建其他开源大型自然语言模型(LLM),但该团队将如何为其日益昂贵的研究提供资金还有待观察。例如,OpenAI最初是一个非营利组织,后来成为一个销售产品并依赖微软资助的营利组织。另一个未解决的问题是运行这些模型的巨大成本。压缩后的BLOOM模型大小为227GB,运行它需要具有数百GB内存的专用硬件。相比之下,GPT-3需要一个相当于NvidiaDGX2的计算集群,成本约为40万美元。HuggingFace计划推出一个API平台,允许研究人员以每小时40美元左右的价格使用该模型,这是一个适度的成本。运行BLOOM的成本还将影响应用机器学习社区、初创公司和希望构建由大规模自然语言模型(LLM)提供支持的产品的组织。目前OpenAI提供的GPT-3API更适合产品开发。BigScience和HuggingFace将走向何方,使开发人员能够根据他们有价值的研究构建产品,这将是一件很有趣的事情。在这方面,人们期望BigScience在未来的版本中提供更小版本的模型。与媒体经常描绘的相反,大型自然语言模型(LLM)仍然遵循“天下没有免费的午餐”的原则。这意味着在应用机器学习时,针对特定任务进行微调的更紧凑的模型比在许多任务上具有平均性能的非常大的模型更有效。例如,Codex是GPT-3的修改版本,它以GPT-3的一小部分大小和成本为编程提供了极大的帮助。GitHub目前提供基于Codex的产品Copilot,每月收费10美元。随着BLOOM希望建立的新文化,研究未来学术和应用AI的发展方向将很有趣。原标题:BLOOMcansetanewcultureforAIresearch—butchallengesremains,作者:BenDickson
