人人都能用的多语种大语言模型来了！支持59种语言，1760亿参数

时间：2023-03-18 11:21:41 科技观察

本文经AI新媒体量子位（公众号ID：QbitAI）授权转载，转载请联系出处。从历史上看，许多大型模型一直被制造它们的大型私营科技公司垄断。比如GPT-3等，对于普通人来说，再香，也只能看看。但是现在，为了填饱肚子，一个由近千名科学家共同发起的志愿项目，用了一年多的时间，提炼出了一个号称与GPT-3一样强大的语言模型。它的名字叫BLOOM，它的参数是1760亿。不仅支持英文或中文，还支持西班牙文、法文等59种语言。它是目前最大的多语言开源语言模型。是的，从现在开始，从代码到数据集，BLOOM都对所有人开放。A100BLOOM采用法国超级计算机，售价384元，是去年5月启动的BigScience项目，由HuggingFace牵头，获得了700万美元的公众捐款。共有来自全球60个国家的250多家机构和1000多名研究人员参与其中，其中包括以自己名义参与的Meta、谷歌等大公司的员工。其训练在法国超级计算机JeanZay上进行，共耗资384块A100GPU，每块80GB内存，训练吞吐量约150TFLOPs（该超级计算机采用低碳核能驱动，释放的热量少于用于学校供暖的热量）。相关推特账号将从3月14日起每天记录BLOOM的进度。随着进度条逐渐填满，喜欢它的人每天都在增加。不过，直到达到102%才正式停手——7月2日，耗时117天的BLOOM宣布完工，如期而至。最终，BLOOM：有1760亿个参数，比GPT-3多了10亿个，包括70层，每层有112个attentionheads。token序列长度为2048。GeLU激活函数数据集共有3416亿个token（1.5TB文本数据），支持13种编程语言，46种语言。其中，针对法语、西班牙语、阿拉伯语等多种语言，首次有自己的开源模型（有网友发现目前还不支持日语）。此外，为了尽可能减少BLOOM最终结果中的偏差，参与者花费了大量精力对捕获的数据进行手动过滤。目前BLOOM训练对硬件还是有一些要求的：为了保证效果，最好准备8块80GB的或者16块40GB的A100。这导致只有稍大的团队能够使用它。当然，你也可以选择在云端训练，最高每小时40美元。最后，BLOOM表示，它还将降低进入门槛，并准备开发一个分布式系统，允许实验室在其服务器之间共享模型。它声称它将成为一个模范家庭，而不是一劳永逸。HuggingFace地址：https://huggingface.co/bigscience/bloom

上一篇：并购成为网络安全的驱动引擎

下一篇：让你全面了解SQL注入

人人都能用的多语种大语言模型来了！支持59种语言，1760亿参数相关文章