当前位置: 首页 > 科技观察

人人都能用的多语种大语言模型来了!支持59种语言,1760亿参数

时间:2023-03-18 11:21:41 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。从历史上看,许多大型模型一直被制造它们的大型私营科技公司垄断。比如GPT-3等,对于普通人来说,再香,也只能看看。但是现在,为了填饱肚子,一个由近千名科学家共同发起的志愿项目,用了一年多的时间,提炼出了一个号称与GPT-3一样强大的语言模型。它的名字叫BLOOM,它的参数是1760亿。不仅支持英文或中文,还支持西班牙文、法文等59种语言。它是目前最大的多语言开源语言模型。是的,从现在开始,从代码到数据集,BLOOM都对所有人开放。A100BLOOM采用法国超级计算机,售价384元,是去年5月启动的BigScience项目,由HuggingFace牵头,获得了700万美元的公众捐款。共有来自全球60个国家的250多家机构和1000多名研究人员参与其中,其中包括以自己名义参与的Meta、谷歌等大公司的员工。其训练在法国超级计算机JeanZay上进行,共耗资384块A100GPU,每块80GB内存,训练吞吐量约150TFLOPs(该超级计算机采用低碳核能驱动,释放的热量少于用于学校供暖的热量)。相关推特账号将从3月14日起每天记录BLOOM的进度。随着进度条逐渐填满,喜欢它的人每天都在增加。不过,直到达到102%才正式停手——7月2日,耗时117天的BLOOM宣布完工,如期而至。最终,BLOOM:有1760亿个参数,比GPT-3多了10亿个,包括70层,每层有112个attentionheads。token序列长度为2048。GeLU激活函数数据集共有3416亿个token(1.5TB文本数据),支持13种编程语言,46种语言。其中,针对法语、西班牙语、阿拉伯语等多种语言,首次有自己的开源模型(有网友发现目前还不支持日语)。此外,为了尽可能减少BLOOM最终结果中的偏差,参与者花费了大量精力对捕获的数据进行手动过滤。目前BLOOM训练对硬件还是有一些要求的:为了保证效果,最好准备8块80GB的或者16块40GB的A100。这导致只有稍大的团队能够使用它。当然,你也可以选择在云端训练,最高每小时40美元。最后,BLOOM表示,它还将降低进入门槛,并准备开发一个分布式系统,允许实验室在其服务器之间共享模型。它声称它将成为一个模范家庭,而不是一劳永逸。HuggingFace地址:https://huggingface.co/bigscience/bloom