,这是一篇有442位作者的AI论文。还有一个关于作者贡献的专门章节。100多页一半以上都是参考文献……不对,现在流行这种文风?这不,谷歌的最新论文——BeyondTheImitationGame:QuantifyingAndExtrapolatingTheCapabilitiesOfLanguageModels。于是作者的专栏就变成了这样……来自132个机构的研究学者,用了两年的时间,提出了一个新的大型语言模型基准——BIG-bench。在此基础上,我们对OpenAI的GPT模型、谷歌内部的densetransformer架构等进行了评估,模型规模为6个数量级。最终结果表明,模型的性能虽然随着规模的扩大而提高,但与人类的表现仍有很大差距。对于这部作品,JeffDean转发并点赞:GreatWork。康康的论文对大型语言模型的新基准说了什么。随着规模的增加,改进的模型性能和质量可能会产生一些变革性影响,但这些属性以前没有得到很好的描述。现有的一些benchmark存在一定的局限性,评价范围相对狭窄,性能分数很快达到饱和。例如,SuperGLUE在基准发布后的18个月内实现了“超人级”性能。基于这样的背景,BIG-bench诞生了。它目前包含204个任务,涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题。除了由个人专家评委组成的小组外,还执行了所有任务以提供基线水平。为了方便更多的机构,研究人员还给出了BIG-benchLite,这是一个小型但具有代表性的任务子集,用于更快的评估。并开源实现基准API的代码,支持在公开可用模型上进行任务评估,以及轻量级创建新任务。最终的评估结果可以看出,规模跨越了六个数量级,在BIG-bench上的整体性能随着模型规模的扩大和训练样本数量的增加而提升。但是,与人类基线水平相比,性能仍然比较差。具体来说,在某些任务上,模型性能会随着规模的增加而稳步提高。但有时,突破性的表现突然出现在一个特定的规模上。此外,它还可以评估社会偏见模型。此外,他们还无意中发现,模特还可以获得一些隐藏技能。例如,如何在国际象棋中合法移动。作者贡献了14页。值得一提的是,可能因为作者太多,文末专门有一章介绍作者的贡献。洋洋洒洒写了14页,包括核心贡献者、评论、任务提供者……剩下的,还有50页的参考资料。好了,感兴趣的朋友可以点击下方链接获取康康论文。论文链接:https://arxiv.org/abs/2206.04615GitHub链接:https://github.com/google/BIG-bench参考链接:https://twitter.com/jaschasd/status/1535055886913220608
