当前位置: 首页 > 科技观察

教会大模型自行跳过“无用”层,推理速度×3性能保持不变,这个谷歌MIT的新方法是流行的

时间:2023-03-16 15:10:50 科技观察

源码。大语言模型用起来爽,但推理速度太慢?而且,增加模型的大小并不一定意味着推理效果比以前更好。为了解决这个问题,谷歌麻省理工学院的研究人员提出了一个新的框架CALM,让它可以自己决定计算量。如果CALM意识到有些层是“可有可无的”,那么它在计算时就会跳过这些层。论文发到网上后,立即引起热议:有网友表示,我们需要这样一个更智能、适应性更强的模型。显然,CALM解码器已经做到了:直接使用中间层输出结果。CALM的全称是ConfidentAdaptiveLanguageModeling,即置信自适应大语言模型。该模型基于Transformer架构。为了加快其计算速度,研究人员提出了一种称为“提前退出”的方法,该方法允许模型根据不同的输入动态确定使用多少层网络进行计算。也就是说,在计算过程中,模型不需要经过每一层的计算再输出结果,而是可以直接利用中间层的特征输出token,从而减少模型的计算量。那么,模型是如何决定何时“退出”的呢?这就需要训练模型学会自己判断。其中,Yfull为标准模型的输出结果,Yearly为模型“提前退出”的输出结果。为了让Yearly运作良好,它需要尽可能与Yfull保持一致。当然,不同的任务对文本输出的一致性有不同的要求。比如对生成结果要求不那么严格(可以生成更多样化的句子)的任务,对Yfull和Yearly的一致性要求较低。因此,作者在论文中也给出了两个不同的公式,可以根据实际情况选择:在实际操作中,论文通过设置一个localtokenconfidence来检查其对整个生成序列的影响。在解码过程中,模型会计算每一层的置信度c,并将其与达到“提前退出”的阈值λ进行比较。如果c大于λ,则模型“提前退出”。那么,这样的模型实际测试效果如何呢?归纳翻译QA任务表现良好。论文在CNN/DM、WMT和SQuAD三个数据集上进行了测试。其中,CNN/DM是新闻文章数据集,需要输出几句话来总结文章的结果;WMT15EN-FR是一个机器翻译数据集,主要是法语到英语句子的结果;Open-bookSQUAD1.1是一个基于维基百科问题的QA数据集。据一位作者TalSchuster介绍,在保持相同性能的情况下,CALM使用的解码器层数与之前相比平均减少了3倍。对于这篇论文,有网友表示认同:模型并不总是需要“深思熟虑很久”,有时候几层就能推断出正确答案。按照作者的说法,这种加速解码的思路适用于任何Seq2seq模型。作者介绍这篇论文一共8位作者,分别来自Google和MITCSAIL,其中有两位主要负责人,TalSchuster和AdamFisch。TalSchuster博士毕业于麻省理工学院,目前是谷歌的高级研究员。他的研究方向是机器学习模型的鲁棒性、可靠性和效率提升。AdamFisch,麻省理工学院博士研究生,毕业于普林斯顿大学,获得学士学位。研究方向为机器学习量化不确定性、few-shotlearning等。对大型语言模型推理加速感兴趣的朋友可以点击论文地址了解更多。论文地址:https://arxiv.org/abs/2207.07061

猜你喜欢