当前位置: 首页 > 科技观察

清北微软深挖GPT,理解上下文学习!和微调基本一样,只是参数没变

时间:2023-03-21 16:16:53 科技观察

大规模预训练语言模型的一个重要特征是上下文学习(In-ContextLearning,ICL)能力,即通过一些示例性的输入-标签对,可以对新的输入做出预测标签而不更新参数。虽然性能有所提升,但大模型的ICL能力从何而来,仍然是一个悬而未决的问题。为了更好地理解ICL的工作原理,来自清华大学、北京大学和微软的研究人员联合发表了一篇论文,将语言模型解释为元优化器,并将ICL理解为一种隐式(implicit)微调。论文链接:https://arxiv.org/abs/2212.10559从理论上讲,本文阐明了Transformerattention中存在基于梯度下降优化的对偶形式,在此基础上对ICL的理解为如下。GPT首先根据演示实例生成元梯度,然后将这些元梯度应用于原始GPT以构建ICL模型。在实验中,研究人员综合比较了ICL的行为和对实际任务的显式微调,以提供支持这种理解的经验证据。事实证明,ICL在预测级别、表示级别和注意行为级别上的表现类似于显式微调。此外,受元优化理解的启发,类比基于动量的梯度下降算法,本文还设计了一种基于动量的attention,其性能优于普通attention,从另一个方面支持了这一点.理解的正确性也揭示了利用这种理解进一步设计模型的潜力。ICL的Principles研究人员首先对Transformer中的线性注意力机制进行了定性分析,以找到其基于梯度下降优化的对偶形式。然后将ICL与显式微调进行比较,并在这两种优化形式之间建立联系。Transformerattentionismeta-optimization令X为整个query的输入表示,X'为example的表示,q为queryvector,那么在ICL设置下,模型中ahead的attention结果为如下:可以看到,去除了缩放因子rootd和softmax之后,标准的注意力机制可以近似如下:将Wzsl设置为零样本学习(ZSL)的初始参数后,Transformerattention可以转换为到以下对偶形式:可以看出,ICL可以解释为元优化过程:1.使用基于Transformer的预训练语言模型作为元优化器;2.基于演示样本通过前向计算计算元梯度;3.通过attention机制,将meta-gradient应用到原始语言模型上,构建ICL模型。ICL和fine-tuning的比较为了比较ICL的meta-optimization和explicitoptimization,研究人员设计了一个特定的fine-tuningsetting作为baseline进行比较:微调也只更新键和值。价值投影的参数。同样在线性注意力的非严格形式下,微调的头部注意力结果可以表示为:为了与ICL进行更公平的比较,实验进一步限制微调设置如下:1.指定训练examplesasICL2.每个example只进行一步训练,顺序和ICL的demonstrationorder一样;3.每个训练样例都使用ICL使用的模板进行格式化,并使用因果语言建模目标微调进行训练。经过比较,可以发现ICL和fine-tuning有很多共同的属性,主要包括四个方面。都是梯度下降。可以发现ICL和fine-tuning都更新了Wzsl,也就是梯度下降。唯一的区别是ICL通过前向计算产生元梯度,而finetuning通过反向传播获得真实梯度。相同的训练信息ICL的元梯度是从demonstanceexamples中得到的,fine-tuning的梯度也是从相同的训练样本中得到的,即ICL和fine-tuning共享相同的训练信息源。训练样例的因果顺序是相同的。ICL和微调共享训练示例的因果顺序。ICL使用了decoder-onlyTransformers,所以例子中后面的token不会影响前面的token;对于fine-tuning,由于训练样例的顺序相同,而且只训练一个epoch,所以也可以保证后面的样本对前面的样本没有影响。两者都作用于attention与zero-shotlearning相比,ICL和fine-tuning的直接影响仅限于attention中key和value的计算。对于ICL,模型参数不变,它将样本信息编码成额外的键和值,改变注意力行为;对于微调中??引入的限制,训练信息只能应用于矩阵中注意力键和值的投影。基于ICL和微调之间的这些共同属性,研究人员认为将ICL理解为一种隐式微调是合理的。实验部分任务和数据集研究者选取了跨越三个分类任务的六个数据集来比较ICL和fine-tuning,其中SST2、SST-5、MR和Subj四个数据集用于情感分类;AGNews是一个Topic分类数据集;用于自然语言推理的CB。实验设置的模型部分使用了两个类似GPT的预训练语言模型,由fairseq发布,其参数分别为1.3B和2.7B。对于每个任务,相同的模板用于ZSL、ICL和微调样本以进行格式化。与ZSL相比,ICL和微调都在准确性上取得了相当大的改进,这意味着它们的优化有助于这些下游任务。此外,在少数情况下,ICL优于微调。Rec2FTP(RecalltoFinetuningPredictions)GPT模型在六个数据集上的评分结果表明,平均而言,ICL可以正确预测87.64%的示例,而微调可以纠正ZSL。在预测层面,ICL可以覆盖大部分的正确行为进行微调。SimAOU(SimilarityofAttentionOutputUpdates)从结果可以发现,ICL更新和微调更新的相似度远高于随机更新,这也说明在representationlevel上,ICL倾向于改变attention的结果与fine-tuning变化的方向相同。SimAM(SimilarityofAttentionMap)作为SimAM的基线指标,ZSLSimAM计算ICL注意力权重和ZSL注意力权重的相似度。通过比较这两个指标,可以观察到与ZSL相比,ICL倾向于产生类似于微调的注意力权重。同样,在注意力行为层面,实验结果表明ICL的行为类似于微调。