当前位置: 首页 > 科技观察

ArchitecturalBottleneckPrinciple:使用注意力探针来估计神经网络组件提供了多少句法信息

时间:2023-03-12 21:05:21 科技观察

预训练的语言模型在各种自然语言处理任务上表现惊人,引起了人们对其分析的兴趣。探测是用于此类分析的最常用方法之一。在典型的探测研究中,探测是插入中间层(通常是分类器层)的浅层神经网络。它有助于探测不同层捕获的信息。使用辅助任务对探测进行训练和验证,以发现是否捕获了此类辅助信息。一般来说,研究人员首先冻结模型的权重,然后在模型的上下文表示的基础上训练探针来预测输入句子的属性,例如句法分析(分析句子结构并整理出句子中单词之间的差异。连接规则)。不幸的是,关于如何设计此类探针的最佳实践仍然存在争议。一方面,一些研究人员倾向于使用简单的探针,以便将探针与NLP任务区分开来;另一方面,有些人认为需要复杂的探针才能从表示中提取相关信息。此外,还有其他人考虑采用折衷方法,主张将复杂性-准确性Pareto曲线的探测考虑在内。在这篇论文中,来自剑桥大学和苏黎世联邦理工学院的研究人员提出了架构瓶颈原则(ABP,architecturalbottleneckprinciple)作为构建有用探针的指导方针,并试图衡量神经网络中的一个组件从输入的表示中提取的能力有多好给它多少信息。为了估计可以为给定组件提取多少信息,研究发现探针应该与组件完全相同。根据这一原则,本研究使用注意力探针来估计有多少句法信息可用于转换器。论文地址:https://arxiv.org/pdf/2211.06420.pdf例如,研究假设transformer的attentionhead是其使用句法信息的瓶颈,因为这是transformer中唯一可以访问多个的组件令牌同时。根据ABP的说法,该研究提出了注意力探针,例如注意力头。探针回答了以下问题:转换器在计算其注意力权重时可以使用多少句法信息?结果表明,大多数(尽管不是全部)句法信息可以通过这种简单的注意力头架构提取:英语句子平均包含31.2位的句法树结构信息,而注意力探针可以提取28.0位的信息。此外,在BERT、ALBERT和RoBERTa语言模型上,探针可以提取句子的大部分语法树,这表明这些模型在构成上下文表示时可以访问句法信息。然而,这些模型是否真的使用了这些信息仍然是一个悬而未决的问题。注意探针目前,设计有效探针的方法有很多。分类原则大致包括:线性原则、最大信息原则、易提取原则以及本文提出的ABP原则。可以说ABP连接了前三个原则。最重要的是,ABP概括了线性原理和最大信息原理。此外,ABP还通过限制探针的容量来隐式控制信息抽取的难度。本研究的重点是transformer注意力机制。以前的研究人员断言,转换器在计算注意力权重时会使用句法信息。此外,注意力头是转换器中唯一可以同时访问多个单词的组件。因此,在注意力头的背景下探索ABP是一个自然的起点。具体来说,根据ABP,我们可以研究transformer的attentionhead能从inputrepresentation中提取多少信息。实验结果对于数据,研究人员使用了通用依赖(UD)树库。他们分析了四种不同类型的语言,包括巴斯克语、英语、泰米尔语和土耳其语。此外,我们将分析重点放在未标记的依赖树上,并注意到UD使用特定的句法形式,这可能会影响结果。对于模型,研究人员探索了针对上述四种语言的多语言BERT,以及仅限英语的RoBERTa和ALBERT。根据ABP,他们保持探针的隐藏层大小与被探测架构中的大小相同。最后,他们还使用了与BERT具有相同架构的未经训练的Transformer模型作为基线。下面的图1显示了主要结果。首先,研究人员的调查估计大多数句法信息可以在中间层提取。其次,大量句法信息被编码在提供给注意力头的表示中。他们估计英语、泰米尔语和巴斯克语的句子编码了将近31位的信息,而土耳其语的句子编码了大约15位。研究人员怀疑这是因为土耳其语在语料库中的句子最短。研究人员还发现,句子中几乎所有的句法信息都可用于正在考虑的基于转换器的模型。例如,在英语中,他们发现在BERT、RoBERTa和ALBERT中,信息量最大的层的V因子分别为90%、82%和89%,如下表1所示。这意味着这些模型可以访问句子中大约85%的句法信息。但是未经训练的BERT表示不适合这种情况。最后,我们将BERT的注意力权重(通过其预训练的注意力头计算)直接代入原始方程式(8)并分析生成的未标记依恋分数。英语的BERT结果如下图2所示。简而言之,虽然注意力头可以使用大量句法信息,但实际的头都不能计算与句法树非常相似的权重。然而,由于BERT有8个注意力头,因此可以以分布式方式使用句法信息,其中每个注意力头都依赖于该信息的一个子集。