在右侧查看正确的目录
由于标题的局限
由于标题的局限
我对本文的所有内容都重新说明,并介绍了我自己更直接。
如果您对文章中的名词说明有疑问,可以参考我的文章
首先,我们使用轴注意模块之间的相互依赖关系以学习实体,从而改善了两个跳跃关系的性能。第二,我们提出了一种自适应的本地损失来解决DOCRE -Class的问题不平衡,我们使用知识蒸馏来克服手动标签数据和远程监督数据之间的差异。
首先,为了改善两个跳跃关系的推理,我们建议将轴向注意模块用作特征提取器。该模块使我们能够注意两个 - 跳跃逻辑路径中的元素并捕获相互捕获三个元组之间的依赖性。第二,我们提出了一种自适应的局部损失功能来解决标签分布的不平衡。提出的损失鼓励长时间类别为整体损失做出更多贡献。我们使用知识蒸馏来克服该知识蒸馏注释数据和遥远的监督数据之间的差异。
与句子级别的任务相比,DOCRE任务在以下方面更具挑战性:(1)DOCRE的复杂性随着实体数量的增加而增加。如果文档包含n实体,则必须对N(n -1)实体进行分类,并且(2)除了正面和负面案例的不平衡外,关系类型的分布也非常不平衡。(Y ao等,2019)数据,该数据的分布也非常不平衡(2)数据。设置,有96种类型的关系,前10个关系占所有关系标签的59.4%。此不平衡大大增加了文档级别的困难。
现有DOCRE方法有三个限制:首先,现有方法主要集中在实体对的句法符号上,而忽略了实体之间的相互作用。(2021)和Li等。(2021)使用CNN结构对实体之间的相互作用进行编码,但是CNN结构无法捕获两个跳跃推理路径中的所有元素。第二,没有明确的工作来处理docre的不平衡。Zhou等,2021; Zhang等,2021; Zeng等,2020)仅注意阈值学习以平衡正案例和负面病例,但是该案例中的类别不平衡无法解决。很少有关于将远程监督数据应用于DOCRE任务的研究。(2021)表明,远程监督数据可以改善文档的性能 - 级别的关系提取。但是,它只是使用远程监督数据来准备常规模型。
关系提取问题本质上是一个多标签的分类问题。我们的半监督学习框架主要包括三个部分:
对于代表性学习,我们首先通过预训练的语言模型提取每个实体对的上下文。通过轴为导向的模块编码实体之间的相互依赖信息,进一步增强物理对的表示。
①实体意味着嵌入在上下文中:
物理EI的聚合特征:
②文本增强实体表示平均池:集合注意力输出
上下文查询的计算方法:
实体对中等的场景得到了增强:
实体的早期理论
③实体的值表示实体在每个维度上的值:
在给定文档D的情况下,我们需要对n(n -1)的排列进行分类。
④轴向注意力提高实体的实体,以提出使用两跳(两跳上注意)来编码实体的轴向相邻信息。es,eo),其轴向元素的轴向元素对应于(es,ei)或(ei,eo)元素。)和(ei,eo),用于分类的最大邻居(ES,EO)是将实体与ES或EO的单一跳跃候选者配对。
沿着轴建立残留链接:
指定q(i,j)= wqg(i,j),key k(i,j)= wkg(i,j),value v(i,j)= wv g(i,j),它们都是权利的表示G位置的线性投影(I,J)。
然后,我们使用饲料神经网络(FFN)分类器来获得logit并计算其损失。我们使用自适应局部损失来更好地从长尾学习。
预测关系线性层:
l(s,o)表示rc表示所有关系的输出logit。
①高级阈值损失(ATL):ATL并未为所有示例使用全局概率阈值,而是引入了每个示例的特殊t h作为适应性阈值。对于每个实体(ES,EO),logit的类别大于thyl,Logit将被预测为一个积极的类别,其余的将被预测为负类。
自适应局部损失(AFL):在训练过程中,标签空间分为两个子集:阳性子集PT和负子集NT。
a)正类别:阳性子集PT包含实体对之间的关系(ES,EO)。如果实体在(ES,EO)中没有关系,则PT为空(PT =?)。
积极概率的计算:
b)负类别:负子集nt包含不属于正类别的关系,nt = r pt。
负类logit计算TH类别概率:
损失功能:
②与AFL:AFL不同,其中RI的logit和阈值分别对logit进行排序。这与初始ATL不同。在初始ATL中,所有正数均用SoftMax函数进行排序。
最后,我们使用知识蒸馏来克服手动标签数据和远程监督数据之间的差异(远程监督改编的关键挑战是远程监督数据的概率分布与手动标记数据的概率分布之间的差异。)。注释以训练教师模型并将其作为软标签输出。然后根据软标签和较长的距离标签准备学生模型。预先培训的学生模型将通过笔记进行良好的调整。
①只需适应使用关系来提取LRE的远程监督数据(等式11),该数据经过训练,然后对模型进行了训练,然后对具有相同目标的手动标记数据进行了细调。我们称此方法简单适应(NA)。
②知识蒸馏表1:DOCRED和HACRED数据集的数据集统计。
为了进一步使用注释数据,我们使用对评论培训的分类模型(表1中的#Train)作为教师模型。将信息监视数据输入到教师模型中,并且预测的logits将用于训练学生模型的软标签。学生模型与教师模型的配置相同,但同时,使用两个信号进行培训。第一个信号是从遥远的监督数据中对硬标签的监督,第二个信号来自预测的软标签。
硬标签上的损失函数是:
软标签上的知识蒸馏损失函数:
l(s,o)S是学生模型的预测。l(s,o)t是教师模型的预测。
总体损失功能:
在两个文档级关系提取数据集和Hacred数据集上评估模型。
Docred是一个大型文档 - 级别的关系提取数据集,用于众包。它包含3,053/1,000/1,000实例,用于培训,验证和测试。HACRED是中国关系图数据集的困难案例。27牢固的关系分为6231 /1500 /1500用于培训,验证和测试的示例。但是,尚未发布Hacred的测试集。在本文中,我们仅提供其开发收集的结果。
todocred数据集表2:DOCRED数据集的实验结果。报告的指标为F1分数和IGN_F1。我们的报告要开发5个随机操作平均值,最佳检查点用于提交测试结果的排名。通过复制获得。
表2显示了DOCRED数据集的主要结果。知识蒸馏可以显着提高我们的模型的性能。我们的KD -RB -L获得了67.28测试F1的最佳单个模型性能。我们的最佳模型在测试F1上增加了1.36。在测试IGN_F1上,最先进的SAN -NA -RB -L性能在测试中提高了1.46。在测试F1最先进的SAN -NA -NNA -RB -L性能上,最佳型号增加了1.36,在IGN_F1测试中增加了1.46。
②hacred数据集表3:有关Hacred开发的实验结果。
Hacred数据集的实验结果如表3所示。我们的方法和TLOP基线之间的主要区别是自适应局部损失和轴向注意模块。我们提出的方法可以超过1.12 f1,而不是A TLOP基线。该模型的性能,值得注意的是,Hacred的绝对性能明显高于每种方法的DOCRED的性能。这违反了直觉,因为Hacred专注于牢固的关系,而Docred更一般。
这可能是由以下原因引起的:
1)Hacred数据集的人工标记训练实例明显远远超过DOCRED,这导致了更好的概括性能。
2)尽管Hacred声称它的重点是关系提取的严重情况,但它只有27个类,并且Hacred数据浓度的关系类型分布更加平衡。
首先将标签空间划分为两个子集。第一个子集由10个最常见的标签组成,占训练数据中正确关系之间关系的59.4%。第二个子集是一个长的尾巴标签,其中包含其余部分86关系(总标签空间为97,有一个T h类)。
由于我们的自适应局部损失函数主要是为了提高低频类别的性能,因此我们在表4中证明了频繁且长期尾声研究。当我们将AFL损失更改为传统的自适应阈值损失时(Zhou等,,2021年),KD的整体性能下降了0.89 F1,F1得分经常标记为F1,下降了0.65。
同时,长尾标签F1降低了1.78,这显着高于总体性能下降和频繁的性能。这表明我们的自适应焦点损失可以频繁平衡和不舒服的重量。有利于频繁比较长尾巴,表明我们的模型在频繁类中的性能已饱和。
表5:DOCRED开发的文档开发。
在本节中,我们直接比较有关DOCRED开发的知识适应方法(表6)。
我们主要比较三种自适应方法:
开发中的适应性能与下游的良好调查性能呈正相关。在远程适应环境中,我们的最佳方法KDM SE比Na高3.07 F1,比KDKL高0.77 F1。在连续训练中也观察到了差异。设置。
表6:DOCRED的不同知识适应方法的开发设置性能。
表7:我们的误差分布统计。最终评估得分是在R r r r的三核上评估的,因此计算最终得分时的NR的正确预测。
我们首先建立了模型的模型和地面实际价值的组合(没有NR标签)。然后,我们将分为四个类别:
本文提出了一个新的文档 - 级别的关系图框架,该框架基于知识蒸馏,轴向注意和适应性焦点损失。我们提出的方法可以大大超过DOCRED排名上先前的艺术状态。此外,我们已经进行了- 深度培训和错误分析,以确定民主关系提取任务的瓶颈。
原始:https://juejin.cn/post/709667262168882844