神经网络关系提取的语法敏感实体表示。关系抽取任务大规模应用的一个主要瓶颈是语料库的获取。近年来,基于神经网络的关系抽取模型在低维空间中表示句子。本文的创新点是在实体的表示模型中加入句法信息。首先,基于Tree-GRU,将实体上下文的依赖树放入句子级表示。其次,利用句间和句内注意力来获得包含目标实体的句子集的表示。研究背景和动机关系抽取任务大规模应用的主要瓶颈之一是语料库的获取。远程监督模型通过将知识库应用于非结构化文本对齐,自动构建大规模训练数据,从而减少对人工构建数据的依赖,增强模型的跨域适应性。然而,在使用远程监督构建语料库的过程中,仅使用实体名称进行对齐,不同的实体在不同的关系下应该具有更丰富、更多样化的语义表示,从而导致错误标记等问题。因此,一组更丰富的实体表示尤为重要。另一方面,基于语法信息的方法通常作用于两个实体之间的关系,语法信息可以丰富实体的表示。因此,本文基于句法上下文中的实体表示来丰富不同关系模式中实体的语义,并结合神经网络模型来处理关系抽取任务。相关工作介绍我们大致将相关工作分为两类:早期基于远程监督的方法和近年来基于神经网络模型的方法。为了解决关系抽取任务严重依赖标注语料库的问题,Mintz等人。(2009)率先提出了一种基于远程监督的标注语料库构建方法。然而,这种方式构建的自动标注语料库中含有大量噪声。为了减轻噪声对语料库的影响,Riedel等人。(2010)将关系提取视为多实例单类别问题。此外,霍夫曼等人。(2011)和Surdeanu等人。(2012)采用了多实例多类别策略。同时,采用最短依赖路径作为关系的语法特征。上述方法的典型缺点是模型的性能取决于特征模板的设计。近年来,神经网络在自然语言处理任务中得到了广泛的应用。在关系提取领域,Socher等人。(2012)采用递归神经网络来处理关系抽取。曾等。(2014)建立了一个端到端的卷积神经网络。此外,曾等人。(2015)假设多个实例中至少有一个实例正确表示了对应关系。与假设存在代表一对实体之间关系的实例相比,Lin等人。(2016)通过注意机制选择正实例,更充分地使用标记语料库中包含的信息。大多数这些基于神经网络的方法使用词级表示来生成句子向量表示。另一方面,基于语法信息的表示也得到了很多研究者的青睐,其中最重要的是最短依存路径(MiwaandBansal(2016)andCaietal.(2016))。主要方法首先,基于依存语法树,使用基于树的递归神经网络(Tree-GRU)模型生成实体的句子级表示。如上图所示,我们不仅仅使用实体本身,还可以更好地表达远距离信息。具体的实体语义表示如下图所示。我们使用Tree-GRU来获得实体的语义表示。其次,利用基于子节点的注意机制(ATTCE,上图)和句子级实体表示注意机制(ATTEE,下图)来减轻句法错误和错误标记的负面影响。实验结果本文在NYT语料库上进行了实验。最终结果如上图所示。其中,SEE-CAT和SEE-TRAINS是本文使用的两种策略,分别将三种向量表示(句子的向量表示,两个实体的向量表示)结合起来。从图中可以看出,所提出的模型在同一数据集上比现有的远距离监督关系提取模型取得了更好的性能。总结本文的实验结果表明,命名实体更丰富的语义表示可以有效帮助最终的关系抽取任务。团队名称:商务平台事业部作者:何正秋、陈文亮、张美珊、李正华、张伟、张敏
