当前位置: 首页 > 科技观察

深度学习在实体识别与关系抽取中的应用分析

时间:2023-03-20 21:07:29 科技观察

1.命名实体识别(NamedEntityRecognition,NER)是从一段自然语言文本中找出相关的实体,并标注出它们的位置和类型。如下所示。命名实体识别是NLP领域一些复杂任务的基础问题,如自动问答、关系抽取、信息检索等,其效果直接影响到后续处理的效果,因此是NLP领域的基础问题。自然语言处理研究。NER一直是NLP领域的研究热点,目前在医疗、生物学等专业领域的应用也越来越广泛。这类行业往往有大量的专业名词,名词与名词之间的关系也各不相同。NER的研究从一开始的基于字典和规则的方法,基于统计机器学习的方法,到近年来基于深度学习的方法。NER研究的进展趋势如下图所示。基于统计机器学习的方法主要有:隐马尔可夫模型(HiddenMarkovModelHMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandomFields,CRF)等。隐马尔可夫模型(HMM)主要使用维特比算法求解命名实体类别序列,在训练和识别上效率更高、速度更快。隐马尔可夫模型适用于一些实时性要求和需要处理大量文本的应用,比如短文本命名实体识别,比如信息检索。***熵模型(ME)结构紧凑,通用性好。缺点是训练时间复杂度高,有时训练成本难以承受。由于需要显式归一化计算,计算开销比较大。传统公认较好的处理算法是条件随机场(ConditionalRandomField,CRF),它给出了一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特征在于假设输出的随机变量由马尔可夫随机场组成,是一种判别概率模型,是随机场的一种。CRF通常用于标记或分析序列数据,例如自然语言文本或生物序列。NER中的基本应用是在给定一系列特征的情况下预测每个单词的标签。上图中,X可以看作是句子中每个词对应的特征,Y可以看作是词对应的标签。这里的标签是对应场景中的人名、地名等。CRF的优点:基于局部最优解,在给定z的情况下计算可能序列y的概率分布。近年来,随着深度学习的快速发展,RNN、LSTM等模型在NLP任务中得到了广泛的应用。它们的特点是强大的序列建模能力,它们可以很好地捕获上下文信息,并且具有神经网络拟合非线性的能力,这些都是相对于CRF的优势。LSTM的优势在于获取长期序列中样本之间的关系,而BiLSTM可以更有效地获取输入句子前后的特征。BiLSTM+CRF在大多数NLP场景中都表现出了非常好的效果。比如在分词任务中,与传统的分词器相比,BiLSTM可以利用双向获取句子特征的优势,分词效果更接近人类认知的感觉。2.关系抽取在当前的NLP研究中,关系抽取(relationextraction)任务广泛应用于数据简化和构建知识图谱。给定一段用户输入的自然语言,在正确识别实体的基础上,提取它们之间的关系是一个亟待解决的重要问题。目前解决这一问题的方法分为两类:串行提取和联合提取。通常,传统的串行抽取方法是在实体抽取的基础上识别实体之间的关系。该方法中,前面实体识别的结果会影响关系抽取的结果,前后容易出现误差累积。针对这一问题,提出了一种基于传统机器学习的联合模型,并逐渐用于此类NLP任务的联合学习。联合模型的方法主要是基于神经网络的端到端模型,同时实现实体抽取和关系抽取,可以更好地将实体和其中的关系信息结合起来。在论文《Joint Entity and Relation Extraction Based on A Hybrid Neural Network》中,作者提出了一种用于命名实体识别(NER)和关系分类(RC)的混合神经网络模型。NER和RC使用相同的BiLstm网络对输入进行编码,根据NER预测的结果对实体进行配对,然后使用一个CNN网络对实体之间的文本进行分类。CNN通过共享底层模型参数用于关系分类(RC)。在训练过程中,两个任务都会通过反向传播算法更新共享参数,实现两个子任务之间的依赖关系。在论文《A neural joint model for entity and relation extraction from biomedical text》中,作者将联合学习的方法用于生物医学实体识别和关系抽取。在对关系进行分类时,首先对输入语句进行分析,构建依存句法树,然后输入树结构。在Bilstm+RNN网络中进行关系分类,如下图所示:从上面的方法可以看出,两个任务的网络是通过共享参数共同学习的。先通过NER进行训练,然后根据NER的结果对关系进行分类。今年ACL的杰出论文《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》提出了一种新的关系抽取标注策略,使用联合方法将命名实体识别(namedentityrecognition)和关系抽取(relationextraction)分两步结合起来:通过一个新的标注方案将抽取任务转换为标注任务,然后使用深度学习方法通??过端到端标注模型提取最终结果。新标签方案的示例如下图所示:上图中的“CP”代表“Country-President”,“CF”代表“Company-Founder”。这样,原来的两个子任务就完全转化成了一个序列标注问题。作者使用“BIES”(Begin、Inside、End、Single)来表示当前词在整个实体中的位置,关系类型来自于一组预设的关系类型。用“1”和“2”表示实体在关系中的角色信息,其中“1”表示当前词属于三元组(Entity1,RelationType,Entity2)的Entity1,同理“2”表示当前词属于Entity2,根据标注结果,将两个相邻的顺序实体组合成一个三元组。例如,从标签可以看出,“United”和“States”组合成实体“UnitedStates”,实体“UnitedStates”和实体“Trump”组合成三元组{United州,国家总统,}。论文作者主要考虑一个词只属于一个三元组的情况。对于三元组重叠问题,即多个三元组包含同一个词的情况,作者暂时还没有考虑。端到端模型如下图所示:该模型仍然使用BiLSTM进行编码,然后在参数共享中使用LSTM进行解码。该模型可用于丰富现有的知识图谱资源。例如各种智能应用,如:自动问答、智能搜索、个性化推荐等,都需要知识图谱的支持。3.总结参数共享的方法越来越多地应用于基于神经网络的实体识别和关系抽取的联合学习中。该方法在多任务中应用广泛,简单易行。如何更好地将这两类任务结合起来进行端到端的关系抽取任务是下一步研究的重要趋势,期待更好的方法出现。