作者:肖扬华,复旦大学计算机学院,副教授,博士生导师,上海市互联网大数据工程技术中心副主任。主要研究方向为大数据管理与挖掘、知识库等。大数据时代的到来给人工智能的快速发展带来了前所未有的数据红利。在大数据的“反哺”下,人工智能技术取得了前所未有的进步。其进展突出体现在以知识图谱为代表的知识工程、以深度学习为代表的机器学习等相关领域。随着深度学习对大数据的红利逐渐耗尽,深度学习模型的效果天花板也越来越逼近。另一方面,大量知识图谱不断涌现,但这些蕴藏着大量人类先验知识的宝库并没有被深度学习有效利用。将知识图谱与深度学习相结合,成为进一步提升深度学习模型效果的重要思路之一。以知识图谱为代表的符号主义和以深度学习为代表的联结主义,越来越脱离原来各自独立的发展轨道,走上一条协同进步的新路子。知识图谱与深度学习融合的历史背景大数据给机器学习,尤其是深度学习带来了前所未有的数据红利。得益于大规模标记数据,深度神经网络可以获得有效的层次特征表示,从而在图像识别等领域取得优异的成绩。然而,随着数据红利的消失,深度学习也越来越显示出其局限性,尤其是对大规模标注数据的依赖以及难以有效利用先验知识。这些限制阻碍了深度学习的进一步发展。另一方面,在大量的深度学习实践中,人们越来越多地发现深度学习模型的结果往往与人类先验知识或专家知识相冲突。如何摆脱深度学习对大规模样本的依赖?如何让深度学习模型有效利用大量的先验知识?如何使深度学习模型的结果与先验知识保持一致成为当前深度学习领域的一个重要课题。目前,人类社会已经积累了大量的知识。特别是近年来,在知识图谱技术的推动下,出现了大量机器友好的在线知识图谱。知识图谱本质上是一个语义网络,表达了各种实体、??概念以及它们之间的语义关系。与传统知识表示形式(如本体、传统语义网络)相比,知识图谱具有实体/概念覆盖率高、语义关系多样、结构友好(通常以RDF格式表示)和高质量等优点,使得知识图谱越来越受到重视。成为大数据和人工智能时代最重要的知识表示方法。知识图谱中包含的知识是否可以用来指导深度神经网络模型的学习,从而提高模型的性能,已经成为深度学习模型研究中的重要问题之一。现阶段,将深度学习技术应用于知识图谱的方法比较直接。大量的深度学习模型可以有效完成端到端的实体识别、关系抽取、关系补全等任务,进而构建或丰富知识图谱。本文主要探讨知识图谱在深度学习模型中的应用。从目前的文献来看,主要有两种方式。一是将知识图谱中的语义信息输入到深度学习模型中;将离散的知识图谱表示为连续向量,使得知识图谱的先验知识成为深度学习的输入。二是以知识作为优化目标的约束来指导深度学习模型的学习;通常,知识图谱中的知识表示为优化目标的后验正则化项。前人的研究工作文献较多,成为当前的研究热点。知识图谱向量表示作为一个重要的特征,已经有效地应用于问答、推荐等实际任务中。后者的研究刚刚起步,本文将重点关注一阶谓词逻辑约束的深度学习模型。知识图谱作为深度学习的输入知识图谱是人工智能符号体系最新进展的典型代表。知识图中的实体、概念和关系是离散和明确表示的。然而,这些离散的符号表示很难直接应用于基于连续数值表示的神经网络。为了让神经网络有效地利用知识图谱中的符号知识,研究人员提出了大量针对知识图谱的表示学习方法。知识图谱表示学习旨在获取知识图谱构成元素(节点和边)的实值向量化表示。这些连续的向量化表示可以作为神经网络的输入,使得神经网络模型可以充分利用存在于大量知识图谱中的先验知识。这种趋势催生了大量关于知识图表示学习的研究。本章首先简要回顾了知识图谱的表示学习,然后进一步介绍了这些向量表示如何应用于基于深度学习模型的各种实际任务,特别是问答和推荐等实际应用。1.知识图谱的表示学习知识图谱的表示学习旨在学习实体和关系的向量化表示。关键是合理定义损失函数?r(h,t),其中和是三元组的两个实体h和t的向量化表示。一般而言,当事实成立时,期望最小化?r(h,t)。考虑到整个知识图谱的事实,可以通过最小化来学习实体和关系的向量化表示,其中O表示知识图谱中所有事实的集合。不同的表示学习可以使用不同的原理和方法来定义相应的损失函数。这里用一个基于距离和平移的模型来介绍知识图谱表示的基本思想[1]。基于距离的模型。其代表作是SE模型[2]。基本思想是,当两个实体属于同一个三元组时,它们的向量表示在投影空间中也应该彼此接近。因此,损失函数定义为向量投影后的距离,其中矩阵Wr,1和Wr,2用于三元组中头实体h和尾实体t的投影操作。但由于SE引入了两个独立的投影矩阵,因此很难捕获实体和关系之间的语义相关性。对于这个问题,Socher等人。使用三阶张量代替传统神经网络中的线性变换层来描述评分函数。博尔德斯等。提出了一种能量匹配模型,通过引入多个矩阵的Hadamard积来捕捉实体向量和关系向量之间的相互作用。基于翻译的表征学习。其代表作TransE模型通过向量空间的向量平移来描述实体和关系之间的关联[3]。该模型假设如果成立,则尾实体t的嵌入表示应该接近头部实体h的嵌入表示加上关系向量r,即h+r≈t。因此,采用TransE作为评分函数。当三胞胎成立时,得分较低,否则得分较高。TransE在处理简单的1-1关系(即关系两端连接的实体数之比为1:1)时非常有效,但在处理N-的复杂关系时性能明显下降1、1-N和N-N。针对这些复杂的关系,Wang提出了TransH模型,通过将实体投影到关系所在的超平面上,来学习不同关系下实体的不同表示。Lin提出TransR模型,通过投影矩阵将实体投影到关系子空间,从而学习到不同关系下的不同实体表示。除了上述两类典型的知识图表示学习模型外,还有大量其他表示学习模型。例如,Sutskever等人。使用张量分解和贝叶斯聚类来学习关系结构。兰扎托等人。引入三向受限玻尔兹曼机来学习知识图的矢量化表示,由张量参数化。目前主流的知识图谱表示学习方法还存在各种问题,如不能很好地描述实体和关系之间的语义关联,不能很好地处理复杂关系的表示学习,模型过于复杂等。引入大量参数,计算效率低,难以扩展到大规模知识图谱等。为了更好地为机器学习或深度学习提供先验知识,知识图表示学习仍然是一个长期的研究课题。知识图谱向量化表示的应用1问答系统。自然语言问答是人机交互的一种重要形式。深度学习支持基于问答语料库的生成式问答。然而,目前大多数深度问答模型仍然难以在知识量大的情况下实现准确回答。对于简单的事实问题,Yin等人。提出了一种基于编码器-解码器框架的深度学习问答模型,可以充分利用知识图谱中的知识[4]。在深度神经网络中,问题的语义通常表示为向量。具有相似向量的问题被认为具有相似的语义。这是典型的联结主义。另一方面,知识图谱的知识表示是离散的,即知识与知识之间不存在渐进关系。这是典型的象征主义。通过向量化知识图谱,可以将问题匹配到三元组(即计算它们的向量相似度),以从知识库中找到特定问题的最佳三元组匹配。匹配过程如图1所示。对于问题Q:“HowtallisYaoMing?”,首先将问题中的词表示为一个向量数组HQ。进一步在知识图中搜索可以匹配的候选三元组。最后,针对这些候选三元组,分别计算问题与不同属性之间的语义相似度。由以下相似度公式确定:其中,S(Q,τ)表示问题Q与候选三元组τ的相似度;xQ表示问题的向量(由HQ计算),uτ表示知识图谱的三元组的向量,M是要学习的参数。图1基于知识图谱的神经生成问答模型应用2推荐系统。个性化推荐系统是互联网上各大社交媒体和电子商务网站的重要智能服务之一。随着知识图谱的应用越来越广泛,大量的研究工作已经意识到,知识图谱中的知识可以用来改进基于内容的推荐系统中用户和物品的内容(特征)描述,从而提高推荐效果。另一方面,基于深度学习的推荐算法越来越优于基于协同过滤的传统推荐模型[5]。然而,将知识图谱融入深度学习框架的个性化推荐研究工作还比较少见。Zhang等人进行了这样的尝试。作者充分利用了三类典型知识,即结构化知识(知识图谱)、文本知识和视觉知识(图片)[6]。作者通过网络嵌入得到结构化知识的向量化表示,然后使用SDAE(StackedDenoisingAuto-Encoder)和stackedconvolution-autoencoder提取文本知识特征和图片知识特征;最后将三类特征融合到协同集成学习框架中,利用三类知识特征的融合实现个性化推荐。作者在电影和书籍数据集上进行了实验,证明了这种结合深度学习和知识图谱的推荐算法具有良好的性能。知识图谱作为深度学习的约束Hu等人。提出了一种将一阶谓词逻辑集成到深度神经网络中的模型,并成功地用它来解决情感分类和命名实体识别等问题[7]。逻辑规则是对高级认知和结构化知识的灵活表示,也是一种典型的知识表示。将人们积累的各种逻辑规则引入深度神经网络,利用人类的意图和领域知识来指导神经网络模型具有重要意义。其他一些研究工作试图将逻辑规则引入概率图形模型。这类工作的代表是马尔可夫逻辑网络[8],但很少有工作能将逻辑规则引入深度神经网络。Hu等人提出的方案框架。可以概括为“师生网络”,如图2所示,包括教师网络q(y|x)和学生网络pθ(y|x)两部分。其中教师网络负责对逻辑规则所代表的知识进行建模,学生网络利用反向传播的方法加上教师网络的约束来实现逻辑规则的学习。该框架可以为大多数基于深度神经网络建模的任务引入逻辑规则,包括情感分析、命名实体识别等,通过引入逻辑规则,在深度神经网络模型的基础上提升效果。图2.将逻辑规则引入深度神经网络的“师生网络”模型的学习过程主要包括以下步骤:使用软逻辑将逻辑规则表示为[0,1]之间的连续值。基于后验正则化方法,使用逻辑规则对教师网络进行约束,同时保证教师网络和学生网络尽可能接近。最终优化函数为:其中,ξl、gl为松弛变量,L为规则数,Gl为第l条规则的基数。KL函数(Kullback-LeiblerDivergence)部分保证教师网络和学生网络的获取模型尽可能一致。随后的正则项表示来自逻辑规则的约束。训练学生网络,保证教师网络和学生网络的预测结果尽可能好。优化函数如下:其中,t为训练轮次,l为不同任务中的损失函数(如分类问题中,l为交叉熵),σθ为预测函数,sn(t)是教师网络的预测结果。重复步骤1-3直到收敛。结论随着深度学习研究的进一步深入,如何有效利用大量先验知识来降低模型对大规模标注样本的依赖逐渐成为主流研究方向之一。知识图谱的表示学习为这个方向的探索奠定了必要的基础。最近一些将知识融入深度神经网络模型的开创性工作也具有指导意义。但总的来说,目前的深度学习模型利用先验知识的手段还很有限,学术界在这个方向的探索上仍然面临着很大的挑战。这些挑战主要体现在两个方面:如何获得各类知识的高质量连续表示。当前知识图谱的表征学习,无论基于何种学习原理,都不可避免地会产生语义损失。符号知识一旦向量化,大量的语义信息被丢弃,只能表达非常模糊的语义相似度。如何为知识图获得高质量的连续表示仍然是一个悬而未决的问题。如何将常识性知识融入深度学习模型。大量的实际任务(如对话、问答、阅读理解等)需要机器理解常识。常识性知识的匮乏严重阻碍了通用人工智能的发展。如何将常识引入深度学习模型,将是未来人工智能研究领域的重大挑战,同时也是重大机遇。