当前位置: 首页 > 科技观察

五大智能领域知识图谱应用盘点

时间:2023-03-14 11:58:21 科技观察

1.语义匹配语义匹配是搜索推荐、智能问答和辅助决策的基础。在知识图谱出现之前,文本匹配主要依靠字面匹配,匹配结果通过数据库搜索得到。然而,这种方法有两个问题。一方面,文本输入本身的局限性造成检索遗漏;另一方面,对检索结果的评价缺乏可解释性,排名受到质疑,往往找不到想要的结果。知识图谱的出现有效解决了以上两个问题。一方面,可以通过关键词扩展获得更多的输入效果;输入被扩展。如果输入是句子文本,还可以结合角色标注来获得语义理解。在语义匹配方面,知识图谱在几个方面增强了智能,如图4-12所示。▲图4-12知识图谱增强语义匹配智能化1.关键词增强定义词的同义词、下义词等词集。当关键词被检索到时,与该关键词相关的其他词也通过图表进行搜索。可以使用搜索的方式来扩大或限制搜索,更全面、更准确地找到您需要的信息。2.实体链接(对齐)对自然语言描述的问题进行语法和语义分析,然后将其转化为结构化的查询语句,直接在知识图谱中查询甚至命中答案,而不是去回忆大量的网页链接。例如搜索“茶圣的著作是什么?”,可以返回“茶经”的答案。其中茶圣与陆羽有关联,作品名称是从陆羽的知识卡中查到的。3.概念匹配基于已建立的知识库,通过图形化用户界面(可视化本体概念树)或关键词提交查询,系统、快速、有效地检索出某个概念的所有实例。在图中搜索“机器人”可以查看与概念相关的示例(如软体机器人、码垛机器人等),均为概念的下义词。通过概念关系,还可以获得上下游链中的概念,有助于我们细化知识选择,提高概念检索的范围。实现网页链接到概念链接的转变,支持按概念主题检索,不再按字符串检索。以图形化的方式向用户展示分类、结构化的知识,使人们从手动过滤网页寻找答案的模式中解脱出来。4.句间关系匹配句间关系匹配是对两个短语或句子之间的关系进行分类。常见的句间关系匹配如自然语言推理(NaturalLanguageInference,NLI)、语义相似度判断(SemanticTextualSimilarity,STS)等。可以提高语义分析能力。2、搜索与推荐大数据时代,每天都会产生海量信息,快速准确获取感兴趣的文本越来越难,大量“长尾分布”的内容已经没有机会被发现或跟踪。从自然语言输入输出的角度看,搜索可以看成是被动推荐,推荐也可以看成是自发搜索,某种程度上可以放在一起讨论。早期是根据用户输入进行搜索,通过索引和输入文字匹配得到结果召回,无法得到精确答案,有很强的局限性。依托知识图谱实现语义扩展,可以获得更好的排序和召回结果。图4-13中显示的搜索过程的几个方面反映了知识图智能的力量。1.实体和概念识别针对用户输入的自然句子,通过预处理、查询纠错、分词,进一步实现词向量模型、句法分析和模式挖掘。将搜索和推荐的查询语句映射到词向量空间,建立合适的向量表示学习模型,识别概念模式、实体类型和实体。▲图4-13搜索推荐主要内容2.查询意图理解执行上述实体和概念查询,完成知识图谱中的实体链接和概念模式匹配。实体理解是通过计算本地实体链接、短文本链接和跨语言链接获得的。进一步配合多案例归纳,实现概念理解。综合查询扩展内容,进行意图分类或匹配,完成搜索意图判断。3.查询语句生成根据意图分析或模板匹配,进一步根据查询位置或查询重要性,生成SQL查询语句或SPAQRL语句。4.答案推荐与评价对上述查询得到的回忆答案进行排序,然后评价搜索效果,改进搜索逻辑。得益于知识图谱的加持,通过在知识图谱的基础上注入辅助信息(如实体、关系、属性),我们可以对用户、产品、行为进行精细的画像。例如,用户信息可能包括用户ID、用户属性(性别、年龄、地区)或之前的浏览文本。产品是推荐的实体,例如视频、歌曲或书籍。操作可以包括查询/上下文、点击、浏览、收藏、交易等。此信息有助于查询排序。推荐可以看作是主动搜索,但往往不能解决交互稀疏问题和冷启动问题。基于约束和示例的推荐引入外部信息,赋予推荐系统常识推理能力。某种程度上也算是一种推理,可以解决冷启动问题。针对交互稀疏性问题,可以利用知识图谱的图结构,将搜索推荐交互视为“实体-关系”路径,从而基于路径计算预测文本偏好。3.问答对话近年来,问答对话受到了广泛的关注,尤其是在知识图谱的帮助下,知识图谱问答取得了长足的进步。由于对话可视为多轮问答,故以问答为主。知识图谱问答直接根据用户问题的语义在知识图谱上进行搜索和推理,将知识图谱作为先验知识融入到问答中,得到匹配的答案。其优点包括:处理后的数据质量高,因此图问答答案更准确,检索效率更高,可以支持推理。这种问答方式自动、准确、直接,是一种新型的搜索引擎,其智能化如图4-14所示。▲图4-14问答对话的智能化1.问题意图识别将用户意图分为关系查询、属性查询、比较、判断等不同类别。设计句子模板,进行匹配判断,或通过实体链接和属性匹配进行识别。例如实体和属性直接匹配,则返回属性值或关系名;或意图基于图计算方法进行标记。当前流行的基于深度学习的方法通过输入句子表征来学习完成意图分类。2、实体识别和连接意图识别完成后,进行实体识别和链接,识别出问题中的实体,并对应到知识图谱实体。如果有多个候选链接结果,则需要进行消歧。基于第3章介绍的文本标注、文本匹配和图计算方法,最后返回最好的识别或链接结果。3.Slotandrelationshiprecognition识别问题中的实体、约束和关系,从候选关系中选择语义匹配度最高的关系路径。这主要是通过插槽填充或关系识别来完成的。通过实体约束判断主要实体和约束关系,通过实体链接和排序模型,最终识别问题关系路径。4.问题改写在关系路径识别的基础上,对输入问题进行同义改写。需要对改写后的查询句和原输入的问句进行语义一致性判断,只有语义一致的改写后的问句才能生效。在不改变用户意图的情况下,尽可能多地召回符合用户意图的搜索结果。5.答案排序与评价调用排序模块对召回结果进行归并筛选。基于关键词串、知识扩展、场景匹配等综合打分。在验证和评估方面,通过分析语义验证集和日志抽样标注集,对离线和在线问答模型进行优化和评估。其中,语义验证集是通过同义业务记录采样得到的,日志采样和标注集是通过用户历史日志直接匹配、推荐或标注得到的。同时,通过与文本问答的数据融合,知识图谱进一步反向补全更新,从而完成知识生命周期的闭环。4.推理与决策推理与决策是知识图谱智能输出的主要方式。它一般用于知识发现、冲突和异常检测,是知识提炼和决策分析的主要实现方法。知识推理的常用方法包括本体推理、规则挖掘推理和表示学习推理。针对不同的应用场景选择不同的推理方法。在实际应用中,确定性推理是基于本体结构和定义的规则进行的。通常需要根据已知事实迭代使用规则,如下图4-15所示,推理杨宗保和杨金华的关系需要规则的构建和迭代。可以推导出如下关系:hasChild(杨宗保,杨金华)。从图中已知的关系路径构建推理路径。通过快速加载增量知识和规则,推理产生新的数据和更多的实体链接和关系,这需要知识图谱推理引擎的支持。在时序知识图谱条件下,更大粒度和动态演化的事件图的描述主要体现在两个方面:一是事件识别,二是事件影响分析。事件识别可以理解为事件的建模,或者事件本体的构建。例如,诉讼事件可以简单地建模为{事件类型:诉讼事件;影响对象:某公司;情绪分析:-0.5;事件热度:0.8;事件影响:0.5};也可以进行更复杂的建模。明确原告、被告、诉讼金额、诉讼地点等,以便更准确地描述事件。▲图4-15基于规则直推事件的影响分析有两个维度,一是事件回测,二是事件传播的影响。事件回测是对历史上类似事件发生的统计分析。目的是看看历史上类似事件发生后,对相关企业会有什么样的影响。通过事件识别出触及某一事件主体的企业链信息、股权链信息、产业链信息。事件本身的正反面、影响力、热度会沿着知识图谱实体的关系网络进行传播,并对传播影响进行定性或定量分析。行业数据的实时查询和联动分析,通过对上述文本的表示学习,预测事件关联,帮助企业实现因果逻辑推理和决策。比如原材料涨价,对行业上下游企业有什么影响?从生产的角度,通过市场前景预估,分析自己和竞争对手的产量、成本、利润率。比如,从供求关系出发,计算市场容量、供给和存量的关系,减少定价政策的盲目性。这类问题的出发点是每一个具体的事件,寻求的答案是对事件的影响分析。5.区块链协同从知识到价值,如何确定知识的归属和定价,实现数字价值?知识图谱是信息沉淀的最终形式,通过知识定价来衡量价值是最合适的定价方式。由于区块链最大的优势是数据的一致性、不可篡改和透明性,将知识图谱与区块链相结合可以产生知识认证或知识通证。知识通证是一种权利证明,一种使用权,可交换、可计量,让知识在使用过程中进行支付。通过区块链促进知识的价值传播,使得任何具有价值传递属性的行业都有可能被重塑。例如,属于用户的行为知识、画像知识可以通过区块链进行确权,并通过流通变现,为用户权益赋值,进一步激发用户知识贡献的积极性。这就是未来知识价值生态系统的发展模式。那么区块链如何与知识图谱协同呢?事实上,语义网的早期概念包括三个方面:知识互联、去中心化架构和知识可信度。今天的知识图谱一定程度上实现了“知识互联”的理念,进一步可以从知识认证和去中心化架构两个层面思考解决方案。1.知识一致性验证众筹和知识验证是当前很多知识图谱项目面临的挑战。由于数据来源广泛,需要将知识的可信度量应用到实体层面。如何有效管理、追踪和验证海量事实,成为区块链技术在知识图谱领域的重要应用方向。例如,互联网法院电子存证区块链平台,通过时间、地点、人物、事前、事中、事后六个维度解决数据鉴权问题,使电子数据的生产、存储、传播和使用无所不在。在整个过程中实现。信。从链接来看,互联网上的案件信息是互通的,任何一个链接的电子证据都可以抓取。例如,网购案件中的淘宝订单,通过实名认证、时间戳、加密、隐私保护、风控、信用评估等,将分布在多个节点的证据一一对应,从而实现诉讼信息可以被存储、挖掘和应用。从而验证知识的一致性,完成真实性工作。2.去中心化的价值图谱过去由于知识分散,知识发布者很难拥有完全的控制权。近年来,区块链技术正在实现去中心化的实体ID管理、基于分布式账本的术语和实体名称管理、基于分布式账本的知识溯源、知识签名、权限管理等功能。面对传统产业链生态,需要重新分配商业价值,实现价值共享。基于去中心化的区块链确权就是为了实现这一目的而诞生的,让每个个体、每个组织都可以根据自己的劳动和生产力发行代币,形成群体协作,能够公平地分享价值。推动构建自组织的价值生态系统。因此,通过区块链的共识机制,实现分布式条件下的价值分配,知识图谱成为价值图谱。作者简介:王楠,博士来自北京大学,2020年“创青春-中关村U30”获得者,曾任教于中国科学院和北京信息科技大学计算机学院。研究方向包括人工智能算法、知识图谱、自然语言处理、地磁学。赵宏宇目前就职于腾讯看点搜索团队,任算法研究员。有多年NLP、搜索系统、推荐系统工作经验,涉及专利、招聘、网页搜索等场景。精通PyTorch、TensorFlow等主流深度学习框架,擅长运用前沿的NLP技术解决工业项目问题。蔡悦,清华-深圳湾实验室联合培养博士后,获博士学位。2017年获得北京大学生物医学工程博士学位。曾任东软医疗上海磁共振研发中心高级算法研究员。研究方向为数据科学、磁共振图像算法、深度学习等,擅长脑科学领域的数据分析、磁共振图像加速、去噪等算法研究。本文节选自《自然语言理解与行业知识图谱:概念、方法与工程落地》,经发布者授权发布。(书号:978-7-111-69830-2)