本课程主要围绕以下四个方面:知识图谱技术的发展趋势、基于机器学习的标注图谱技术的思路、关键技术分析与分享的典型应用案例。 1。知识图谱技术发展趋势 1.KnowledgeGraph (1)定义 KnowledgeGraph:是一种超大规模的语义网络系统,是海量文本知识挖掘最常用的方法之一。知识图旨在描述现实世界中存在的各种实体或概念及其关系,通常用三元组表示。知识图谱也可以看作是一个巨大的图,节点代表实体或概念,边由属性或关系组成。(2)发展历程 知识图谱的发展分为起源、发展、繁荣三个阶段。 (3)应用 目前,知识图谱广泛应用于金融、医疗、教育、司法等众多行业。 ?金融行业:反洗钱、反欺诈等 ?医疗行业?教育行业?司法:知识图谱可以解决证据索引、类案推送、结果预测、证据分析、文档生成和wisdominjusticeMediation(4)重要作用 知识图谱具有获取、表示和处理知识的能力,是人类思维区别于其他物种思维的重要特征,成为促进知识传播的重要途径机器获得基于人类知识的认知能力。并将逐渐成为未来智能社会的重要生产资料。 知识图谱是人工智能的基石,包括感知层和认知层。知识图谱促进了人工智能的应用,是强人工智能发展的核心驱动力之一。 (5)知识图谱特点 ?特点: √适用范围:面向文本知识和数据 √数据:需要一定量的数据 √知识内容:对于知识 √需要数据标注:机器学习的前提,越多越好 √需要业务专家评估结果的准确性 √通用性差:不同行业效果差别很大 √技术复杂:涉及商业、信息、网络、人工智能、算法、图形、大数据等。 2.知识图谱面临多方面挑战数据挑战:多源数据歧义多、噪声大、数据相关性不明确 (2)算法挑战:现有算法知识抽取精度、算法性能、算法可解释性的挑战(各种行业各不相同)相同) (3)基础知识库的挑战:知识库整合、垂直领域知识库建设、基础知识库未开放 (4)开发工具的挑战:缺乏全生命周期平台,算法工具专家人机协作有待提高,基于文本的知识图谱构建工具性能较弱,跨语言语言挑战,知识匮乏地图中间件 (5)隐私和安全的挑战 (6)测试和认证的挑战 (7)商业模式和人才的挑战 (8)标准化的挑战 3.工业领域文档化知识特性 知识图谱在通用领域得到了广泛的应用和发展,但在工业领域的应用并不多。这与产业领域的行业特点、专业性、保密性、复杂性有关。 (1)原始文档知识数据庞大,格式多样:知识获取非常复杂,技术难度大,成本高,耗时长 (2)每年增长速度快,存储分散太强:与特定场景关联性强 (4)公共行业知识库少 (5)保密性强:知识传播和共享有限 (6)专业学科众多,知识应用复杂:通用性不强,成本高 4。工业领域知识图谱面临的问题 与传统的通用领域不同,工业领域的知识图谱在知识获取和知识应用方面存在很大困难。总结起来,主要有以下几点: ?工业知识获取技术难度大、投入大、周期长 ?如何小批量、小样本生成知识图谱 ?知识图谱 ?知识与结构化数据的融合 ?缺乏标准化的知识图谱平台:任意扩展算法、语言、专业学科 ?独立可控问题 二.基于机器学习的标签图技术思路 1.标签的定义及含义 (1)标签定义:是高度抽象和高度概括的知识内容的实现,是某一知识维度的特征。它具有丰富的意义和内涵,内容简单明了。 (2)标签的作用:分类、快速搜索、快速理解、用户画像、产品画像... (3)标签在工业领域的意义: ?具有以下功能和能力:常规标签 ?专业性:专业术语、词汇、主题... ?基于知识运维模式的工业知识图谱的重要方法之一:标签可以被认为是关键字、主题、事件 2。标签申请 标签应用:非常广泛,如知识分类、信息关联、用户画像、产品画像、数据统计挖掘等。以客户管理为例,客户管理是相关的标签系统制定六大目标,可以实现精准客户营销并产生最大的客户价值。 3。标签系统构建方法 (1)三个原则: ?摒弃大而全的框架,从业务场景推导标签需求 ?自动化标签生成,解决效率和沟通成本 ?有效标签管理机制 (2)建立完整的标签体系,需要注意四点技术思维 (1)思维重点:标签而不是实体 (2)影响准确性的因素: ?预处理结果质量 ?标签实体识别 ?关系抽取 ?AI算法优化 ?业务协同 (3)基于知识运维的知识图谱特征:较少原始数据,通过迭代逐渐丰富数据,通过迭代修正图中的错误,挖掘知识,特别强调人机协作。 三。关键技术分析 1。智能标签技术 (1)技术要点:基于人工智能算法,从单个文档中提取若干个内容特征词作为文档的内容标签 (2)标签用途:为下一步做准备内容标签实体处理、标签实体关系和标签应用抽取(必填) ?通过预置标签和编码规范标签名称,缩小标签范围 ?通过预置关系和权重,实现精准语义理解,消除歧义相关词之间 ?可以通过人工标注提高准确率(可选) ?标签使用过程中可以进行人工纠错(类似于人工标注,小样本知识图常用的方法) 2.标签关系抽取技术 ?常规知识图谱元素:实体、关系、方向 ?标签知识图谱元素:与常规知识图谱类似 √标签=实体 √关系:抽取 √按常规方法:按常规方法提取 √。标签图类似于关键词图和主题图 √自动化:人工标注为辅(工作量小,简单) 3.标签图存储和可视化技术 ?图结构:三元关系,即对象A-关系-对象B ?图存储:RDBMS数据库或图数据库 ?图检索:基于标签,或一段文本 ?可视化:ECHART图表等,与具体的图数据没有直接关系,可扩展性强 4.典型应用案例分享 1.基于实验知识文档的标注知识图谱要求 ?背景: in某测试单位的测试设计者的工作电脑上,有多年与测试相关的参考文档。虽然初步分类整理成多个子文件夹和子文件夹,但有的文件夹文件较多,有的文件夹只有一个文件,而且每年都在不断更新,会造成使用上的不便,我们可以总结为如下主要问题: √问题:每次查找资料时,不能一下子找到所有资料,需要逐层往下查找 √效率低:每次查看文档时第一次一定要打开文档看看里面有没有想要的内容 √专业性不严谨:与实验相关的资料越来越多,专业性越来越强,更强。命名已经不能体现文档内容 √信息孤岛现象严重:想要的内容分散在不同的文档中,无法在多个文档中快速找到想要的内容 ?需求:提供一个工具或方法,可以快速解决以上问题 2.实验参考文件分析 (1)源文件分析 ?文件总数:3500多个 ?目录数:82 ?二三高阶目录很多 ?文件格式多样:WORD、PDF、TXT ?涉及学科广泛:测试、大数据、云计算、试件、测试计划以及测试报告等 ?测试相关文档约占一半 (2)实验文档分析 ?业务类:31个目录,647个文档 ?数据类:11个目录,982个文档 ?文档分布不均:有的多,有的少nts太小了,最少只有一个文档,不适合大规模的知识图谱技术 √文档不断更新,但是更新的次数不会很多 √用户是具有足够资历和能力的业务专家,可以辅助工作人员智能自动标注和生成知识图 √用户可以随时修正图中的错误 ?主要步骤: √文本预-processingProcessing √知识文档语义化 √智能自动标注 √智能标注精度校正 √自动标注图 √标注图精度校正 ?预处理点以及结果展示: √文档中的图片和表格要单独提取出来进行特殊处理 √注意论文的竖版排版格式 √表格中的数据需要处理分别3.测试知识文档智能标签 智能自动标注:预设标准化测试标签和代码,人工智能根据文档内容判断预设标签,通过compreh确定合适的标签多种标签提取算法的深入分析(默认前10名)。借助实验术语、词汇、同义词,准确率高达90%。 4。测试标签知识图 (一)图生成 是基于中文语法、词性和句子成分,采用先进成熟的标签实体关系抽取算法抽取关系,标签实体构成图“三元”关系。 地面模型测试图示例 (2)精度提升 ?测试数据: √测试辅助词库:专业术语,同义词,同义词,相关词 √消歧义:扩大范围通过相关词的权重规则对相关词进行处理 √:人工给出一小部分,大部分由人工智能给出,然后人工判断是否将其作为相关词 √单独处理 ?技术方面: √选择多种算法进行综合比对分析,选出最好的标签并排序 √辅助人工标注和学习,提高准确率
