当前位置: 首页 > 科技观察

一种基于机器学习的自动文档标注与图谱技术

时间:2023-03-17 16:14:48 科技观察

本课程主要围绕以下四个方面:知识图谱技术的发展趋势、基于机器学习的标注图谱技术的思路、关键技术分析与分享的典型应用案例。  1。知识图谱技术发展趋势  1.KnowledgeGraph  (1)定义  KnowledgeGraph:是一种超大规模的语义网络系统,是海量文本知识挖掘最常用的方法之一。知识图旨在描述现实世界中存在的各种实体或概念及其关系,通常用三元组表示。知识图谱也可以看作是一个巨大的图,节点代表实体或概念,边由属性或关系组成。(2)发展历程  知识图谱的发展分为起源、发展、繁荣三个阶段。  (3)应用  目前,知识图谱广泛应用于金融、医疗、教育、司法等众多行业。  ?金融行业:反洗钱、反欺诈等 ?医疗行业?教育行业?司法:知识图谱可以解决证据索引、类案推送、结果预测、证据分析、文档生成和wisdominjusticeMediation(4)重要作用  知识图谱具有获取、表示和处理知识的能力,是人类思维区别于其他物种思维的重要特征,成为促进知识传播的重要途径机器获得基于人类知识的认知能力。并将逐渐成为未来智能社会的重要生产资料。  知识图谱是人工智能的基石,包括感知层和认知层。知识图谱促进了人工智能的应用,是强人工智能发展的核心驱动力之一。  (5)知识图谱特点  ?特点:  √适用范围:面向文本知识和数据  √数据:需要一定量的数据  √知识内容:对于知识  √需要数据标注:机器学习的前提,越多越好  √需要业务专家评估结果的准确性  √通用性差:不同行业效果差别很大  √技术复杂:涉及商业、信息、网络、人工智能、算法、图形、大数据等。  2.知识图谱面临多方面挑战数据挑战:多源数据歧义多、噪声大、数据相关性不明确  (2)算法挑战:现有算法知识抽取精度、算法性能、算法可解释性的挑战(各种行业各不相同)相同)  (3)基础知识库的挑战:知识库整合、垂直领域知识库建设、基础知识库未开放  (4)开发工具的挑战:缺乏全生命周期平台,算法工具专家人机协作有待提高,基于文本的知识图谱构建工具性能较弱,跨语言语言挑战,知识匮乏地图中间件  (5)隐私和安全的挑战  (6)测试和认证的挑战  (7)商业模式和人才的挑战  (8)标准化的挑战  3.工业领域文档化知识特性  知识图谱在通用领域得到了广泛的应用和发展,但在工业领域的应用并不多。这与产业领域的行业特点、专业性、保密性、复杂性有关。  (1)原始文档知识数据庞大,格式多样:知识获取非常复杂,技术难度大,成本高,耗时长  (2)每年增长速度快,存储分散太强:与特定场景关联性强  (4)公共行业知识库少  (5)保密性强:知识传播和共享有限  (6)专业学科众多,知识应用复杂:通用性不强,成本高  4。工业领域知识图谱面临的问题  与传统的通用领域不同,工业领域的知识图谱在知识获取和知识应用方面存在很大困难。总结起来,主要有以下几点:  ?工业知识获取技术难度大、投入大、周期长  ?如何小批量、小样本生成知识图谱  ?知识图谱  ?知识与结构化数据的融合  ?缺乏标准化的知识图谱平台:任意扩展算法、语言、专业学科  ?独立可控问题  二.基于机器学习的标签图技术思路  1.标签的定义及含义  (1)标签定义:是高度抽象和高度概括的知识内容的实现,是某一知识维度的特征。它具有丰富的意义和内涵,内容简单明了。  (2)标签的作用:分类、快速搜索、快速理解、用户画像、产品画像...  (3)标签在工业领域的意义:  ?具有以下功能和能力:常规标签  ?专业性:专业术语、词汇、主题...  ?基于知识运维模式的工业知识图谱的重要方法之一:标签可以被认为是关键字、主题、事件  2。标签申请  标签应用:非常广泛,如知识分类、信息关联、用户画像、产品画像、数据统计挖掘等。以客户管理为例,客户管理是相关的标签系统制定六大目标,可以实现精准客户营销并产生最大的客户价值。  3。标签系统构建方法  (1)三个原则:  ?摒弃大而全的框架,从业务场景推导标签需求  ?自动化标签生成,解决效率和沟通成本  ?有效标签管理机制  (2)建立完整的标签体系,需要注意四点技术思维  (1)思维重点:标签而不是实体  (2)影响准确性的因素:  ?预处理结果质量  ?标签实体识别  ?关系抽取  ?AI算法优化  ?业务协同  (3)基于知识运维的知识图谱特征:较少原始数据,通过迭代逐渐丰富数据,通过迭代修正图中的错误,挖掘知识,特别强调人机协作。 三。关键技术分析  1。智能标签技术  (1)技术要点:基于人工智能算法,从单个文档中提取若干个内容特征词作为文档的内容标签  (2)标签用途:为下一步做准备内容标签实体处理、标签实体关系和标签应用抽取(必填)  ?通过预置标签和编码规范标签名称,缩小标签范围  ?通过预置关系和权重,实现精准语义理解,消除歧义相关词之间  ?可以通过人工标注提高准确率(可选)  ?标签使用过程中可以进行人工纠错(类似于人工标注,小样本知识图常用的方法)  2.标签关系抽取技术  ?常规知识图谱元素:实体、关系、方向  ?标签知识图谱元素:与常规知识图谱类似  √标签=实体  √关系:抽取  √按常规方法:按常规方法提取  √。标签图类似于关键词图和主题图  √自动化:人工标注为辅(工作量小,简单)  3.标签图存储和可视化技术  ?图结构:三元关系,即对象A-关系-对象B  ?图存储:RDBMS数据库或图数据库  ?图检索:基于标签,或一段文本  ?可视化:ECHART图表等,与具体的图数据没有直接关系,可扩展性强  4.典型应用案例分享  1.基于实验知识文档的标注知识图谱要求  ?背景:  in某测试单位的测试设计者的工作电脑上,有多年与测试相关的参考文档。虽然初步分类整理成多个子文件夹和子文件夹,但有的文件夹文件较多,有的文件夹只有一个文件,而且每年都在不断更新,会造成使用上的不便,我们可以总结为如下主要问题:  √问题:每次查找资料时,不能一下子找到所有资料,需要逐层往下查找  √效率低:每次查看文档时第一次一定要打开文档看看里面有没有想要的内容  √专业性不严谨:与实验相关的资料越来越多,专业性越来越强,更强。命名已经不能体现文档内容  √信息孤岛现象严重:想要的内容分散在不同的文档中,无法在多个文档中快速找到想要的内容  ?需求:提供一个工具或方法,可以快速解决以上问题  2.实验参考文件分析  (1)源文件分析  ?文件总数:3500多个  ?目录数:82  ?二三高阶目录很多  ?文件格式多样:WORD、PDF、TXT  ?涉及学科广泛:测试、大数据、云计算、试件、测试计划以及测试报告等  ?测试相关文档约占一半  (2)实验文档分析  ?业务类:31个目录,647个文档  ?数据类:11个目录,982个文档  ?文档分布不均:有的多,有的少nts太小了,最少只有一个文档,不适合大规模的知识图谱技术  √文档不断更新,但是更新的次数不会很多  √用户是具有足够资历和能力的业务专家,可以辅助工作人员智能自动标注和生成知识图  √用户可以随时修正图中的错误  ?主要步骤:  √文本预-processingProcessing  √知识文档语义化  √智能自动标注  √智能标注精度校正  √自动标注图  √标注图精度校正  ?预处理点以及结果展示:  √文档中的图片和表格要单独提取出来进行特殊处理  √注意论文的竖版排版格式  √表格中的数据需要处理分别3.测试知识文档智能标签  智能自动标注:预设标准化测试标签和代码,人工智能根据文档内容判断预设标签,通过compreh确定合适的标签多种标签提取算法的深入分析(默认前10名)。借助实验术语、词汇、同义词,准确率高达90%。  4。测试标签知识图  (一)图生成  是基于中文语法、词性和句子成分,采用先进成熟的标签实体关系抽取算法抽取关系,标签实体构成图“三元”关系。  地面模型测试图示例  (2)精度提升  ?测试数据:  √测试辅助词库:专业术语,同义词,同义词,相关词  √消歧义:扩大范围通过相关词的权重规则对相关词进行处理  √:人工给出一小部分,大部分由人工智能给出,然后人工判断是否将其作为相关词  √单独处理  ?技术方面:  √选择多种算法进行综合比对分析,选出最好的标签并排序  √辅助人工标注和学习,提高准确率