一种基于机器学习的自动文档标注与图谱技术

时间：2023-03-17 16:14:48 科技观察

本课程主要围绕以下四个方面：知识图谱技术的发展趋势、基于机器学习的标注图谱技术的思路、关键技术分析与分享的典型应用案例。　　1。知识图谱技术发展趋势　　1．KnowledgeGraph　　(1)定义　　KnowledgeGraph：是一种超大规模的语义网络系统，是海量文本知识挖掘最常用的方法之一。知识图旨在描述现实世界中存在的各种实体或概念及其关系，通常用三元组表示。知识图谱也可以看作是一个巨大的图，节点代表实体或概念，边由属性或关系组成。（2）发展历程　　知识图谱的发展分为起源、发展、繁荣三个阶段。　　(3)应用　　目前，知识图谱广泛应用于金融、医疗、教育、司法等众多行业。　　?金融行业：反洗钱、反欺诈等　?医疗行业?教育行业?司法：知识图谱可以解决证据索引、类案推送、结果预测、证据分析、文档生成和wisdominjusticeMediation(4)重要作用　　知识图谱具有获取、表示和处理知识的能力，是人类思维区别于其他物种思维的重要特征，成为促进知识传播的重要途径机器获得基于人类知识的认知能力。并将逐渐成为未来智能社会的重要生产资料。　　知识图谱是人工智能的基石，包括感知层和认知层。知识图谱促进了人工智能的应用，是强人工智能发展的核心驱动力之一。　　(5)知识图谱特点　　?特点：　　√适用范围：面向文本知识和数据　　√数据：需要一定量的数据　　√知识内容：对于知识　　√需要数据标注：机器学习的前提，越多越好　　√需要业务专家评估结果的准确性　　√通用性差：不同行业效果差别很大　　√技术复杂：涉及商业、信息、网络、人工智能、算法、图形、大数据等。　　2.知识图谱面临多方面挑战数据挑战：多源数据歧义多、噪声大、数据相关性不明确　　(2)算法挑战：现有算法知识抽取精度、算法性能、算法可解释性的挑战（各种行业各不相同）相同）　　（3）基础知识库的挑战：知识库整合、垂直领域知识库建设、基础知识库未开放　　（4）开发工具的挑战：缺乏全生命周期平台，算法工具专家人机协作有待提高，基于文本的知识图谱构建工具性能较弱，跨语言语言挑战，知识匮乏地图中间件　　(5)隐私和安全的挑战　　(6)测试和认证的挑战　　(7)商业模式和人才的挑战　　(8)标准化的挑战　　3.工业领域文档化知识特性　　知识图谱在通用领域得到了广泛的应用和发展，但在工业领域的应用并不多。这与产业领域的行业特点、专业性、保密性、复杂性有关。　　(1)原始文档知识数据庞大，格式多样：知识获取非常复杂，技术难度大，成本高，耗时长　　(2)每年增长速度快，存储分散太强：与特定场景关联性强　　(4)公共行业知识库少　　(5)保密性强：知识传播和共享有限　　(6)专业学科众多，知识应用复杂：通用性不强，成本高　　4。工业领域知识图谱面临的问题　　与传统的通用领域不同，工业领域的知识图谱在知识获取和知识应用方面存在很大困难。总结起来，主要有以下几点：　　?工业知识获取技术难度大、投入大、周期长　　?如何小批量、小样本生成知识图谱　　?知识图谱　　?知识与结构化数据的融合　　?缺乏标准化的知识图谱平台：任意扩展算法、语言、专业学科　　?独立可控问题　　二．基于机器学习的标签图技术思路　　1.标签的定义及含义　　(1)标签定义：是高度抽象和高度概括的知识内容的实现，是某一知识维度的特征。它具有丰富的意义和内涵，内容简单明了。　　(2)标签的作用：分类、快速搜索、快速理解、用户画像、产品画像...　　(3)标签在工业领域的意义：　　?具有以下功能和能力：常规标签　　?专业性：专业术语、词汇、主题...　　?基于知识运维模式的工业知识图谱的重要方法之一：标签可以被认为是关键字、主题、事件　　2。标签申请　　标签应用：非常广泛，如知识分类、信息关联、用户画像、产品画像、数据统计挖掘等。以客户管理为例，客户管理是相关的标签系统制定六大目标，可以实现精准客户营销并产生最大的客户价值。　　3。标签系统构建方法　　(1)三个原则：　　?摒弃大而全的框架，从业务场景推导标签需求　　?自动化标签生成，解决效率和沟通成本　　?有效标签管理机制　　(2)建立完整的标签体系，需要注意四点技术思维　　(1)思维重点：标签而不是实体　　(2)影响准确性的因素：　　?预处理结果质量　　?标签实体识别　　?关系抽取　　?AI算法优化　　?业务协同　　(3)基于知识运维的知识图谱特征：较少原始数据，通过迭代逐渐丰富数据，通过迭代修正图中的错误，挖掘知识，特别强调人机协作。　三。关键技术分析　　1。智能标签技术　　(1)技术要点：基于人工智能算法，从单个文档中提取若干个内容特征词作为文档的内容标签　　(2)标签用途：为下一步做准备内容标签实体处理、标签实体关系和标签应用抽取（必填）　　?通过预置标签和编码规范标签名称，缩小标签范围　　?通过预置关系和权重，实现精准语义理解，消除歧义相关词之间　　?可以通过人工标注提高准确率（可选）　　?标签使用过程中可以进行人工纠错（类似于人工标注，小样本知识图常用的方法）　　2.标签关系抽取技术　　?常规知识图谱元素：实体、关系、方向　　?标签知识图谱元素：与常规知识图谱类似　　√标签=实体　　√关系：抽取　　√按常规方法：按常规方法提取　　√。标签图类似于关键词图和主题图　　√自动化：人工标注为辅（工作量小，简单）　　3.标签图存储和可视化技术　　?图结构：三元关系，即对象A-关系-对象B　　?图存储：RDBMS数据库或图数据库　　?图检索：基于标签，或一段文本　　?可视化:ECHART图表等，与具体的图数据没有直接关系，可扩展性强　　4.典型应用案例分享　　1.基于实验知识文档的标注知识图谱要求　　?背景:　　in某测试单位的测试设计者的工作电脑上，有多年与测试相关的参考文档。虽然初步分类整理成多个子文件夹和子文件夹，但有的文件夹文件较多，有的文件夹只有一个文件，而且每年都在不断更新，会造成使用上的不便，我们可以总结为如下主要问题：　　√问题：每次查找资料时，不能一下子找到所有资料，需要逐层往下查找　　√效率低：每次查看文档时第一次一定要打开文档看看里面有没有想要的内容　　√专业性不严谨：与实验相关的资料越来越多，专业性越来越强，更强。命名已经不能体现文档内容　　√信息孤岛现象严重：想要的内容分散在不同的文档中，无法在多个文档中快速找到想要的内容　　?需求：提供一个工具或方法，可以快速解决以上问题　　2.实验参考文件分析　　(1)源文件分析　　?文件总数：3500多个　　?目录数：82　　?二三高阶目录很多　　?文件格式多样：WORD、PDF、TXT　　?涉及学科广泛：测试、大数据、云计算、试件、测试计划以及测试报告等　　?测试相关文档约占一半　　(2)实验文档分析　　?业务类：31个目录，647个文档　　?数据类：11个目录，982个文档　　?文档分布不均：有的多，有的少nts太小了，最少只有一个文档，不适合大规模的知识图谱技术　　√文档不断更新，但是更新的次数不会很多　　√用户是具有足够资历和能力的业务专家，可以辅助工作人员智能自动标注和生成知识图　　√用户可以随时修正图中的错误　　?主要步骤：　　√文本预-processingProcessing　　√知识文档语义化　　√智能自动标注　　√智能标注精度校正　　√自动标注图　　√标注图精度校正　　?预处理点以及结果展示：　　√文档中的图片和表格要单独提取出来进行特殊处理　　√注意论文的竖版排版格式　　√表格中的数据需要处理分别3.测试知识文档智能标签　　智能自动标注：预设标准化测试标签和代码，人工智能根据文档内容判断预设标签，通过compreh确定合适的标签多种标签提取算法的深入分析（默认前10名）。借助实验术语、词汇、同义词，准确率高达90%。　　4。测试标签知识图　　（一）图生成　　是基于中文语法、词性和句子成分，采用先进成熟的标签实体关系抽取算法抽取关系，标签实体构成图“三元”关系。　　地面模型测试图示例　　(2)精度提升　　?测试数据：　　√测试辅助词库：专业术语，同义词，同义词，相关词　　√消歧义：扩大范围通过相关词的权重规则对相关词进行处理　　√：人工给出一小部分，大部分由人工智能给出，然后人工判断是否将其作为相关词　　√单独处理　　?技术方面：　　√选择多种算法进行综合比对分析，选出最好的标签并排序　　√辅助人工标注和学习，提高准确率

上一篇：加入MySQL的那些事

下一篇：2019年网络安全圈会发生什么？

一种基于机器学习的自动文档标注与图谱技术相关文章