当前位置: 首页 > 科技观察

让静态的知识动起来:从知识图谱到事件图谱

时间:2023-03-18 14:23:01 科技观察

在社交网络中,有这样一个著名的“六度分离理论”:“最多五个人,你可以认识世界上任何一个陌生人。”“六度分离理论”背后的地图是帮助社交网络连接所有人的“黑科技”。知识图谱以实体概念(如人)为节点,以关系为边,将人的社会关系以可视化的图形展示方式直观呈现。目前,该技术已在搜索、金融等领域得到很好的应用。那么,如果把上面知识图谱中的“人”换成“物”,会发生什么呢?明略科技集团首席科学家、明略科学院院长吴新东教授回答,传统知识图谱回答的是“是什么”的问题,而以“物”为核心的物质图谱回答的是“为什么”的问题..目前绝大多数知识图谱主要基于实体(尤其是名称),事件知识图谱研究的语料库构建和研究方法仍处于探索阶段。吴新东“知识图谱的关注点从‘知识’转向‘事件’,代表着知识图谱自动化构建领域的逐渐成熟。单一的静态事实图谱构建模型已经不能满足行业需求.业界对动态事件图等更深层次的语义理解技术的需求得到了迫切关注。”吴新东告诉AI科技评论。1事件关系抽取:动静态知识。知识图谱的概念于2012年由谷歌提出,最早被搜索引擎用来将基于字符串的搜索替换为基于实体的搜索,从而提高用户搜索质量和体验。在大数据时代,知识图谱将互联网的信息以更接近人类认知世界的结构化形式表达,提供了更好的组织、管理和理解互联网海量信息的能力。构建知识图谱的前提和核心条件是知识获取。具体来说,这个过程需要将现实世界中的各种“信息”转化为“知识”,并表达成计算机可以存储和计算的结构,进而形成“图”。知识图谱的早期构建严重依赖于人工分类。例如,维基百科采用“众包”的方式,让网民成为知识的贡献者,从而加速知识图谱的积累。但在大数据时代,人工劳动已经不能满足构建知识图谱的需求。许多企业开始积极探索和尝试自动化构建技术,利用机器从不同来源和结构中提取数据,将知识存储到知识图谱中。然而,在工业实践中,通过从文本信息等非结构化数据中提取知识来构建知识图谱面临着诸多技术挑战。而这也是数据挖掘顶级会议ICDM在2019年开始举办知识图谱大赛的原因。以及产业实践的联动与交流。”2019ICDM在北京召开,作为大会的发起人,数据挖掘领域的领军人物吴新东教授从大会伊始便与大会同行。本次大会,吴新东教授不仅担任大会主席,还推动成立了首届知识图谱竞赛,使其成为知识图谱学术界和产业界交流的重要平台。.ICDM2019知识图谱大赛的主题是自动生成知识图谱,而2020年的大赛主题“事件原因抽取”更贴近工业应用。任务是解决场景营销的一大痛点,即如何智能分析提取与消费者行为相关的内容场景和关系知识,利用数据挖掘、机器学习、NLP等技术建立模型,智能提取消费者来自文本因果关系的事件。在ICDM2020知识图谱大赛联合主席、中科院自动化所研究员刘康教授看来,事件关系抽取是信息抽取任务中的难点。与实体关系抽取相比,事件关系抽取需要判断两个事件之间的关系,而文本中对事件的描述通常更为复杂,可能是一句话,也可能是多句。刘康另外,事件抽取任务侧重于事件类型的判断和事件元素的抽取,属于单个事件内的语义识别;而事件关系侧重于对不同事件之间错综复杂关系的语义识别,更准确的事件抽取可以改善事件关系。表现。据AI科技评论了解,本届知识图谱大赛比赛数据采用真实公开的用户消费评论数据,存在数据质量差、语言多、格式不一致等问题,增加了挑战难度。这也是业界在知识图谱应用中需要解决的问题:知识图谱的节点是实体,描述的比较静态,而事件则比较动态。与实体相比,事件能够更清晰准确地表示发生的各种事实信息;而人类的命题记忆以“事件”为存储单位,而真实的消费者评论则体现了这种动态信息。让机器以更接近人脑知识结构的方式处理知识和推理,将有助于机器更好地理解复杂场景下的特定问题,为用户提供更好的体验。换言之:将知识图谱中的知识“搬”起来,不仅是学术研究更好实现人工智能的手段,也是行业为客户提供更智能服务、提升服务质量、降低成本的需求。2020年知识图谱大赛吸引了来自45个国家的2000多支队伍参赛。北京大学、清华大学、中科院、香港中文大学、康奈尔大学、新加坡国立大学等知名高校以及阿里巴巴、腾讯、华为、百度、京东等企业均有参与。那么,事件关系抽取可以通过哪些方式帮助企业提升业务水平呢?2事件关系抽取的作用刘康教授告诉AI科技评论,在知识图谱领域,学术界和企业界联系非常紧密,相关技术在企业中有丰富的应用场景,这也让学术界关注理论同时研究技术和场景的实际落地,在本次竞赛题目命题中,命题专家们也考虑到了这一点。以参与企业京东为例,利用知识图谱自动组织行业和企业数据,形成金融数据库,帮助金融机构形成差异化竞争优势。知识图谱还服务于京东金融APP,支持各业务线的销售对话机器人,为智能问答系统提供推理问答、逻辑判断问答、查询问答等功能。除了行业和企业应用,提取消费者事件的原因是内容广告、社交聆听等众多业务场景中关注的重点。以内容广告为例。今天的广告商更喜欢通过产品功能嵌入内容,巧妙地将他们的品牌或产品与任何消费事件联系起来。为此,明确提取消费者事件的原因成为构建满足广告商需求的系统的重要技术。尽管知识图谱技术在行业中的应用正在快速增长,但与学术领域的前沿成果与实际应用场景之间仍存在巨大差距。对于大多数企业来说,他们并不具备像京东那样利用知识图谱中的事件关系来提升业务的能力。“基于事件地图的应用已经出现在很多行业,比如营销、金融、工业等。”吴新东教授告诉AI科技评论,明略科技有足够的想法和实践来帮助企业推广基于事件地图的应用。”例如,明略在实践中,通过事件抽取技术识别舆情热点事件,聚合不同新闻中提及的同一事件,统计热度,通过气泡图可视化事件发展趋势,指导营销.自动撰写文案、自动生成垂直领域报告等。“在金融行业,明略科技与浦发银行合作,共同推进金融认知工程方法论研究和理论体系的建立,在产融生态合作中不断完善金融认知智能体系,构建国内领先的认知智能平台基础设施,提升用户洞察、感知和交互能力。在行业领域,明略也广泛探索轨道交通等行业的智能维护和故障归因场景。此外,明略科技还构建了行业知识图谱基于大数据和AI技术,知识图谱的自动化构建是明略的核心技术之一,2020年7月,在2020WAIC世界人工智能大会期间,明略科技推出了全球首个企业级知识图谱开发工具。语音实时生成图的oolkitHAOGraph,HAOGraph在做:专家上台演讲,后台图谱系统自动同步构建知识图谱。据介绍,HAOGraphs可以独立运行,也可以交付给企业技术团队进行二次开发,帮助用户和中小微企业提供全方位的服务。目前,HAO地图已经在数字城市、金融、工业、广告营销等多个场景落地。“HAO治理”模型架构图针对企业,知识图谱的构建可以帮助企业打通内部结构化数据、物联网数据、外部非结构化数据,可能成为下一代企业管理数据的主流技术路线;而明略科技也将结合知识图谱事件抽取领域的新趋势,帮助企业实现知识图谱和数据管理的升级。3知识图谱的未来虽然知识图谱已经在一定程度上在工业界得到应用,但刘康教授认为,从学术研究的角度来看,目前知识图谱的研究正处于快速发展的早期阶段,其正在从传统的以实体为核心,向事件等复杂结构知识转变。“有意义的图可能会与预训练语言模型结合出现。目前,以BERT为代表的预训练语言模型在各种NLP任务中发力,这主要得益于大数据和计算能力的进步,但是什么这类模型包含了知识图谱的种类,如何利用知识图谱提高预训练语言模型的表示能力,可能会取得更重大的突破。”谈及未来知识图谱的发展趋势,教授刘康如是说。从根本上说,从实体到事件的核心转移不会改变基于知识图谱的人工智能推理的技术本质。核心挑战仍在图表中。寻找最优解所面临的组合爆炸困境。近年来,BERT、GPT-3等大规模预训练语言模型的出现,也为解决AffairMap的组合爆炸困境提供了新的方法。在2020知识图谱大赛中,我们也看到了不同团队的技术方案。例如,京东引入了新的视角来重新审视提取关系行为原因的任务,并提出了一种新的序列标注框架,而不是单独提取行为类型和行为原因;获得第二名的日本选手使用GAN完成这个任务后,通过GAN的生成方式添加训练样本,同时将GAN生成的数据标记为Fake。在原有五种时间类型的基础上,增加Fake标签进行预测。刘康教授认为,未来知识图谱领域的研究可能会向多模态、复杂结构知识和领域化方向发展。其中,各类知识如何表示?如何提取常识性知识?如何结合多模态信息自动获取复杂结构知识?都是他认为比较有趣的研究问题。吴新东教授认为,知识图谱从静态知识描述向动态问题解决转变是知识图谱落地应用的重要发展方向。事件图可以连接动态信息解决问题,为知识图谱的推理插上动态的翅膀。知识图谱作为人工智能技术中的知识容器和孵化器,将在未来人工智能领域的发展中发挥关键作用。无论是基于实体的传统知识图谱,还是新一代的基于事件的知识图谱,其构建技术的发展和应用场景的探索都将继续。在此过程中,知识图谱构建技术将越来越自动化。同时,在以明略为代表的AI和大数据企业的推动下,知识图谱也将在越来越多的领域找到真正落地的应用场景,解放各行业生产力,助力业务转型。