当前位置: 首页 > 科技赋能

云栖大会UC解密知识图谱构建,探索服务多端场景的平台模式

时间:2024-05-22 13:39:33 科技赋能

9月22日,云栖大会知识图谱专场,UC神马高级算法专家魏华能阿里巴巴文化娱乐集团发表演讲并展示了UC神马基于搜索和阿里巴巴生态大数据构建的全覆盖、高质量的通用领域知识图谱,并成功应用于搜索和天猫精灵智能音箱。

与业务方共同打造了业界领先的问答系统,分享了在多终端自主建设方向的探索和思考。

据介绍,阿里巴巴基于内外部海量数据以及多元化业务的长期打磨和积累,构建了全球最大的知识图谱。

其中,神马搜索通用领域知识图谱于2018年推出第一版,从2016年开始广泛应用于搜索,2018年服务于信息流,此后重点关注对话机器人、天猫等创新应用精灵智能音箱。

UC神马在构建通用知识图谱时,重点关注核心抽象实体的构建,包括人物、地点、组织、影视作品、3C、软件游戏等。

数据来源包括海量互联网网页、百科全书、搜索合作CP等。

这些数据每天都在不断更新,并通过知识图谱构建技术不断融入到知识图谱中。

目前,UC神马基于搜索和阿里巴巴生态数据,构建了强大的通用领域知识图谱,包括人物、地点、组织、概念等1万个实体,以及实体间28亿条关系,涵盖90个领域。

多种类型。

这背后是神马长期积累的技术优势。

华能微表示,神马知识图谱的主要技术点和优势在于非结构化文本的知识抽取、大规模知识融合、实体识别与链接。

它采用全网页自动知识抽取技术、多源异构数据融合方法、基于搜索数据的深度命名实体识别技术,帮助解决自然语言处理、信息组织和智能服务两大问题。

用户搜索时直接提供信息、答案和相关实体推荐,问答能力可以进一步服务于智能对话。

在最近的淘宝造物节上,天猫精灵的“启盛实验室”一炮而红。

依托丰富的知识图谱,天猫精灵完成百科问答、聊天等与用户的实时交互,展现了业界首创的服务交付能力。

这背后是UC神马基于知识图谱能力和搜索大数据的创作。

业界领先的问答系统。

在说话者场景中,人类和机器通过语音以自然语言进行交互,这需要更准确地理解查询语义和内容。

同时,对答案的权威性和可读性也提出了更高的要求。

这个需求和知识图谱非常吻合。

目前,旷场问答仍面临两大难点。

一方面是长尾知识的获取和表征,以及对问题的理解和分析。

另一个困难是大多数问题需要大段文字来回答。

仅基于实体和关系是不够的。

的。

华能威介绍,神马正在打造一个融合多种数据和技术、面向对话场景的开放领域问答系统。

它已经有直接基于知识图谱的问题和答案。

这部分类似于搜索中的知识图谱问答。

所不同的是加强口语化。

查询分析、答案NLG、基于搜索大数据的检索式问答。

这部分知识图谱更多的是起到文本理解的作用,包括问题理解、答案提取、总结等。

随着通用知识图谱的业务范围越来越广,需求越来越大,阿里巴巴生态系统中不同领域、不同场景都有知识图谱。

华能微表示,UC神马正在积极探索更加灵活高效的构建方式,以支持复杂多变的业务需求,打通多领域数据。

通过数据和算法能力的开放,建立数据之间的关联性,与各业务方向共同建立数据交换、数据共享、数据增值的新模式,最终更好地赋能企业和行业。