9月22日,云栖大会知识图谱专场,UC神马高级算法专家魏华能阿里巴巴文化娱乐集团发表演讲并展示了UC神马基于搜索和阿里巴巴生态大数据构建的全覆盖、高质量的通用领域知识图谱,并成功应用于搜索和天猫精灵智能音箱。
与业务方共同打造了业界领先的问答系统,分享了在多终端自主建设方向的探索和思考。
据介绍,阿里巴巴基于内外部海量数据以及多元化业务的长期打磨和积累,构建了全球最大的知识图谱。
其中,神马搜索通用领域知识图谱于2018年推出第一版,从2016年开始广泛应用于搜索,2018年服务于信息流,此后重点关注对话机器人、天猫等创新应用精灵智能音箱。
UC神马在构建通用知识图谱时,重点关注核心抽象实体的构建,包括人物、地点、组织、影视作品、3C、软件游戏等。
数据来源包括海量互联网网页、百科全书、搜索合作CP等。
这些数据每天都在不断更新,并通过知识图谱构建技术不断融入到知识图谱中。
目前,UC神马基于搜索和阿里巴巴生态数据,构建了强大的通用领域知识图谱,包括人物、地点、组织、概念等1万个实体,以及实体间28亿条关系,涵盖90个领域。
多种类型。
这背后是神马长期积累的技术优势。
华能微表示,神马知识图谱的主要技术点和优势在于非结构化文本的知识抽取、大规模知识融合、实体识别与链接。
它采用全网页自动知识抽取技术、多源异构数据融合方法、基于搜索数据的深度命名实体识别技术,帮助解决自然语言处理、信息组织和智能服务两大问题。
用户搜索时直接提供信息、答案和相关实体推荐,问答能力可以进一步服务于智能对话。
在最近的淘宝造物节上,天猫精灵的“启盛实验室”一炮而红。
依托丰富的知识图谱,天猫精灵完成百科问答、聊天等与用户的实时交互,展现了业界首创的服务交付能力。
这背后是UC神马基于知识图谱能力和搜索大数据的创作。
业界领先的问答系统。
在说话者场景中,人类和机器通过语音以自然语言进行交互,这需要更准确地理解查询语义和内容。
同时,对答案的权威性和可读性也提出了更高的要求。
这个需求和知识图谱非常吻合。
目前,旷场问答仍面临两大难点。
一方面是长尾知识的获取和表征,以及对问题的理解和分析。
另一个困难是大多数问题需要大段文字来回答。
仅基于实体和关系是不够的。
的。
华能威介绍,神马正在打造一个融合多种数据和技术、面向对话场景的开放领域问答系统。
它已经有直接基于知识图谱的问题和答案。
这部分类似于搜索中的知识图谱问答。
所不同的是加强口语化。
查询分析、答案NLG、基于搜索大数据的检索式问答。
这部分知识图谱更多的是起到文本理解的作用,包括问题理解、答案提取、总结等。
随着通用知识图谱的业务范围越来越广,需求越来越大,阿里巴巴生态系统中不同领域、不同场景都有知识图谱。
华能微表示,UC神马正在积极探索更加灵活高效的构建方式,以支持复杂多变的业务需求,打通多领域数据。
通过数据和算法能力的开放,建立数据之间的关联性,与各业务方向共同建立数据交换、数据共享、数据增值的新模式,最终更好地赋能企业和行业。