1。背景电商认知图谱自2017年6月上线以来,通过从实践到系统化的不断探索,逐步形成了较为完善的电商数据认知体系。在当前群体业务边界不断扩张的背景下,对数据互联互通的需求越来越强烈,因为这是跨域搜索发现、导购和交互的基础,也是用户获取数据的基本条件真正做到“购物”。但在此之前,我们需要对当前的问题做一个分析。1.1问题更复杂的数据应用场景不仅仅是传统的电商,现在我们面临的是新零售、多语言、线上线下的复杂购物场景,所使用的数据往往超出了前文的范围。这些数据往往具有一些特点:非结构化互联网上的大量数据分散在各个来源,基本以非结构化文本形式表达。目前的类目系统从商品管理的角度做了很长时间的大量工作,但仍然只是覆盖了大量数据的冰山一角,这当然远远不够了解真正的用户需求。充满噪音:与传统的文本分析不同,目前群内的数据大部分是查询、标题、评论、攻略等,由于用户习惯和业务需求,这些数据会有非常不同于普通的语法结构文本,也由于盈利原因存在大量的噪音和脏数据,这也给真正发现用户需求并进行结构化带来了很大的困难。多模态、多源:随着集团业务的扩张,目前的搜索推荐不仅仅容纳产品中的文字信息,大量的视频、图片作为内容,如何整合来自各个领域的数据sources,如何关联多模态数据也是数据构建的一个难点。数据分散,无法互联互通:从目前的商品系统建设来看,由于业务的快速发展,每个部门往往需要维护自己的一套cpv系统,这也是商品管理和搜索非常关键的一环在后期,但是由于应用场景的行业属性不同。比如闲鱼的“包包配饰”是因为业务场景频次高而需要细分的品类,但在淘宝系由于交易搜索频率低,“鞋包配饰”只是二手和闲置的。一个小类目,导致各个部门都在自己的cpv系统上费力地维护query和search,每次都要重建自己的类目系统,重新支持入库查询,重新关联商品,重新做类目预测等等。如何构建一个相对通用的面向应用的概念体系,以支持提供基于业务需求的查询服务迫在眉睫。缺乏对数据的深度认知:对数据的深度认知不是认识产品,而是认识用户需求之间的关系。当点开一大堆烧烤调料和工具的时候,他才发现自己需要进行户外烧烤,这也是目前全团所欠缺的。1.2需求分析通过下面的背景介绍,我们可以了解到,为了构建一个全球统一的知识表示和查询框架,我们需要完成以下几个关键任务。复杂场景下的数据结构化:在复杂场景下,我们首先要做的是数据清洗,通过频次过滤、规则、统计分析等方式去除脏数据,然后通过词组挖掘、信息抽取等方式抓取高可用数据。它用于数据结构化和层次划分。分布式数据的统一表示框架:为了管理分布式数据,首先需要定义一个全局的模式表示和存储方法,然后集成基于模式的概念数据、属性挖掘和发现、数据关联。一种表示学习方法来实现这一点。数据深度认知:深度认知包括两个方面,一是对数据本身的认知,二是对数据关联的认知。通过产品本身的行为和信息,我们可以识别用户购买产品的意图。通过外部数据的输入和汇总,我们会得到商品体系外的常识和用户需求的关联。1.3E-commerceCognitiveGraph为解决以上问题,我们提出了E-commerceConceptNet,目标是建立电子商务领域的知识体系,实现电子商务场景中的相关人员通过in——深入了解用户需求。-货场联动,为企业方和行业赋能。1.3.1模块划分在整体划分上,认知地图分为四个比较重要的任务。通过将不同类型的概念(用户、场景、虚拟类别和物品)构建成异构图,用户-场景-商品关联:用户图谱构建用户图谱除了一般的用户画像信息(年龄、性别、购买力)外,还会有“老人”、“儿童”等人群数据,以及用户类别属性偏好数据。1.3.2场景图构建场景可以看作是用户需求的概念化,从已有的query和title中识别出用户需求,概括为一个通用的场景(sceneconcept),并建立诸如“户外烧烤”、“等概念”假日穿搭”是场景图的主要工作。通过对场景需求的不断细化,我们将代表一类用户需求的概念抽象为跨品类、跨品类的购物场景(sc)。挖掘概念相当于获取图上的节点。在概念挖掘的基础上,我们开始建立概念与类别和类别、概念与概念之间的关系,相当于在图上建立有向边,并计算边的强度,具体过程如下:到目前为止,我们已经产生了10w+的概念和10倍的品类类别联想。1.3.3品类细化品类细化的来源是当前的品类体系会过厚或过薄,在构建上包括两个层次:品类聚合:比如“服饰”是认知层面的一个品类,但由于行业管理不同,会同时存在“女装”、“男装”、“童装”等不同品类。这时,它们会存在于两个一级分类下,所以需要一个常识系统。保持对真实“服饰”的感知。品类拆分:品类细化是因为我们发现现有的品类体系不足以聚合一个品类的用户需求。比如有一个“西藏旅游”的场景,我们需要在“围巾”这个类别下进行更多的细节处理,这时候就需要一个虚拟品类,叫做“防风围巾”。这个过程还包括实体/概念抽取和关系分类。目前,我们主要建立类别与类别之间的关系。到现在为止,我们已经有68.9w+对整合了cpv类别树、类别类别关联、外网数据。1.3.4商品图构建短语挖掘:我们在商品图端需要做更多的商品属性识别。我们知道,完善的cpv系统的前提是词组识别。为此,我们建立了一个引导框架。cpv挖掘闭环旨在长期有效积累cpv数据,扩展查询和产品的认知(这也是产品标注的数据来源之一)。例如:截至目前,我们完成了pvtop70的品类审核,新增了12W+个cpvpairs,词条可以完全识别的query占比从30%提升到60%(由于目前使用的是medium-grainedwordsegmentationforMining,前面的分析70%已经是极限了,后续会在加入phrasemining过程后继续扩大挖掘覆盖率)。目前数据已作为品类预测,每天产生智能交互的基础数据。商品标识:商品标识是我们将知识与产品联系起来的关键技术。以上三点产生的数据,肯定会通过标记与物品建立联系。产品标注完成后,我们就可以实现从查询到产品的整个语义认知闭环。预计到3月底,我们就能实现最新版本的商品标记。2.知识体系在知识构建的过程中,我们逐渐发现我们需要一个全局统一的schema表示系统,于是研究了wordnet和conceptnet的系统构建过程,逐渐形成了自己的一套概念表示系统,就是现在一些认知图谱(E-commerceConceptNet)的核心,其目标是从语义层面理解电子商务领域的用户需求并将其概念化(conceptulization),映射到一个语义本体(ontology),通过关系词法层次的逐步形式化本体之间的关系(具体),通过本体之间的层次表达概念之间的层次,通过概念之间的关系抽象实体类别和关系。从数据的角度来看,如果我们要描述一个实体,首先需要将其定义为一个类的实例(instance-of-class),通常可以用一个概念来表示。一个概念的概念都会有自己不同的属性(proeprty)。一类概念的属性集可以称为概念的图式。具有相同模式类型的概念一般属于不同的领域(domains),领域有自己的语义本体。(ontoloty),通过本体的层次结构(如“Britain”-is-part-of-“UK”),我们可以将概念的层次结构和表示形式化。然后由细到粗,定义一套电子商务概念系统的表示方法,并通过不断细化本体和概念,以及它们之间的关系,来关联用户和产品,甚至是外部实体。3.技术框架3.1平台模块一般情况下,我们使用一个数据服务平台来支撑上面的图引擎,然后通过千墨数据管理平台和图灵业务对接平台实现知识的生产和使用。3.2模块详情千模:数据标注与展示千模作为电商知识图谱的基础平台,目前集成了所有知识标注和审核流程,并提供数据查询和可视化。后期的算法概念挖掘服务和产品打标服务也将通过千墨对外提供。在数据审核不断试错的过程中,我们建立了一个比较完整的从初审到终审的流程,详见千墨审核工具。可视化:除了点评平台,千墨还提供了更具体的数据可视化形式。通过良好的交互,方便查询知识千墨可视化3.3图灵:业务选择与传递由于目前我们的大部分知识都是以卡片的形式提供的,图灵提供了一整套通过云端暴露的业务服务工具主题:概念选择:用户可以选择自己所有的主题在不同渠道推出3.4图引擎:数据存储和查询在存储介质方面,我们使用mysql进行灵活的标注,图数据库进行全量查询,odps进行持久化的数据版本管理。数据在进入igraph和biggraph之前,会拆分成点表和边表导入,通过gremlin进行在线查询。在图数据库的上层,我们封装了一个图引擎模块,为产品提供不同触发器的场景和多通道、多跳的召回功能。目前提供了user、item_list和queryrecall,已在喵小米中使用,在与searchdiscovery的联调中,可以使用query接口进行查询和测试。3.5技术实现云主题(认知地图)目前,云主题已经以知识卡片的形式推出了近万个场景。与初猜产品相比,点击和发散比产品有了很大的提升,现在正在做数据发散。勘探。Tips(全额)/shading(bts)searchdome4.后期规划目前认知地图刚刚开发了将近一年,还有很多工作需要细化。后续工作重点:通过文本进行关系挖掘和本体构建增强图与外部数据的关联常识推理规则挖掘图推理的符号逻辑表示
