人类学家罗宾·邓巴认为,能够保持亲密人际关系的人数最多为150人。在线社交平台出现后,很多人认为虚拟世界会突破邓巴的理论,但现实是:如果你想与更多的人互动,就不可避免地需要削弱花在其他人身上的精力。但是,人际关系会随着时间的推移而发生变化,比如亲疏远近。如果能够定义人与人之间的关系,可以为很多行业带来更多的探索,比如:诈骗团伙的识别,通过诈骗分子的调用关系网络,识别可能存在的团伙关系,将不法分子一网打尽。本节课,中国联通大数据技术专家颜龙将从“本体”入手,介绍中国联通大数据关系图谱的构建与应用。1.万维网之父TimBerners-Lee本体论教授于1998年将语义网带入了人类的视野,目的是赋予网络理解单词、概念以及它们之间的逻辑关系的能力,使得人机交互更高效。作为语义网的核心,本体论是研究实体存在和本质的一般理论。1993年,ThomasGruber教授提出了最为广泛认可的本体定义:共享概念模型的显式形式规范。这里实际上提到了四个概念,即:“概念化”是指通过客观世界中某些现象的相关概念得到的模型;“明确”是指使用的概念及其约束明确。定义;“正式”意味着本体是计算机可读的;“共享”是指本体体现了公认的知识,反映了相关领域公认的概念集。本体论最初是形而上学的一个分支。对于玄学的理解,这里举个例子(如:图1)(图1)中文的“cat”和“猫猫”,英文的“cat”,图片中的“picturesofcats”都可以用来形容“猫”。这个真东西。那么,在哲学层面上,像“猫”这样真实存在的东西,就是亚里士多德口中的“实体”,巴门尼德口中的“存在”,本体论中的“本体”。上图中的描述都引用了“猫”这个“本体”的符号。由此可见,“本体”概念是哲学层面的形而上学,只能理解不能用文字表达。因此,对于一个实体来说,所有的描述都是这个“本体”的外在符号。我们所感、所听、所见,都变成了某种从符号到本体的映射。在哲学层面解释了本体的含义之后,我们是否在语义层面对本体有了更好的理解?其实主要的目的就是建立这样一个映射,比如:{"cat","cat","meow","cat"}这个符号集映射到“猫”的“本体”上。当我们建立本体集合时,本体之间的逻辑关系就存在了(例如:IFA?BandB?C,THENA?C)。本体逻辑层提供公理和推理规则,进而实现相应的逻辑推理,可能是“属性-本体”关系,“子类-本体”关系,或“本体-本体”关系相反或近似的关系。本体的最终目标是实现知识表达、构建知识库、实现知识推理,即利用本体中的基本要素:实体与实体之间的关系,作为描述现实世界的知识模型。2、知识图谱的知识模型有什么用?谷歌在2012年提出知识图谱,将传统的基于关键词的搜索升级为基于语义的搜索。知识图谱可用于更好地查询复杂的关联信息,从语义层面理解用户意图,提高搜索质量。这里我借用本体的概念来给出我个人对知识图谱的理解:知识图谱用来描述现实世界中的各种实体以及它们之间的关系,实体本身有各种实例和属性。就像之前的“猫例子”(如下图2所示),当我们查询“喵喵喵喵喵”时,返回的不会是抖音上那个很红的《学猫叫》,而是实体“猫””。同时,通过其他知识的补充,我们可以知道有一个“猫”的实例是“茄子”,“茄子”的主人是我。我和小虎都在联通大数据工作,通话关系非常密切。当我们知识库中的实体、关系、属性、实例等量级非常大时,可以绘制成一个巨大的网络关系拓扑图。有了这样的知识库,搜索引擎可以洞察用户查询背后的语义信息,返回更准确的信息。也就是说,知识图谱引入了更多的意义,像人一样搜索事物、思考、联想、联想。这也印证了谷歌知识图谱的初衷:“世界不是由字符串构成的,而是由事物构成的”。(图2)另外,如果我们将各种语言中的“猫”映射到“猫”的本体中,依据与名词主语、动词主语或动宾宾语的逻辑关系短语等,通过反向映射可以实现简单的机器翻译。3.图数据库2018年9月,我们有一篇标题为《专家课堂|NoSQL还是SQL》公众号的文章提到了图数据库。文章给出了诸如NoSQLorSQL、WhyNoSQL等话题。场景选择也有相应的介绍,这里不再赘述。从上一节的图中,我们可以清楚地看到通话记录可以以实体和关系的形式存储。这是运营商数据的先天优势。在我们的场景中,我们不需要花太多的时间来做基于nlp技术的实体抽取和关系抽取。我们的重点是如何保证大量动态更新的调用节点和关系被加载到图中,谁有哪些调用行为特征,以及从这些图中挖掘的特征如何贡献于调用关系网络中的现有场景模型.中等。比如在风控领域,我们正在应用图发现相关的方法来探索样本号或ID是否在欺诈社区,是否有稳定的调用社交圈,与非法号码的关联度有多少,关联系数是多少,多个电话群内是否存在关联等,这些都将是风控和反欺诈模型的新特征。测试数据集使用全网用户三个月的通话记录。节点属性包括是否联通号码、对应手机号码的经纬度等;边属性包括三个月号码之间的通话次数、通话次数、天数、时长等。数据集大小约750G,加载到图数据库中的结果如图3所示。(图3)加载后,根据每台机器的VertexCount和EdgeCount,可以看出图数据库总共加载了约17亿个节点(数)和340亿条边(调用关系)。其中NumOfSkippedVertices表示一个去重过程,即每个节点只加载一次。因此,总分区大小只有590G左右,实际上是对数据进行了压缩。做一个简单的数字关系查询(如图4所示),在百亿边的图数据库中可以做到毫秒级的响应。有两点值得注意:1、查询返回的是json格式;2、查询语言是类SQL语言。(图4)我们可以将查询语言以文件的形式存储起来,通过install/runquery进行查询。同时在后台安装查询也会生成一个REST端点,这样就可以通过http调用参数化查询。如图5所示,通过查询语言进行图遍历,寻找两个数之间的最短距离。这样就可以实现熟悉的六维空间理论(小世界理论),即世界上任意两个人最多可以通过六种关系找到对方。(图5)如果我们将号码之间的通话频率定义为关系权重,则人均通话次数就是通话活跃度。试想,一个人和你没有通话记录,却经常和你的好朋友通话。你有可能认识这个人吗?这个查询就是从图中挖掘出你可能认识的人。查询输入是要查询的号码和最有可能被识别的k个手机号码,返回是查询号码与输入号码的距离(如图6所示)。(图6)***,给一个真实的场景案例,是否可以通过少量的企业员工号、imei或者其他ID找到企业的员工组,并分析组来反映实际企业的经营地址和活动情况如何?这里是【2-stepneighborsubgraph】的概念(以手机号为例),即:输入号码联系人和联系人的联系方式(如图7所示,这里用一个可视化的交互界面来显示调用关系)。(图7)在模型构建过程中,我们分析了通话的时间段、时长和频率,评估了可能的同事关系,并基于现有的职住模型和网格技术发现了公司的真实营业地址。以我自己的手机号码为例(如图8所示),可以看到回国企业员工主要聚集的工作场所(数字表示对应格子中的人数),即:中国的两个办公区联通大数据公司(职场)实时数据取自2018年12月),中国联通集团。(图8)该模型基于对人群行为的洞察,可以帮助工商部门动态、客观地评价和判断企业的真实位置和活动情况,为相关监管监管提供数据支持。值得一提的是,基于中国联通的大数据关系图,在一个拥有数十亿节点、数百亿条边的大型网络结构中,查询6步邻居子图(如图9).可视化交互界面如图10所示(中间的白点是我的手机号)。(图9)(图10)为了更详细地洞察网络中的关系,将降低显示门槛(图11)。经查,中环结构上的每个点都是同事关系。社交网络中环状结构上的点往往具有某种隐性联系,如同事关系、亲密关系、帮派关系、资金流动等。基于不同样本和不同场景的应用,相对于传统的数据库类型,图数据库可以最大程度地挖掘样本之间的关系。(图11)此外,大量经典的图挖掘算法,如:communitydiscovery、Pagerank、LPA等也准备在传统机器学习模型的模型特征中加入更多的图特征。简而言之,本体、知识图谱、图数据库是利用节点和关系对现实世界中的各种场景进行直观建模,并利用“图”这种基础的、通用的“语言”来“高保真”地表达这种多维度的数据。.多彩世界中的各种关系,而且非常直观、自然、直接、高效。中国联通数据独具“节点”和“关系”优势,我们坚定不移地走在地图发现的道路上!
