11月9日,阿里巴巴宣布将开源一站式超大规模分布式图计算平台GraphScope。GraphScope项目组告诉DeepTech,1.0版本将于12月开源,希望在易编程、高性能、一站式服务等方面解决全球图计算领域的主要研发瓶颈。阿里巴巴基于自身超大规模业务场景和达摩院智能计算研究,开发了交互式图查询引擎、高性能图分析引擎、图深度学习引擎,以及相关的开发者生态工具和集成。GraphScope集成了各个引擎的核心能力。同日,在中国科协、中国科学院、中国工程院主办的世界科技与发展论坛上,GraphScope被列为重要科技发布之一。在正在进行的双11中,以GraphScope为底层框架的图计算网络也在搜索推荐、智能风控等核心场景发挥作用。今年疫情期间,基于GraphScope的大规模因果图推理也有助于自动识别和预测影响机票价格波动和机场中转变化的关键因素,克服了传统深度学习的黑箱缺点,让AI知道什么它是什么,它是什么,为什么。GraphScope项目总经理、阿里巴巴集团高级副总裁周敬仁认为,图结构数据是各种实体之间关系的自然表达。只有有效理解这些实体概念之间的广泛联系,数字智能技术才能进一步赋能实体产业。图计算仍面临三大挑战瑞士数学家莱昂哈德欧拉在1735年面临的柯尼斯堡七桥问题可能是最早的图计算命题。现代图计算问题复杂了数千倍,近年来图计算的性能提升了数十倍,但大规模应用仍面临三大挑战:一是相关领域问题复杂,计算难度大。模型多样,大量解决方案零散;二是学习难度大,非专业程序员门槛很高;三是跨域数据量大,计算效率仍然较低。传统的机器学习计算框架在解决时序数据和非结构化数据(如视频)方面已经可以更加高效。然而,对于相对稀疏和高维的关联数据,需要在图计算性能、架构和平台方面不断进步。如果说中国484.65万公里的高速公路形成了一个巨大的迷宫,使用GraphScope可以在一毫秒内跑完所有的岔路口。》GraphScope提供一站式友好的编程环境,它不仅支持多种核心图计算范式和它们之间高效的数据交换,还为Python接口提供了独立的抽象,从而屏蔽了大规模分布式计算系统的复杂性.”阿里巴巴高级专家、GraphScope团队成员钱正平告诉DeepTech。通俗地说,图是由点和边组成的数学模型,可以很容易地表达实体和数据之间的复杂关系。许多技术开放source与Alibaba项目类似,GraphScope来源于阿里巴巴集团丰富的图场景和大规模图计算的真实应用需求,如电商知识图谱构建、风控、阿里云网络安全、商品搜索推荐和广告投放等,等等。在正在进行的双11中,图计算在商品推荐、智能物流、网络安全等方面也发挥着重要作用。“图模型可以很自然地表达这些领域数据的复杂关联和结构特征。利用这些特性,往往可以增强大数据分析的效果,为用户提供更准确可靠的信息。”钱正平告诉DeepTech。三大引擎支持GraphScopeDeepTech独家资料显示,GraphScope开源项目的核心引擎主要包括三架马车:实时交互式图查询引擎、高性能图分析引擎、可扩展图深度学习引擎。1)交互式图查询引擎:实时图计算赋能行业创新“深入理解图数据”是图计算在不同场景下有效应用、挖掘深度洞察、创造新数据价值的必要前提。为此,业务用户和领域专家经常需要在交互式环境中高效地探索和展示图数据,GraphScope使用高级声明式图查询语言——Gremlin,让领域专家和非计算机专业用户可以表达复杂的图遍历模式简明扼要。同时,它还提供了“业界首创的自动并行化tionGremlinexecutionengine”允许用户隐藏大规模和分布式环境中图的复杂遍历所涉及的内存管理和动态策略优化等系统问题。GraphScope可以降低使用门槛,让图计算人人可用,具体体现在能够促进与更多行业专家的深度合作,让他们将自己的领域知识与图计算本身的系统能力相结合,实现技术上的突破。更多行业的创新。钱正平告诉DeepTech:“在海量数据的计算中,我们希望GraphScope与现有的图上交互式分析工具相比,至少能提供一个数量级的性能(即查询延迟)优势,让很多大——规模化应用永远无法改变成为可能,而这种性能的量变可以引发业务效果的质变。”2)高性能图分析引擎:让大规模图计算人人可用除了交互式图计算场景,图分析也是大数据图计算的重要组成部分。现实世界中各种实体之间的关系,各种线上线下交互场景,如社交媒体网络、化学结构、蛋白质交互网络、知识图谱、交通网络、通信网络、供应链和交易网络等,广泛而庞大尺度图分析被使用。GraphScope团队开发了一个基于定点计算的大规模分布式图计算引擎。将定点计算理论从局部计算——增量计算进行了扩展。在分布式环境中,每个计算节点根据其在初始轮次持有的数据进行本地计算,然后通过几轮信息交换,每一轮使用其他计算节点的信息作为更新,触发增量计算,直到计算完成系统稳定后结束。该过程经过严格的理论证明,确保分析引擎在满足前提条件时具有终止性和准确性。该引擎支持阿里巴巴内部20多种业务,与原方案相比表现出非常显着的性能提升效果,在部分业务上实现了2-3个数量级的性能提升。此外,分析引擎还支持双十一智能风控、春节派发红包等重点场景,经受住了海量数据和瞬时峰值的实战考验。3)高性能、可扩展的图深度学习图引擎的应用已经扩展到人工智能领域,融合图计算和深度学习的图神经网络(GNN)成为当前非常热门的子领域人工智能领域。研究人员寄予厚望。图结构可以表达人类知识体系与现实生产生活的复杂关系,使知识和结构融入万物皆向量的深度学习中,使深度学习从感性学习走向认知学习。从开发到产业化,GNN算法仍处于快速发展和迭代阶段。应用场景的拓宽、算法理论的变革、编程范式的变革,都可能带来平台的变革甚至颠覆。GraphScope通过整合以上三个核心组件,提供一站式的图计算处理能力。同时,GraphScope通过生态丰富、语义灵活的Python编程接口,无缝集成多样化的图操作。通过开发者本地的Python脚本,可以实现集群内海量图数据的Gremlin交互查询、图分析算法调用、图神经网络训练等。此外,GraphScope还利用阿里开源的Vineyard项目,实现了上述操作之间高效的全内存中间结果数据交换,进一步提升了应用流水线的端到端效率。在世界科技与发展论坛上,阿里巴巴认为,随着GraphScope在提升智能技术底层能力方面开启多重突破,未来将能够对标以TensorFlow、Hadoop为代表的人工智能底层计算架构,助力加快全球数字经济发展。钱正平预测,“GraphScope和TensorFlow等框架在系统中会形成协同关系,即把深度学习和传统图模型更紧密地结合起来,取得更好的效果。”
