布加迪评论家|孙淑娟资料。图数据库真正为你解决的问题是:系统哪里出了问题?哪些交易模式可能表明存在恶意?对于最难治疗的疾病,哪些治疗组合最有效?当您在数据中建立关系时,数据会在您最需要的时候揭示这些关系。这不仅仅是可视化圆圈和箭头。可视化插件不是原生图形数据库。本机图形工具解释关系,以及从关系派生的所有概念(例如相关性、完整性、概率、可靠性、偏差和脆弱性)。这样,来自这些关系的信息可以被定位,由数据库分析,然后解释给你。1.认知问题根据图形数据库生产商Neo4j的用户创新高级总监MichaelHunger的说法,人类通常会观察世界,然后处理他们看到的相互关联的元素。但是当这些人需要用关系数据库来表示这些相同的元素时,问题是一旦他们真正使用了技术、数据库,他们就需要忘记所有的相互关系。关系可以嵌入到关系数据库中,但这需要相当大的努力,外加大量的内存和存储资源,而这些资源在由云平台提供时成本很高。因此,组织通常会淡化了解相互关系的必要性,以节省时间和金钱。之后,当他们需要深入分析时,依赖于只能从数据库模式的表层推断信息的附件和扩展。技术研究公司Omdia的人工智能平台、分析和数据首席分析师BradleyShimmin表示,不仅金融公司需要了解欺诈检测,其他公司也需要能够了解员工是否会在下个月辞职.可以跨多个维度查看图形分析,为表格数据一无所知的数据添加上下文和意义。2.什么是原生图数据库?在传统的关系数据库模型中,数据分布在多个表中,通过键连接。运行SQL查询通常意味着连接多个表和多个索引查询。图1.美国小企业创新研究(SBIR)计划的创业生态系统模型在此描述为Neo4j图数据库模型。相反,在Neo4j属性图模型中,重点是数据元素之间的关系。这些元素存储为“节点”,其属性可以由任意数量的键/值对表示。节点可以通过任意数量的关系连接。节点和关系都可能具有“属性”。在图形模型中,关系数据库表中的列或行表示为节点的属性。使用原生图形数据库,整个堆栈都围绕这个数据模型进行了优化,从查询语言到文件存储。原生图形数据库在分析此类关系时会更有效,因为它们从一开始就融入了模型。区分原生图形数据库和在关系数据库上运行的层很重要。后者以图形的形式提供结果,但仍必须执行连接和其他操作以汇集来自整个数据库的数据。这导致延迟和计算资源的过度消耗,所有这些都在扩展时暴露得更多。开发图形数据库需要在创建过程中进行额外的工作,因为您还必须插入这些关系。所涉及的工作量稍后会得到回报,您可以更轻松地推断数据之间的联系。回报来自这三个被低估的优势:1.可遍历性:构建关系图数据库使您能够“遵循”关系。如果你阅读数据,想要追踪或遍历这些关系,你会受益匪浅。Neo4j的开发者关系工程师WilliamLyon指出了图形数据库独有的称为“无索引邻近性”的特性。这基本上意味着您可以从一个节点遍历到任何其他节点而无需索引查找。图2.图模型的一部分,其中三个Twitter用户相互关注但不成比例。可遍历性揭示了它们关系的范围和限制。这种可遍历性不仅使跟踪数据之间的关系变得更加容易,还减少了执行查询所需的计算,从而减少了管理计算过程所需的人力。与关系数据库一样,您必须计算在一起的内容,然后通过某种方式将它们合并在一起。这意味着更多的连接或跃点。数据库中的数据量越大,所需的连接和跃点就越多。相比之下,使用图数据库,数据库中有80亿人都没有关系。如果你专注于乔,你只对乔的关系感兴趣,你可以完全忽略其他人。这也使得图数据库对于分析分层数据特别有用,例如一家拥有200,000名员工和数十个管理层级的公司。图3.由于可遍历性,Neo4j的Cypher查询语言在四行代码中揭示了三个层次的关系,而不是复杂的脚本。在关系数据库中操纵这个庞大而复杂的层次结构意味着成千上万的自连接:将个人或员工表与经理、他们的经理或每个人的指定经理连接起来。切换到图形数据库,这只是跟踪层次结构上下关系的问题。图形数据库格式对数据科学家也特别有吸引力——他们不喜欢使用关系数据库,因为它强制执行严格的模式。在开始工作之前,您必须预先定义和实现数据的模式。相比之下,图形方法更快、更直观,使您可以更轻松地迭代优化数据模型。2.可解释性:便携式白板如果人类从关系和联系的角度来看世界,那么数据库应该能够推断出关系和联系的含义。这个原则就像你试图找到的结果的“白板友好”输出。当研究医师与同事交流结果时,通常采用Excel电子表格或某种表格格式。通常,这些格式相当于完整的数据库。同时,图表向人们展示了一个即时的信息结果。你可以把这个丰富的模型从白板上放到数据库中,因为关系和实体是一等公民,但你不会失去所有的业务人员。推荐系统是图形数据库的核心用例。如果你能说“我们向你推荐这本书是因为它与你评价很高的其他书籍有相似的元素”,那是一个非常有价值的推荐。网络属性允许您推断某些节点可能对其他节点的影响程度:“什么是集群?谁最有影响力?谁连接集群?谁是必不可少的?”这种级别的分析可能只能由关系数据库通过非常复杂的聚合过程和所谓的“知识发现迭代”来实现,所有这些都使前面描述的SQL交叉连接马拉松看起来更像是短跑。印第安纳大学的研究人员试图确定帕金森病各种病因之间的遗传关系模式,出于多种重要原因选择Neo4j作为他们的原生图形数据库,其中之一是图形查询返回的模式本身可以代表图形。从他们的角度来看,不仅数据库本身被表示为知识图谱,输出也是如此。3.公平:将原始数据置于上下文中高质量的结果需要高质量的数据。图数据库在公平性和去偏方面显示出更多未被充分认识的优势,尤其是在机器学习和人工智能的庞大数据集上。偏见可能来自两个来源:将有偏见的数据提供给算法,以及研究人员在他们提出的问题上有偏见。使用图形模型,可以在设计阶段突出显示和消除潜在的偏差。数据科学家自然会希望确保他们的训练数据在被输入机器学习算法之前具有代表性和公正性。在数据准备阶段使用原生图形数据库可能有助于将原始信息置于上下文中,避免将偏差输入模型的可能性。所以看看你的图的聚类,如果只有一个大的聚类,那就有偏差,就有问题。您需要返回并确保您拥有良好的分布式集群。神经网络本身就是图。这意味着当您训练模型时,神经网络会发生变化。如果您呈现一个图形,并使其可访问、可变和可视化,那么您就可以确定网络如何获得其权重。换句话说,从模型生成的任何特定输出都可以很容易地追溯到来源。可遍历性是双向的。所有这些优势是否意味着关系模型的终结?不太可能。但正如Shimmin指出的那样,图形数据库是“一项至关重要的技术,我非常希望看到它更深入、更全面地集成到传统分析工作负载中。》原文链接:https://thenewstack.io/the-3-underrated-strengths-of-a-native-graph-database/
