数据可视化是VR“布道者”非常喜欢谈论虚拟现实潜在转变的少数几个领域之一。但具体应该怎么做呢?今天的数据可视化领域出了什么问题?本文深入探讨了传统数据可视化的几个具体问题,讨论了理解抽象信息的困难,并讨论了VR如何改变这一切。本文原作者EvanWarfel是虚拟现实数据可视化公司Kineviz的项目经理。他曾是HIDGlobalGroup的数据科学家,毕业于U.C.伯克利大学主修认知科学。在业余时间,他研究人类决策的过程。谈论数据和虚拟现实有点像先有鸡还是先有蛋的问题——如果不知道人们将如何使用它们,就很难设计出好的VR数据工具。话虽如此,虚拟现实可以帮助我们提高概率思维,将多维数据可视化,展示高密度信息,为人们更全面地理解问题提供语境。高维数据可视化《图像是优秀数据分析的关键》-F.J.Anscombe如果是二维或一维数据集,对应的可视化方法很简单,用图形或表格就可以了。上面是著名的Anscombe四图,其中每个数据集具有相同的均值、相关系数、方差和最佳拟合线。上述各数据集中,X的均值为9,Y的均值为7.50,X的方差为11,X与Y的相关系数为0.816,***拟合方程直线是Y=3+5x。换句话说,这四个数据集在统计上是相等的,即使它们本身完全不同。然而,这是最简单的,因为我们只处理二维数据。如果是3D数据,您会认为3D图像是理所当然的。但是高维数据呢?比如Excel表格中多行多列的数据,你可能无从下手。实际上,超出三维的数据集不可能在超三维中可视化。但是,还有其他表示维度的方法。例如,数据的三个维度可以用三角形三边的长度来表示。如果需要,您还可以在三角形中间标记红蓝光谱或明暗光谱中的颜色,这样您就可以在一个可视化中显示五个连续的维度。比较每个三角形,你可能会发现一些异常或一些隐藏的模式和关系。这就是该理论的工作原理。HermanChernoff在70年代开发了该理论的一个变体,他没有使用三角形的边长,而是使用卡通面孔的不同特征来表示数据的不同维度(Chernoff面孔)。插图展示了1977年洛杉矶的生活。四个面部特征,加上地理分布和社区分布,这张图展示了一个6维数据。你的直觉应该是不喜欢这种表示数据的方式,因为它很难解释,看起来有点傻,而且看起来有点种族歧视。但我建议你仔细看看——你能看到贫穷和富裕之间的缓冲区吗?切尔诺夫脸没有被广泛使用的原因之一是它看起来太卡通了(科学很严谨,用这种卡通脸似乎不太合适)。切尔诺夫脸虽然有这样的缺点,但它强调的是,尽管它们看起来很直观,但我们对脸型和表情的体验非常丰富,以至于对结构化脸的评论会有武断性。看下图,蒂姆库克面部的不同特征(比如眉毛的弧度)可以代表苹果在不同年份的各种财务信息。三个不同版本的蒂姆库克面孔代表了苹果公司不同年份的财务信息。蒂姆库克鼻子的宽度代表苹果负债的多少;库克嘴巴张合的程度代表年利润;眼睛的大小代表每股收益;等等。虚拟现实可以解决上面提到的一些问题。除了这些面部表示之外,还有几种“Chernoff-like”技术可用于控制对象的形状、移动、交互和分布。例如下图中表格的属性可以表示不同的数据维度:高度、表格面积、颜色、表格腿的长度、表格饰面、表格类型、污渍位置等。如果你有一个15维的数据,您可以使用不同因素的尺寸来控制表格的形状。VR的好处是可以让你通过直观比较两张桌子的高度或者桌面摩擦系数的差异,了解所代表的因素维度的差异。一些实验表明,维度之间不同程度的差异会导致不同的感知权重。此外,对这种方法的研究已经涵盖了心理学和色觉领域。研究人员花了很多时间来衡量人们如何看待不同认知中的小差异和大差异。换句话说,借助VR和一点心理学知识,理解复杂数据就像逛宜家一样简单。高密度图像由于数学史上的一次不幸事故,由点和连接线组成的东西也可以称为图像,比如下图:维基百科的力导向图。图中每个点代表一个wiki页面,每条线代表页面之间的链接。数据点之间抽象关系的图形表示非常直观,尤其是当这些连接的类型和数量很重要时。例如,下图显示了酵母和酿酒酵母之间每个基因的关系。左边是代表酵母基因组的节点边图;右边是一个重要的基因聚类图有趣的是,这些图的内部非常复杂。如果你查阅“巴拿马文件”数据集,你会发现图像中的连接线像上图一样非常复杂。事实上,大多数图像都被具有重叠中心的复杂连接线渲染得难以理解。但我们最初使用这些图像是因为我们想看到事物之间的关系。正如您想象的那样,3D图像可视化使我们更容易理解。例如,下图是显示大脑中不同连接网络的三维可视化。但是,我们应该发现,这些数据的可视化仍然存在过于密集的问题。即使画家已经用算法将连接线整合起来,我们仍然很难理解图像中物体之间是如何相互关联的。想象一下,如果你能走进图片中的大脑,你可能会更容易理解大脑中发生的事情。内容驱动的数据可视化请比较图表:两个图表使用相同的数据,但第一个图表是2015年最具误导性的图表之一。上图作为静态图像具有误导性,因为它改变了大小、形状和比例数据。因为当我们看到内容时,我们会想到我们的日常经历。使用虚拟现实进行数据可视化的一大好处是,每个VR表示都可以自动成为一种体验,而不是仅仅显示静态表示。这意味着读者可以随心所欲地浏览图表。VR来拯救当然,VR数据工具仍处于起步阶段。下面是三个例子来说明我上面提到的内容。CalcFlow首先要介绍的是Calcflow,它是加州大学圣地亚哥分校数学系开发的3D数学概念可视化工具。目前,它构建了一系列交互式展示,让人们直观地理解诸如二重积分和粘性流体方程等问题。你可以体验到VR的一些好处:你可以改变观察数据的大小,你可以在数据中“穿梭”,是的,数据更容易理解。演示的这种体验性质意味着用户可以进行自己的调整,并观察这些调整如何在多个维度上改变结果。DeathTools死亡工具的数据可视化,将抽象的数字变成了真实可触的世界。我们对这种可视化数据的理解与原始数字和图像完全不同。例如,它以运尸袋的数量来表示近期中东冲突的累计死亡人数。与直方图不同,你仿佛站在一排排裹尸袋中,真实体验战争的死亡人数。正如DeathTools的创始人AliEslami所说:“我们缺乏在知识库中感知大量数字的能力。我们无法理解和接受大量的死亡。1、2、14、20、50等我们经常遇到的数字,那么我们就会理性地形成它们的心智模型。但是当我们遇到1000、10000、20000时,这些数字就会越来越难以概念化。但我们仍然可以通过在日常生活模型中体验大型物体的视觉来理解大数的含义。”Kineviz最近在Kineviz上使用基于VR的3D绘图工具。该工具专为处理高信息密度数据而设计。而且,这个工具可以让用户直观地感受到数据的显着差异。VR最大的优势在于可以让人更容易感知数据之间的差异,让数据不那么密集,更直观。此外,VR也让数据展示更具体验感,数据展示不再需要匹配一些预定的设置。最后,VR可以让人们快速改变数据的大小,提高用户的空间感知能力,实现过去不可想象的数据规模感知。
