一、数据可视化概述数据可视化是技术与艺术的完美结合。它通过图形的方式清晰有效地传达和传达信息。一方面,数据赋予可视化意义;另一方面,可视化增加了数据的灵性。两者相辅相成,帮助企业从信息中提取知识,从知识中获取价值。维基百科对数据可视化的定义比较权威。它认为数据可视化是一种比较先进的技术方法,这些技术方法允许使用图形、图像处理、计算机视觉和用户界面,通过表达、建模和立体、表面、属性和动画来直观地解释数据。一、发展历史数据可视化的历史可以追溯到20世纪50年代计算机图形学的早期,当时人们使用计算机创建了第一个图形图表。到1987年,一篇名为《Visualization in Scientific Computing(科学计算之中的可视化,即‘科学可视化’)》的报告成为数据可视化领域发展的里程碑,它强调了对新的基于计算机的可视化技术的需求。随着人类收集的数据种类和数量的增加以及计算机计算能力的提高,越来越多地采用先进的计算机图形学技术和方法来对这些大规模数据集进行处理和可视化。在20世纪90年代初,“信息可视化”作为一个新的研究领域出现,旨在支持许多应用领域中抽象异构数据集的分析。目前,数据可视化是一个新概念,包括科学可视化和信息可视化。它是可视化技术在非空间数据上的一种全新应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还可以更直观地看到数据和数据之间的结构关系。2.市场调研2014年3月进行了数据可视化调查,可以看出目前仅有15%的企业部署了数据可视化,但56%的企业计划在1-2年内部署相关应用。从企业部署可视化的目的来看,排名前三的分别是:通过可视化发现数据的内在价值(36%)、满足高层领导的决策需求(30%)和满足业务人员的分析需求(25%)),只有9%的企业选择需要更美观的展示效果。▲数据可视化流行度、流行度和领导者调查在八家数据可视化产品和服务提供商的调查中,Tableau、Qlik、Tibco软件、SAS、微软、SAP、IBM和Oracle,作者分析了流行度、流行度和领导者分析从三个方面。从知名度来看,八家厂商几乎不分先后,差距很小;从知名度来看,SAP、IBM、SAS占据前三,占比分别为19%、18%、17%;从领导者的角度来看,Tableau以40%的优势遥遥领先,这也与Gartner2014年的魔力象限排名非常吻合。3.技术趋势数据可视化的思路是将每个数据项用在将数据库作为一个单一的图形元素,通过提取的数据集形成数据图像,并将数据的各个属性值组合起来,通过图表、三维等方式以多维数据的形式展示关联信息数据之间,使用户可以从不同维度、不同组合观察数据库中的数据,从而对数据进行更深入的分析和挖掘。传统的数据可视化工具只是将数据进行组合,通过不同的呈现方式提供给用户,以发现数据之间的关联信息。近年来,随着云时代和大数据时代的到来,数据可视化产品不再满足于使用传统的数据可视化工具对数据仓库中的数据进行抽取、汇总和简单呈现。新的数据可视化产品必须满足互联网爆炸式增长的大数据需求,必须快速采集、过滤、分析、汇总、展示决策者需要的信息,并根据新增数据实时更新。因此,在大数据时代,数据可视化工具必须具备以下特点:(1)实时性:数据可视化工具必须适应大数据时代数据的爆炸式增长,必须快速收集和分析数据,并对数据信息进行实时分析。更新;(2)操作简单:数据可视化工具满足快速开发和易操作的特点,能够满足互联网时代信息多变的特点;(3)更丰富的展现:数据可视化工具需要有更丰富的展现方式,能够充分满足数据展现的多维度需求;(4)多种数据整合支持方式:数据来源不限于数据库,数据可视化工具将支持团队协作数据、数据仓库、文本等多种方式,并可展示。4、专家观点中国传媒大学新闻学院沉浩教授:随着非结构化和半结构化数据的增长,数据可视化的发展需要迎合多种类型的数据,词云、气泡的出现地图、热力图等形式更适合新的数据类型。此外,在呈现形式上,数据可视化工具还应满足直接发布到云端和移动端的要求。阿里巴巴数据平台事业部高级开发工程师宁朗:数据可视化是连接大数据和大智慧的桥梁。大数据把数据变成设计师,人人都能用。Splunk中国高级售前工程师崔越:数据可视化重新定义了数据分析,就像Windows重新定义了操作系统一样,将数据从晦涩难懂的代码中分离出来,提供了一个展示和监控数据的平台,让数据分析变得更简单。QlikView南北亚售前经理张子斌:数据可视化利用了人类天生的能力,可以发现复杂数据中的异常、模式、趋势甚至相关性,这是我们无法通过数据的行和列做到的。良好的数据可视化伴随着内存关联技术、移动和社交业务探索能力,使用户能够自由高效地挖掘数据以找到重要的模式并做出时间紧迫的决策。2、主流数据可视化工具介绍企业主要通过编程和非编程工具获得数据可视化功能。主流的编程工具包括以下三种:从艺术角度创造的数据可视化,典型的工具是Processing.js,它是一种面向艺术家的编程语言。从统计和数据处理的角度来看,R语言是一个典型的工具,既可以用于数据分析,也可以用于图形处理。介于两者之间的工具,既需要数据处理,又需要显示效果。D3.js是一个不错的选择。像D3.js这样基于Javascript的数据可视化工具更适合在互联网上交互展示数据。此外,笔者还将盘点以下五款商用数据可视化工具。它们的共同特点是技术门槛低,方便易用,支持多种数据源,可以帮助企业更直观地获取数据中的价值。.一、TableauDesktopTableauDesktop是Tableau开发的桌面系统中最简单的商业智能工具软件。Tableau不强制用户编写自定义代码,新的控制台也可以完全自定义。在控制台上,不仅可以监控信息,还提供完备的分析能力。Tableau控制台灵活且高度动态。如上图所示,Tableau将数据操作与漂亮的图表完美嫁接。该程序通过拖放将所有数据呈现在数字“画布”上,眨眼间创建图形和图表。该软件背后的理念是,在界面上操作数据越容易,公司就越能了解自己在业务领域的做法是对还是错。获取TableauDesktop数据的方式有很多种。可以同时支持Excel和各种数据库类型,并可以以web方式发布到网络上供他人访问。它还支持团队合作,多人同时完成一项任务。如上图所示,TableauDesktop有多种显示形式。操作员可以自定义图表类型并以多种图形显示。同时,根据不同的图形,不同的显示图形有不同的提示。当用户从TableauDesktop中绘制完图形后,数据会自动从数据库中更新,从而自动同步显示的数据。同时,TableauDesktop集成了趋势分析,可以对数据的未来趋势进行一定的趋势分析。同时,TableauDesktop还很好地融合了地理信息。在使用TableauDesktop的过程中,发现使用这款软件的操作响应比较慢。由于该软件将所有数据加载到内存中,因此对计算机内存的使用等有很高的要求。同时,在TableauDesktop的趋势分析模块中,用户无法根据自己的需求选择算法,因此用户无法根据自己的业务特点对未来做出预测。2.QlikView下图是QlikView的界面截图。QlikView是一个完整的业务分析软件,使开发人员和分析师能够构建和部署功能强大的分析应用程序。QlikView应用程序使各种最终用户能够以高度可视化、强大和创造性的方式交互式地分析重要的业务信息。QlikView将业务分析所需的三个元素放在一个包中。QlikView客户可以获得:一个向导驱动的应用程序开发环境,具有完全集成的ETL工具,一个强大的AQL分析引擎,允许无限向下钻取,以及一个高度直观、易于使用的用户界面。QlikView使开发人员能够从各种数据库中提取和清理数据,构建功能强大且高效的应用程序,并使其适用于高级用户、移动用户和日常最终用户。QlikView获得专利的AQL架构利用了计算和网络设备的进步,例如廉价、快速的内存。AQL框架在提供灵活强大的分析能力的同时,改变了对OLAP立方体的需求,不一定需要使用数据库。QlikView是一个可扩展的解决方案,它充分利用底层硬件平台对具有数亿条数据记录的业务进行分析。QlikView由以下部分组成:开发工具(QlikViewLocalClient);服务器组件(QlikView服务器);发布组件(QlikViewPublisher);其他应用程序接口(SAP\Salesforce\Informatica)。服务器端支持AJAX客户端、ActiveX客户端等多种发布方式。它还可以与其他CS/BS系统集成。上图是使用QlikView工具进行数据可视化的第一步。用户可以选择他们想要用于建模的图表类型。从上图可以看出,QlikView的图表类型比TableauDesktop少。QlikView数据支持的格式与TableauDesktop相同,支持多种数据源。不同的是QlikView通过导入数据生成qvw来展示数据。因为使用了自带的qvw格式,所以在使用QlikView的过程中发现,该工具显示速度比TableauView快。3、MicrosoftExcelExcel一直是用户用来可视化数据的软件之一,它可以通过Excel内置的图表直观地显示选定的数据源。同时,Excel支持3D可视化。微软发布了一个名为GeoFlow的插件,它是结合Excel和Bing地图开发的3D数据可视化工具。该工具可以作为插件运行,目前支持Excel2013和Office365ProPlus。上图是Excel3D可视化的截图。GeoFlow的概念于2011年6月首次提出。微软也在2012年11月的SharePoint会议上推出了GeoFlow。GeoFlow帮助用户创建、浏览和交互时间敏感的数据,这些数据也可以应用于数字地图。同时,用户还可以使用GeoFlow将数据转换成3D图像与他人分享。按照微软的说法,我们可以将GeoFlow理解为WorldWideTelescope项目的更新版本。它通过详细的3D数据地图帮助信息工作者发现和分享数据的新视角。据介绍,GeoFlow目前支持高达100万行数据,并可通过Bing地图引擎直接生成可视化3D地图。数据可以以三维垂直或二维瓦片的形式呈现,同时支持ExeclDataModel和PowerPivot模型,还可以可视化BingMaps区域。目前,GeoFlow支持多种可视化类型,包括柱状图、二维图块和“气泡图”。微软研究院的CurtisWong指出,他们正在建造一个巨大的“虚拟望远镜”,要想实现这个目标,首先要建造一个“视觉宇宙”引擎。他还表示,GeoFlow将为全球企业带来动态、交互式的数据可视化能力。微软在Excel的官方博客上解释了GeoFlow的工作原理。以德克萨斯州达拉斯居民的家庭能源使用数据为例,GeoFlow首先在地图上标出这些用户所在的位置,Excel将这些家庭的房屋面积和市场价格以三维图像的形式显示出来。随着时间的变化,这张“地图”也会实时变化。如果用户想与他人分享数据,只需要在GeoFlow中捕捉“图片”,然后创建“场景指南”,最后导出即可。目前GeoFlow仅支持OfficeProfessionalPlus2013和Office365ProPlus。4.SASVisualAnalysis作为SAS高性能分析解决方案家族的最新产品,SASVisualAnalysis具有出色的内存分析速度、自助服务功能和高度可视化的界面,可为企业提供快速、简单、具有成本效益的业务洞察力,并做出更好的业务决策。SASVisualAnalysis(VA)具有强大的数据探索和显示功能。它不是一个简单的商业智能产品,而是一个将商业智能和分析能力充分结合的快速易用的产品。我们正处在各种技术层出不穷,急需融合的时期。SAS可视化分析有着广泛的应用。无论是小型工作组、中小型公司,还是超大型企业,都可以从其使用中获益。SAS可视化分析的可扩展性让企业可以实现量身定制的数据可视化,或者根据实际需要逐步增加分析功能。其自助服务能力让非数据专家也能轻松有效地理解和分析大数据,并在自己的数据中找到业务问题的答案。用户可以随时随地通过iPad等移动终端或网页从移动仪表盘生成交互式报告或获取最新数据信息,从而更快更好地做出决策。同时,可以将企业内部IT部门从不断增加的数据集、临时分析、一次性报告请求中解放出来,将更多的精力投入到其他项目中,效率更高。SASVisualAnalysis的高性能内存分析架构,可快速完成不同规模的数据分析,让用户快速查看所有数据,免去传统IT生成报表的等待时间,几十分钟即可处理或秒对数十亿行数据进行分析计算并呈现可视化结果。SASVA6.1的优势体现在以下七个方面:完整的、随时可以交付的系统;大数据的价值;高性能分析;移动应用程序;盒子外面;拥抱开源技术;无需开发,基于配置的操作。SAS可视化分析的初衷是解决大数据分析问题,可以低成本利用行业标准刀片服务器的可扩展性,以及适合EMCGreenplum和Teradata的数据库系统。目前可以根据数据量的不同,应用于不同的部门。SASVisualAnalysis除了支持各部门的硬件平台外,还可以增加图形显示选项和特色分析功能,包括预测、多元回归模型选项、多重视觉交互、动态过滤、新的可视化方法等。5、IBMSPSSSPSS是世界上第一个采用图形菜单驱动界面的统计软件。它最突出的特点是极其友好的操作界面和漂亮的输出结果。几乎所有的功能都显示在一个统一、标准化的界面中,使用Windows窗口显示管理和分析数据方法的各种功能,对话框显示各种功能选项。用户只要具备一定的Windows操作技能,对统计分析原理有一定的了解,就可以使用本软件为具体的科研工作服务。SPSS采用类似Excel的方式输入和管理数据,数据接口更通用,可以方便地从其他数据库中读取数据。其统计流程包括常用的和比较成熟的统计流程,可以充分满足非统计专业人士的工作需要。输出结果非常漂亮,并以特殊的SPO格式存储,可以转换为HTML格式和文本格式。对于熟悉旧版本编程操作方式的用户,SPSS还专门设计了句法生成窗口。用户只需选中菜单中的每一个选项,然后按下“粘贴”按钮,即可自动生成一个标准的SPSS程序。为中高级用户提供了极大的便利。SPSSforWindows是一个集数据录入、整理、分析功能为一体的组合软件包。用户可根据实际需要和计算机功能选择模块,降低对系统硬盘容量的要求,有利于软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据归约、生存分析、时间序列分析、多重响应等,每一类有几种其中的统计过程。例如,在回归分析中,有线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多种统计过程,而每个过程又允许用户选择不同的方法和参数。SPSS还有专门的绘图系统,可以根据数据绘制各种图形。最新21.0版本采用DAA(DistributedAnalysisArchitecture,分布式分析系统),全面适配互联网,支持动态采集分析数据和HTML格式报表。SPSS输出虽然漂亮,但很难直接兼容Office或WPS2000等一般办公软件。如果不能用Excel等常用的电子表格处理软件直接打开,只能通过复制粘贴进行交互。撰写调查报告时,往往需要借助电子表格软件和专业制图软件重新绘制相关图表,受到不少统计人员的诟病;而SPSS作为三大综合统计软件之一,其统计分析功能与其他SAS和BMDP这两款软件相比,还存在一些不足。即便如此,SPSSforWindows因其操作简单,在我国社会科学和自然科学的各个领域发挥了巨大的作用。该软件还可以应用于经济学、数学、统计学、物流管理、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业等领域。6.总结综合以上五款产品的用途和功能,总结如下:从产品用途和功能来看:TableauDesktop拥有最丰富的产品应用,可以通过简单的拖拽实现数据可视化,并可支持GIS地理信息、多数据源等功能。·专业性:SPSS通过各种算法和软件包很好地预测和展示业务数据,并能很好地与其他算法集成,其产品BI度最高。·支持网络和产品协作:SAS分布式存储和多用户检索功能搜索共享文件。通过共享文件,不同的用户可以合作完成一个共同的任务。其余产品支持网络发布;简洁和3D特性:Excel本身就是一个很好的数据可视化展示软件,同时可以通过3D展示更有效的将数据展示给用户。·性能:当Qlikviw通过AQL框架提供灵活强大的分析能力时,AQL框架改变了对OLAPcubes的要求。通过将用户数据转换成自己的格式,实现快速灵活的分析性能。三、主流数据可视化产品对比表1、企业实施情况2、可视化情况3、技术情况4、总结一般来说,在数据可视化的分类中,免费开源产品一般没有使用限制,但应用门槛高,学习成本高,适合有一定技术实力的企业;免费商业产品一般是数据可视化厂商提供的免费版本,在功能和应用上有一些限制,适合数据量小、分析要求不高的中小企业;付费商业产品往往需要大量的资金支持,但部署应用简单,服务有保障,特别适合资金实力雄厚的企业。当然,数据可视化产品的选择也需要各企业根据自身情况“具体问题具体分析”,找到适合自己的解决方案。企业在选择和部署商业智能和分析平台软件时,不妨考虑数据可视化产品,真正实现数据与业务人员、数据价值与企业的“零距离”。
