【.com快译】大数据是当今许多企业IT运营的重要组成部分。据知名调研公司IDC预测,到2019年,大数据市场产值将达到1870亿美元。大数据是数据分析的关键部分,而数据分析又是机器和人类商业智能和决策制定的基础。由于很明显您无法在没有某种基础设施的情况下获得所有类型的数据:大数据、小数据或恰到好处的数据,因此有必要了解有助于构建成功的大数据架构的几个因素。其中一些因素可能看起来很明显,而其他因素则更为微妙。事实上,所有因素共同对您的大数据系统将支持的分析和行动产生巨大影响。当然,这七个因素并不是影响大数据基础设施运作方式的唯一因素。大数据系统有很多部分,但这七个因素值得考虑,因为它们是许多其他部分和流程的基础。现在,即使您在一家小公司工作,您也可能正在使用大数据。这在一定程度上要归功于现有的基础设施——即使是最小的IT部门也可以访问其中的许多基础设施。这种可访问性给本身不具备数据科学专业知识的小公司员工带来了困惑和沮丧。如果您处于这种情况,本文不会消除您的所有困惑,但会让您开始向潜在的服务提供商和供应商提出一些有针对性的问题。大数据不仅仅是Hadoop在普通对话中,大数据和Hadoop经常互换使用。这样的结果令人遗憾,因为大数据比Hadoop要多得多。Hadoop是一种文件系统(不是数据库),旨在跨数百或数千个处理节点传输数据。它被用于许多大数据应用程序中,因为作为文件系统,它擅长处理甚至看起来不像周围数据的非结构化数据。当然,一些大数据是结构化的,为此你需要一个数据库。但数据库是本文涵盖的另一个因素。Hive和Impala将数据库引入Hadoop。这里我们谈论的是大数据世界中结构化数据的数据库。如果您想让Hadoop数据平台井井有条,那么Hive可能正是您所需要的。这个基础设施工具允许您对非常类似SQL的Hadoop执行类似SQL的操作。如果您有一部分数据可以轻松放入结构化数据库,那么Impala是一个专为Hadoop设计的数据库,它还可以使用您在从Hadoop到SQL的过渡过程中开发的Hive命令。这三个(Hadoop、Hive和Impala)都是Apache项目,因此它们都是开源的。用于大数据的Spark到目前为止,我们一直在谈论存储和组织数据。但是如果你想实际处理数据怎么办?这时候就需要Spark这样的分析处理引擎。Spark是另一个Apache项目,它包含一系列开源和商业产品,这些产品可以获取您添加到数据湖、仓库和数据库中的数据,并对其执行有用的操作。由于它的库可以访问您能想象到的任何数据,Spark可用于处理存储在各种地方的各种数据。它也是开源的,所以可以随意修改它。您可以对大数据执行SQL操作许多人都知道如何构建SQL数据库和编写SQL查询。面对大数据,没有必要浪费这种专业知识。Presto是一个开源SQL查询引擎,它使数据科学家能够使用SQL查询来查询驻留在从Hive到专有商业数据库管理系统的任何环境中的数据库。它被像Facebook这样的大公司用于交互式查询,而短语交互式查询是关键。Presto就像一个用于对巨大数据集执行临时交互式查询的工具。在线存储有其用武之地一些大数据任务需要使用不断变化的数据。有时这是定期添加的数据,有时是通过分析更改的数据。在任何情况下,如果您的数据写入和读取一样频繁,那么您需要将该数据在线存储在本地。如果您负担得起成本,还希望将数据存储在固态存储介质上,因为这样可以大大加快速度——如果零售或交易大厅的人员焦急地等待结果返回,这是一个重要的考虑因素。云存储也有一席之地。如果在更大的聚合数据库上执行分析,那么云是首选平台。聚合数据并传输到云端、运行分析并拆除实例。这正是云最擅长的弹性需求响应。操作不会受到互联网可能引入的任何延迟问题的显着影响。如果您将专用本地系统上的实时分析与在云中运行的深度分析相结合,您就可以充分发挥大数据基础架构的潜力。不要忘记,对大数据进行可视化分析是一回事,以大多数人都能理解的方式呈现分析结果则是另一回事。图表对整个“解释”工作大有帮助,因此数据可视化应被视为大数据基础架构的关键部分。幸运的是,有很多方法可以实现可视化,包括JavaScript库、商业可视化包和在线服务。什么最重要?选择一小部分进行试用,然后让您的用户试用。您会发现可靠的可视化是使您的大数据分析尽可能高效的最佳方式。这些是您在处理业务中的大数据时应该知道并牢记的七个关键。原标题:构建成功大数据基础设施的7个关键;作者:小柯蒂斯·富兰克林
