构建成功的大数据基础架构的七个关键具有巨大的影响。在今天的文章中,我们将了解七个重要的大数据架构设计原则。大数据不仅仅是Hadoop。在大多数人的理解中,大数据和Hadoop几乎可以划等号。事实上,大数据不仅仅是Hadoop。Hadoop是一个文件系统(不是数据库),负责将数据分发到数百或数千个处理节点。它之所以在大数据应用中得到广泛应用,是因为作为文件系统,它可以很好地处理非结构化数据——甚至包括一些看起来根本不是数据的素材。Hive和Impala将数据库引入Hadoop下面说说大数据世界中结构化数据对应的数据库选项。如果想把Hadoop数据平台管理的井井有条,那么Hive应该是最好的选择。这是一个基础设施工具,允许您在非SQLHadoop中执行类似SQL的操作。如果你的部分数据可以在结构化数据库中轻松轮换,那么Impala更适合——除了自身的功能外,它还可以直接使用你开发的Hive命令。Hadoop、Hive和Impala都是Apache项目,因此它们都是开源的——请随意使用它们。用于处理大数据的Spark到目前为止,我们已经讨论了数据的存储和组织。然而,我们究竟如何对数据进行操作呢?这就意味着我们需要一个分析处理引擎,比如Spark。Spark也属于Apache项目,可以将你大批量的数据组织到湖、仓库甚至数据库中,进行实际的处理。Spark还可以用来处理存储在任何位置的各种数据,因为丰富的库选项使其具有极其广泛的访问能力。另外,由于是开源项目,大家可以随意修改其核心内容。可以进行基于大数据的SQL操作很多朋友可能对SQL建库和SQL查询的编写都非常熟悉。这种专业知识在大数据领域也很有用。Presto是一个开源的SQL查询引擎,它允许数据科学家使用SQL查询来检索从Hive到专有商业数据库的各种数据库系统。Facebook等巨头公司都在用它来进行交互式查询,所以我们基本上可以把Presto看作是一个理想的大规模数据集交互式查询工具。在线存储还需要接地平台。大数据领域中有相当多的任务需要对数据进行快速更改——例如定期添加数据或分析更改后的数据。在任何情况下,如果您的数据的读写频率几乎相等,您应该在本地和在线上保留一份数据副本。如果预算允许,使用固态存储无疑更好,因为它可以显着提高数据处理速度。云存储的必要性在分析大规模聚合数据库时,云存储将成为最理想的存储平台。您可以聚合数据并将其传输到云端,运行分析并删除相应的实例。数据处理不受互联网性能的影响。此外,如果将内部实时分析系统与云端深度分析解决方案相结合,可以最大限度地发挥大数据基础设施的全部潜力。别忘了,除了大数据分析,可视化机制也很重要,要将结果以通俗易懂的方式呈现出来,而数据可视化是实现这一效果的关键工具。幸运的是,当今市场上有多种可视化选项。您可以选择一个部分进行试用,并通过获取用户反馈来判断其有效性。总而言之,可视化是实现大数据分析价值的最佳方式。原标题:构建成功大数据基础设施的7个关键,作者:CurtisFranklinJr.
