过去几年,随着Hadoop逐渐成为大数据处理领域的霸主解决方案,许多原本存在的争议也开始尘埃落定。首先,Hadoop分布式文件系统是处理大数据的合适存储平台。其次,YARN是大数据环境下理想的资源分配和管理框架选项。第三,也是最重要的一点,没有一个单一的处理框架可以解决所有问题。虽然MapReduce确实是一项了不起的技术成果,但仍不足以成为万灵药。依赖Hadoop的企业需要依赖一系列的分析基础设施和流程来找到与各种关键问题相关的结论和答案。企业客户需要更高级的功能,例如数据准备、描述性分析、搜索、预测分析以及机器学习和图形。同时,企业需要一个工具集来满足他们的需求并允许他们利用他们已有的技能和其他资源。目前,没有标准化的单一处理框架足以提供这样的效果。从这个角度来看,Spark的优势得到了完美的体现。虽然Spark还是一个比较年轻的数据项目,但是它已经可以满足上面提到的所有需求,甚至更多。在今天的文章中,我们将列出Spark引领的时代已经到来的五个原因。1.Spark将高级分析从愿景变为现实虽然大多数大型创新公司都在努力扩展其高级分析能力,但在最近于纽约举行的大数据分析会议上,只有20%的与会者表示他们目前在内部这样做.部署高级分析解决方案。另有80%的参与者表示,他们仍然只有简单的数据准备和基本的分析能力。在这些企业中,只有极少数数据科学家开始花费大量时间实施和管理描述性分析机制。Spark项目提供了一个框架,使高级分析的开箱即用目??标成为现实。该框架包括许多工具,例如查询加速、机器学习库、图形处理引擎、流分析引擎等。对于企业来说,即使拥有极其优秀的数据科学家人才(当然,这个前提也很难达到),通过MapReduce实现上述分析目标几乎是不可能的。除此之外,Spark还提供了一个易于使用且速度惊人的预设库。在此基础上,数据科学家将可以解放出来,专注于数据准备和质量控制之外的更关键的事情。在Spark的帮助下,他们甚至能够确保分析结果的正确解释。2.Spark让一切变得简单长期以来,Hadoop面临的最大问题就是太难用,企业甚至很难找到有能力管理Hadoop的人才。虽然随着新版本的不断发布,Hadoop在便利性和功能层面上有了长足的进步,但在难度上还是饱受诟病。相较于强迫用户去了解Java、MapReduce编程模型等一系列高复杂度的知识背景,Spark项目在设计上保证了每一个懂数据库和一定脚本水平(使用Python或Scala语言)的用户想法很容易上手。在这种情况下,企业可以更顺利地找到有能力理解其数据和相关处理工具的候选人。此外,供应商可以快速为其开发分析解决方案,并在短时间内向客户交付创新成果。3.Spark提供多种语言选择当讨论这个话题时,我们不禁要问:如果SQL实际上不存在,那么我们是否会发明SQL作为一种语言来应对大数据分析的挑战?答案可能是否定的——至少不只是发明SQL。当然,我们希望根据不同的具体问题,有更多更灵活的选择,实现多角度的数据整理和检索,更高效地将数据搬入分析框架。Spark抛开一切以SQL为中心的死板思想,用最快最精良的分析方法打开了数据宝库的大门。这种不畏惧数据和业务挑战的解决思路,确实值得赞赏。4.Spark加快了结果排序的速度。随着业务发展的不断加快,企业对实时分析结果的需求也越来越迫切。Spark项目提供的并发内存处理机制可以比其他使用磁盘访问的解决方案快数倍地交付结果。传统解决方案带来的高延迟水平会严重拖慢增量分析和业务流程的处理速度,并且难以基于此开展操作。随着越来越多的厂商开始使用Spark构建应用,分析任务流程的执行效率将得到极大的提升。分析结果的快速交付意味着分析师可以反复测试他们的断言,从而给出更准确和完整的答案。总而言之,Spark项目让分析师可以专注于他们的核心工作:更快更好地找到难题的答案。5、Spark对Hadoop供应商没有硬性要求。目前主要的Hadoop发行版都可以支持Spark,原因很充分。Spark是一种中立的解决方案,不会将用户绑定到任何一个提供商。由于Spark是一个开源项目,企业客户可以分析构建Spark分析基础设施,而不用担心在具体的开发思路上会不会被某些Hadoop厂商挟持。如果客户决定迁移平台,他们的分析数据也可以顺利迁移。Spark项目蕴含着巨大的能量,在短时间内经受住了考验,证明了其能够紧密贴合大数据分析业务的实际需求。我们目前迎来的只是“Spark时代”的开端。随着企业越来越意识到Spark项目的潜力,我们将逐渐看到Spark在任何大数据分析环境中巩固其核心技术地位,围绕它构建的生态系统将继续蓬勃发展。如果企业客户要认真考虑高级实时分析技术的可行性,将Spark引入自己的大数据集几乎成为一种必然。原标题:5reasonstoturntoSparkforbigdataanalytics核子可乐翻译
