Spark2.0的面纱揭了一半,相关细节引人入胜。那么下一个内存引擎选项是什么?Spark背后的主要商业支持者Databricks给出了一点暗示。在上周的SparkEast峰会上,Databricks发布了一系列关于内存数据处理工具Spark未来的暗示。公司作为Spark项目背后的核心业务支持者,在该技术成果的演进过程中发挥着重要作用。Databricks的托管Spark平台DatabricksCloud目前可作为订阅服务使用。为了进一步简化在这种云环境中开始使用Spark的难度,Databricks宣布了一个免费层,即该平台的社区版本。虽然该版本仍处于内测阶段,但其普通版有望在今年年中与广大用户见面。Databricks明确将社区版本定位为向付费产品版本的过渡,并指出它将“帮助用户在完整的Databricks平台上将他们自己的原型设计无缝过渡到生产应用程序。”Databricks也决心始终紧跟Spark的发展。通过在Spark峰会主题演讲中发布的一系列演讲,DatabricksCTO和Spark创始人MateiZaharia谈到了即将到来的Spark2.0。它将包括以下三个核心改造:利用Tungsten项目的下一个发展阶段来解决Java内存处理的限制,从而加速Spark;将Spark改进为实时数据流系统;包括Dataset和DataFrame)统一到一个API中。不过,有一个细节在这次演讲中没有提到,但却受到了Spark支持者的广泛关注,那就是如何将Spark与ApacheArrow进一步集成——一个旨在提供列式数据的内存版本的新项目,从而实现快速访问结果。所有这些都是真正令人兴奋和有意义的改进。特别是以Tungsten项目为代表的解决方案,可以显着加快其他用Java语言编写的大数据项目的运行速度。目前,该公司声称拥有200名付费客户,并自信地表示将专注于推广Databricks平台,而不是将精力分散到其他项目上。但Databricks并不是唯一的Spark参与者。IBM专门将Spark作为其大数据发展战略的核心组成部分,旨在提供基于其Bluemix云的“Spark即服务”解决方案。在过去的一年里,Spark项目从Hadoop手中夺走了大数据领先引擎的桂冠,而Databricks在新的发展阶段也将面临更加严峻的项目演进竞争。原标题:DatabricksSpark2.0一瞥【翻译稿件,合作站点转载请注明原译者和出处.com】
