Spark 2.0面纱半揭，相关细节引人遐想

时间：2023-03-14 16:14:39 科技观察

Spark2.0的面纱揭了一半，相关细节引人入胜。那么下一个内存引擎选项是什么？Spark背后的主要商业支持者Databricks给出了一点暗示。在上周的SparkEast峰会上，Databricks发布了一系列关于内存数据处理工具Spark未来的暗示。公司作为Spark项目背后的核心业务支持者，在该技术成果的演进过程中发挥着重要作用。Databricks的托管Spark平台DatabricksCloud目前可作为订阅服务使用。为了进一步简化在这种云环境中开始使用Spark的难度，Databricks宣布了一个免费层，即该平台的社区版本。虽然该版本仍处于内测阶段，但其普通版有望在今年年中与广大用户见面。Databricks明确将社区版本定位为向付费产品版本的过渡，并指出它将“帮助用户在完整的Databricks平台上将他们自己的原型设计无缝过渡到生产应用程序。”Databricks也决心始终紧跟Spark的发展。通过在Spark峰会主题演讲中发布的一系列演讲，DatabricksCTO和Spark创始人MateiZaharia谈到了即将到来的Spark2.0。它将包括以下三个核心改造：利用Tungsten项目的下一个发展阶段来解决Java内存处理的限制，从而加速Spark；将Spark改进为实时数据流系统；包括Dataset和DataFrame）统一到一个API中。不过，有一个细节在这次演讲中没有提到，但却受到了Spark支持者的广泛关注，那就是如何将Spark与ApacheArrow进一步集成——一个旨在提供列式数据的内存版本的新项目，从而实现快速访问结果。所有这些都是真正令人兴奋和有意义的改进。特别是以Tungsten项目为代表的解决方案，可以显着加快其他用Java语言编写的大数据项目的运行速度。目前，该公司声称拥有200名付费客户，并自信地表示将专注于推广Databricks平台，而不是将精力分散到其他项目上。但Databricks并不是唯一的Spark参与者。IBM专门将Spark作为其大数据发展战略的核心组成部分，旨在提供基于其Bluemix云的“Spark即服务”解决方案。在过去的一年里，Spark项目从Hadoop手中夺走了大数据领先引擎的桂冠，而Databricks在新的发展阶段也将面临更加严峻的项目演进竞争。原标题：DatabricksSpark2.0一瞥【翻译稿件，合作站点转载请注明原译者和出处.com】

上一篇：九个可以帮助您快速免费学习Web开发的网站

下一篇：Android12将重点关注隐私控制：让用户更容易控制应用程序隐私

Spark 2.0面纱半揭，相关细节引人遐想相关文章