近几个月来,业界对ApacheSpark项目的兴趣和投资迎来了大幅增长,而这一切都得益于云客户规模的不断扩大。就在上个月,云和商业计算领域的几家知名巨头公开表示(并决定投资)对ApacheSpark数据分析项目的兴趣。是什么让这些老牌强者青睐这个年轻的技术方案?当然,这种兴奋不是没有原因的。事实上,这项有前途的技术已经得到广泛应用。但是,要让该项目真正成为云环境下的盈利工具,我们还面临着两大问题——一个是便捷性,另一个是规模化。最近几个月对Spark项目表示兴趣的Spark供应商的吸引力包括:?IBM。IBM除了在自家的BluemixPaaS中加入Spark的支持能力,IBM还为Spark贡献了SystemML机器学习算法构建技术。?微软。将Spark支持整合到它自己的AzureHDInsight(微软的Hadoop云托管版本)中。?亚马逊。其ElasticMapReduce服务将能够运行使用Scala、Python和Java开发的Spark应用程序。?华为。这家中国网络巨头最近宣布了一个名为Astro的项目,该项目将Spark、SparkSQL和HBase结合在一个产品中。Spark目前也被华为用于其基于Hadoop的FusionInsight产品,并由华为开发的新兴云平台作为服务提供。Spark的吸引力在于它能够在Hadoop中提供强大的内存数据处理组件,旨在处理实时和批处理事件。在Hadoop项目的发源地雅虎,Spark已经成为分析和运行流程的核心和基石。对于以上厂商,Spark项目可以为他们的云业务提供全面的技术支持——无论是否与Hadoop合作(虽然通常是与Hadoop合作)。随着市场价格竞争加剧甚至开始触底反弹,云提供商之间的竞争仍主要局限在原有的内部数据中心层面,往往无法真正发挥云系统的规模等独特优势。(事实上??,我们正处于越来越多的业务数据正在云端生成的阶段,而不是像过去那样简单地将数据迁移到云端。)点燃下一场燎原之火。Spark在这个过程中的作用也非常关键,因为未来主要的发展方向和项目的潜在影响取决于Spark将如何以云资源的形式部署。IBM正在默默地为Spark项目做贡献。而Spark的开发者Databricks也有自己的计划,希望能达到更彻底的效果。其Tungsten项目对Spark的内存利用和分配方法进行了重大更改,旨在提高性能水平。这不仅有利于吸引更多的开发者加入,也有助于Spark实现“即服务”的交付。具有讽刺意味的是,Spark在云环境中明显更受欢迎,它甚至直接威胁到Databricks自己的商业模式。AndyOliver对Daatabricks的Spark产品进行了审查,发现该公司的口号“NeverbetheTableauofdatascience”完全没有兑现其承诺。另外,虽然上面列出的主要竞争者与自家的Spark产品不一定有这样的交集关系,但这类产品的出现其实更直接地补充了Spark工作负载。Spark在很多其他方面还需要完善和成熟——包括文档、商业支持、中间件集成、为用户提供更多预构建的Spark应用等。除了最后一项,其他工作非常适合企业贡献者以及Spark项目的发起人来完成——当然,除非这些人贡献的目的纯粹是为了确保Spark能够在他们的云平台上良好运行,并为其客户提供服务。原标题:Spark为何在云端爆款
