为什么Spark项目在云环境中大放异彩？

时间：2023-03-15 01:03:48 科技观察

近几个月来，业界对ApacheSpark项目的兴趣和投资迎来了大幅增长，而这一切都得益于云客户规模的不断扩大。就在上个月，云和商业计算领域的几家知名巨头公开表示（并决定投资）对ApacheSpark数据分析项目的兴趣。是什么让这些老牌强者青睐这个年轻的技术方案？当然，这种兴奋不是没有原因的。事实上，这项有前途的技术已经得到广泛应用。但是，要让该项目真正成为云环境下的盈利工具，我们还面临着两大问题——一个是便捷性，另一个是规模化。最近几个月对Spark项目表示兴趣的Spark供应商的吸引力包括：?IBM。IBM除了在自家的BluemixPaaS中加入Spark的支持能力，IBM还为Spark贡献了SystemML机器学习算法构建技术。?微软。将Spark支持整合到它自己的AzureHDInsight（微软的Hadoop云托管版本）中。?亚马逊。其ElasticMapReduce服务将能够运行使用Scala、Python和Java开发的Spark应用程序。?华为。这家中国网络巨头最近宣布了一个名为Astro的项目，该项目将Spark、SparkSQL和HBase结合在一个产品中。Spark目前也被华为用于其基于Hadoop的FusionInsight产品，并由华为开发的新兴云平台作为服务提供。Spark的吸引力在于它能够在Hadoop中提供强大的内存数据处理组件，旨在处理实时和批处理事件。在Hadoop项目的发源地雅虎，Spark已经成为分析和运行流程的核心和基石。对于以上厂商，Spark项目可以为他们的云业务提供全面的技术支持——无论是否与Hadoop合作（虽然通常是与Hadoop合作）。随着市场价格竞争加剧甚至开始触底反弹，云提供商之间的竞争仍主要局限在原有的内部数据中心层面，往往无法真正发挥云系统的规模等独特优势。（事实上??，我们正处于越来越多的业务数据正在云端生成的阶段，而不是像过去那样简单地将数据迁移到云端。)点燃下一场燎原之火。Spark在这个过程中的作用也非常关键，因为未来主要的发展方向和项目的潜在影响取决于Spark将如何以云资源的形式部署。IBM正在默默地为Spark项目做贡献。而Spark的开发者Databricks也有自己的计划，希望能达到更彻底的效果。其Tungsten项目对Spark的内存利用和分配方法进行了重大更改，旨在提高性能水平。这不仅有利于吸引更多的开发者加入，也有助于Spark实现“即服务”的交付。具有讽刺意味的是，Spark在云环境中明显更受欢迎，它甚至直接威胁到Databricks自己的商业模式。AndyOliver对Daatabricks的Spark产品进行了审查，发现该公司的口号“NeverbetheTableauofdatascience”完全没有兑现其承诺。另外，虽然上面列出的主要竞争者与自家的Spark产品不一定有这样的交集关系，但这类产品的出现其实更直接地补充了Spark工作负载。Spark在很多其他方面还需要完善和成熟——包括文档、商业支持、中间件集成、为用户提供更多预构建的Spark应用等。除了最后一项，其他工作非常适合企业贡献者以及Spark项目的发起人来完成——当然，除非这些人贡献的目的纯粹是为了确保Spark能够在他们的云平台上良好运行，并为其客户提供服务。原标题：Spark为何在云端爆款

上一篇：你必须要掌握的Android冷启动优化

下一篇：Julia发布全功能调试器：4大新功能问世

为什么Spark项目在云环境中大放异彩？相关文章