需要在云中运行Spark的三个原因云加可视化可能会有所帮助。开源项目ApacheSpark可能是当今从加州大学伯克利分校的AMP实验室涌现出来的最著名的项目。AMPLabs处于机器学习、云计算和众包三大趋势的交汇点。它结合了算法、机器和人的力量来全面解读大数据。开发Spark的初衷是为了扩展AMPLabs的另一个项目ApacheMesos的功能。出乎意料的是,它很快就流行起来。几位开发人员在2013年创办了一家初创公司:Databricks。Spark在托管云平台上提供,因此数据专业人员可以轻松充分利用Spark的功能。Spark作为Hadoop的MapReduce的替代品,用于处理大数据,具有很大的吸引力。它结合了速度、易于使用的编程模型和统一设计,使用户能够将交互式查询、流分析、机器学习和图形计算组合到一个系统中。ArsalanTavakoli将此功能置于云中,提供单一的出色用户体验,并且您拥有一个杀手级平台,供任何人进行数据分析和构建端到端数据管道。借助从头开始为大数据开发的可视化分析应用程序(如Zoomdata),您拥有超快速商业智能(BI)可视化分析的杀手级价值主张。我采访了Databricks客户参与副总裁ArsalanTavakoli,讨论Spark和分析如何成为一个强大的组合。为什么Spark在云上?下载Spark后可以在本地运行,为什么还需要从Databricks租用Spark?Tavakoli:显然,Spark是作为开源产品提供的。任何人都可以从许多供应商处下载并使用它。但是当我们查看大数据项目失败的客户时,我们发现项目失败的原因通常有以下三种。首先,基础设施管理困难。如果您在本地运行,则必须考虑6到9个月的过渡期,以使您的大数据基础架构投入生产,有时甚至更长。即使您在AmazonWebServices(AWS)上运行Spark,您也必须编写EC2脚本并让DevOps人员参与。不是很好。请记住,基础设施很难。许多公司转向Spark,主要是因为其快速的创新周期。他们希望从一项由数百名贡献代码的人不断完善的技术中获益。这意味着,它也是一项快速发展的技术。您的团队需要多长时间才能启动并运行最新版本?其次,一旦您启动并运行了Spark集群,您将如何处理它?数据科学家经常使用他们喜欢的语言,例如R和Python。现在,他们必须弄清楚如何导入数据并尽快运行作业。这些用户可能难以使用处理独立Spark所需的工具链。您如何运行分析并与同事协作?这并不容易。第三,在彻底测试查询和模型之后,您想投入生产——这个过程是什么样的?在大多数公司中,这意味着将您的模型移交给工程团队,工程团队返回去,在所有新的基础架构上重新实现您认为需要的功能。像Databricks这样的云平台提供了一个集成的、托管的解决方案,为企业采用Spark消除了这三个障碍,并确保大数据项目的成功。我们为您提供一个完全托管和调整的Spark集群,由开发Spark的专家组提供支持。我们的平台为您提供了一个交互式工作区,供您探索、可视化、协作和发布。当您准备好投入生产时,只需单击一下即可启动任务。我们将自动构建基础设施。此外,我们还提供了一组丰富的API,用于以编程方式访问平台,这也使用户能够无缝集成第三方应用程序。#p#请告诉我们为什么客户希望在云中实现商业智能可视化。这个交付平台最适合BI可视化有什么具体原因吗?Tavakoli:人们希望使用数据来深入了解他们的业务,而数据工程师和数据科学家致力于提供这种洞察力。但除非你是像Pinterest、Netflix或Facebook这样的科技公司,否则他们(数据工程师和数据科学家)只是任何商业组织的一小部分。业务分析师和最终用户的用户群要大得多。比如市场部有人想对数据做一个粗略的交叉分析,却苦于缺乏相应的技术能力。他们只想要仪表板或类似的东西放在一个非常受限的决策空间中。聪明的公司知道他们应该帮助员工自我管理。这就是商业智能可视化可以发挥作用的地方。您可能需要特定领域的应用程序。那么,这就是贵公司与Zoomdata建立合作伙伴关系的原因?DatabricksCloud用户可以从这种合作伙伴关系中获得哪些其他方式无法获得的好处?Tavakoli:我们的客户用例和Zoomdata之间有很多重叠。其中许多企业都是典型的早期采用者,并且严重依赖数据工程师和数据科学家。所有这些企业组织也都有一个主要的商业智能仓库组件。但这些公司可能会问自己的下一个问题是:我怎样才能让更多用户更容易做到这一点?我拥有可以使用Spark处理的所有这些数据,我怎样才能让那些不是开发人员的用户可以使用它呢?为此,商业智能可视化应用程序是理想的选择,事实证明Zoomdata非常适合我们的云。就此联合Databricks/Zoomdata解决方案而言,您看到了哪些常见用例?Tavakoli:一个常见的用例是广告技术(AdTech)垂直领域。广告技术公司通常有一个流程,在这个流程中,他们从众多来源聚合数据,构建内部数据库,然后通过漫长而深入的提取、转换和加载(ETL)管道将数据传递为经过处理的形式。然后每个客户提供来自CRM和营销自动化系统的数据,这些数据需要与该内部数据库结合以回答有关活动有效性的问题。这个过程由彻底测试过深度理论的数据工程师和数据科学家处理。另一方面,数据分析师和产品经理想问更笼统的问题,比如产品中的哪个功能最有效,或者他们想知道移动广告的效果如何。这组用户习惯于使用像Zoomdata这样的商业智能用户界面。另一个用例是物联网。像AutomaticLabs这样的公司会从汽车中的所有设备中获取所有数据。数据科学家分析与车辆、成本和驾驶模式相关的基本趋势的更深层次问题。客户经理等非专家可能只想查看不同的数据以将其与保险费率相关联。这些人不想处理设置Spark集群和编写Python或SQL代码的问题。贵公司会考虑通过托管云平台使用Spark吗?为什么或者为什么不?欢迎留言交流!原文链接:需要在云端运行Spark的三个原因
