Spark是一个用于快速数据分析的开源集群计算系统,包括快速运行和快速写入操作。Spark是一个类似于Hadoop的开源云计算系统,但两者之间存在一些有用的差异,这使得Spark在某些工作负载上更胜一筹,换句话说,Spark启用了内存分布式数据集,它除了可以优化迭代工作负载之外能够提供交互式查询。Spark架构Spark是用Scala语言实现的,它使用Scala作为它的应用程序框架。与Hadoop不同,Spark和Scala可以紧密集成,Scala可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建Spark是为了支持分布式数据集上的迭代作业,但它实际上是对Hadoop的补充,可以在Hadoo文件系统上并行运行。此行为通过名为Mesos的第三方集群框架得到支持。Spark由加州大学伯克利分校的AMP实验室(算法、机器和人员实验室)开发,可用于构建大规模、低延迟的数据分析应用程序。运行SparkRlibrary(SparkR)sc<-sparkR.init(master="local")项目主页http://www.open-open.com/lib/view/home/1390350018742
