代码托管地址:ApacheSpark是一个开源的数据分析集群计算框架,最初由加州大学伯克利分校的AMPLab开发,基于HDFS构建。Spark与Hadoop一样,用于构建大规模、低延迟的数据分析应用程序。Spark是用Scala语言实现的,使用Scala作为应用程序框架。Spark使用基于内存的分布式数据集来优化迭代工作负载和交互式查询。与Hadoop不同,Spark与Scala紧密集成,Scala像本地集合对象一样管理分布式数据集。Spark支持分布式数据集上的迭代任务,实际上可以在Hadoop文件系统(通过YARN、Mesos等)上与Hadoop一起运行。
