当前位置: 首页 > 科技观察

Spark1.2发布,开源集群计算系统

时间:2023-03-13 11:56:19 科技观察

Spark1.2发布,该版本包括172位贡献者和1000多个提交。此版本包括Spark核心操作和性能改进;添加新的网络传输子系统,重大改进;SparkSQL引入了外部数据源支持,支持Hive13;动态分区;固定精度十进制类型;MLlib添加了一个新的面向流水线的包(spark.ml),用于组合多种算法;SparkStreaming增加了一个PythonAPI来提前写入容错日志;GraphX正式离开Alpha版本,引入了稳定的API。在发行说明中阅读更多信息,现在可以下载了。Spark是一个类似于Hadoop的开源集群计算环境,但两者之间存在一些有用的差异,这使得Spark在某些工作负载上更胜一筹,换句话说,Spark启用了内存分布式数据集,它除了可以优化迭代工作负载之外能够提供交互式查询。Spark是用Scala语言实现的,使用Scala作为它的应用框架。与Hadoop不同,Spark和Scala紧密集成,Scala可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建Spark是为了支持分布式数据集上的迭代作业,但它实际上是对Hadoop的补充,可以在Hadoo文件系统上并行运行。此行为通过名为Mesos的第三方集群框架得到支持。Spark由加州大学伯克利分校的AMP实验室(算法、机器和人员实验室)开发,可用于构建大规模、低延迟的数据分析应用程序。本文来自:http://www.oschina.net/news/58096/spark-1-2