ApacheSpark的R语言前端：SparkR

时间：2023-03-14 22:27:23 科技观察

Spark是一个用于快速数据分析的开源集群计算系统，包括快速运行和快速写入操作。Spark是一个类似于Hadoop的开源云计算系统，但两者之间存在一些有用的差异，这使得Spark在某些工作负载上更胜一筹，换句话说，Spark启用了内存分布式数据集，它除了可以优化迭代工作负载之外能够提供交互式查询。Spark架构Spark是用Scala语言实现的，它使用Scala作为它的应用程序框架。与Hadoop不同，Spark和Scala可以紧密集成，Scala可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建Spark是为了支持分布式数据集上的迭代作业，但它实际上是对Hadoop的补充，可以在Hadoo文件系统上并行运行。此行为通过名为Mesos的第三方集群框架得到支持。Spark由加州大学伯克利分校的AMP实验室（算法、机器和人员实验室）开发，可用于构建大规模、低延迟的数据分析应用程序。运行SparkRlibrary(SparkR)sc<-sparkR.init(master="local")项目主页http://www.open-open.com/lib/view/home/1390350018742

上一篇：一行JavaScript代码就可以完成这些操作！收藏

下一篇：如何在Debian、Ubuntu中使用apt-cache命令

ApacheSpark的R语言前端：SparkR相关文章