大型计算引擎火花编程

时间：2023-03-07 17:08:26 网络应用技术

　　第三波信息

　　存储设备能力继续增加

　　CPU处理能力已显着提高

　　网络带宽继续增加

　　基因组，LHC加速器，地球和空间检测

　　电子邮件，文档，文件，应用程序日志，交易记录

　　文字，图像，视频

　　查询日志/单击流，Twitter/ Blog/ SNS，Wiki

　　低值密度，高商业价值

　　以视频为例，在连续和不间断的监视过程中，它可能只有一两秒钟，但具有很高的商业价值

　　Turing Award的获奖者，著名的数据库专家Jim Gray博士，自古以来观察并总结并总结了人类。在科学研究中，实验，理论，计算和数据有四个范式。

　　大数据技术的不同级别和功能

　　两种核心技术

　　hadoop -mapreduce

　　Hadoop -yarnyarn的目标是实现“一个集群和多个框架”。为什么？

　　Hadoop和Spark的比较

　　与Hadoop MapReduce相比，Spark主要具有以下优势：

　　性能对比

　　首先，可以根据内存计算框架实时计算它们，因此它们都具有很好的计算性能。测试后，Flink的计算性能稍好一些。

　　Spark和Flink都在Hadoop纱线上运行。表演是flink> spark> hadoop（MR）。迭代越多，迭代次数就越明显。flink的主要原因比Spark和Hadoop更好。迭代自动优化的功能。

　　流计算比较

　　他们都支持流计算。Flink是一一处理的，Spark基于小批量的数据芯片收集（RDD）。因此，Spark不可避免地增加了流处理的延迟。Flink的流计算类似于Storm的性能，支持毫秒级，而SPARK只能支持第二级计算。

　　SQL支持

　　他们都支持SQL。SPARK对SQL的支持大于Flink支撑。此外，Spark支持SQL的优化，而Flink支持主要是API级别的优化。

　　工厂主任写博客的最初意图非常简单。我希望每个人都会在学习，学习更多东西并为自己留下赞美的过程中少弯路吗？或者这对我来说是最大的支持。从并赞美工厂每天的动机。

　　如果您不了解文章，可以回复我的评论区域。让我们一起讨论，一起学习并共同取得进步！

　　微信（Z613500）或QQ（1016942589）之间的详细通信。

大型计算引擎火花编程相关文章