当前位置: 首页 > 网络应用技术

大型计算引擎火花编程

时间:2023-03-07 17:08:26 网络应用技术

  第三波信息

  存储设备能力继续增加

  CPU处理能力已显着提高

  网络带宽继续增加

  基因组,LHC加速器,地球和空间检测

  电子邮件,文档,文件,应用程序日志,交易记录

  文字,图像,视频

  查询日志/单击流,Twitter/ Blog/ SNS,Wiki

  低值密度,高商业价值

  以视频为例,在连续和不间断的监视过程中,它可能只有一两秒钟,但具有很高的商业价值

  Turing Award的获奖者,著名的数据库专家Jim Gray博士,自古以来观察并总结并总结了人类。在科学研究中,实验,理论,计算和数据有四个范式。

  大数据技术的不同级别和功能

  两种核心技术

  hadoop -mapreduce

  Hadoop -yarnyarn的目标是实现“一个集群和多个框架”。为什么?

  Hadoop和Spark的比较

  Hadoop和Spark的比较

  与Hadoop MapReduce相比,Spark主要具有以下优势:

  性能对比

  首先,可以根据内存计算框架实时计算它们,因此它们都具有很好的计算性能。测试后,Flink的计算性能稍好一些。

  Spark和Flink都在Hadoop纱线上运行。表演是flink> spark> hadoop(MR)。迭代越多,迭代次数就越明显。flink的主要原因比Spark和Hadoop更好。迭代自动优化的功能。

  流计算比较

  他们都支持流计算。Flink是一一处理的,Spark基于小批量的数据芯片收集(RDD)。因此,Spark不可避免地增加了流处理的延迟。Flink的流计算类似于Storm的性能,支持毫秒级,而SPARK只能支持第二级计算。

  SQL支持

  他们都支持SQL。SPARK对SQL的支持大于Flink支撑。此外,Spark支持SQL的优化,而Flink支持主要是API级别的优化。

  工厂主任写博客的最初意图非常简单。我希望每个人都会在学习,学习更多东西并为自己留下赞美的过程中少弯路吗?或者这对我来说是最大的支持。从并赞美工厂每天的动机。

  如果您不了解文章,可以回复我的评论区域。让我们一起讨论,一起学习并共同取得进步!

  微信(Z613500)或QQ(1016942589)之间的详细通信。