第三波信息
存储设备能力继续增加
CPU处理能力已显着提高
网络带宽继续增加
基因组,LHC加速器,地球和空间检测
电子邮件,文档,文件,应用程序日志,交易记录
文字,图像,视频
查询日志/单击流,Twitter/ Blog/ SNS,Wiki
低值密度,高商业价值
以视频为例,在连续和不间断的监视过程中,它可能只有一两秒钟,但具有很高的商业价值
Turing Award的获奖者,著名的数据库专家Jim Gray博士,自古以来观察并总结并总结了人类。在科学研究中,实验,理论,计算和数据有四个范式。
大数据技术的不同级别和功能
两种核心技术
hadoop -mapreduce
Hadoop -yarnyarn的目标是实现“一个集群和多个框架”。为什么?
Hadoop和Spark的比较
Hadoop和Spark的比较
与Hadoop MapReduce相比,Spark主要具有以下优势:
性能对比
首先,可以根据内存计算框架实时计算它们,因此它们都具有很好的计算性能。测试后,Flink的计算性能稍好一些。
Spark和Flink都在Hadoop纱线上运行。表演是flink> spark> hadoop(MR)。迭代越多,迭代次数就越明显。flink的主要原因比Spark和Hadoop更好。迭代自动优化的功能。
流计算比较
他们都支持流计算。Flink是一一处理的,Spark基于小批量的数据芯片收集(RDD)。因此,Spark不可避免地增加了流处理的延迟。Flink的流计算类似于Storm的性能,支持毫秒级,而SPARK只能支持第二级计算。
SQL支持
他们都支持SQL。SPARK对SQL的支持大于Flink支撑。此外,Spark支持SQL的优化,而Flink支持主要是API级别的优化。
工厂主任写博客的最初意图非常简单。我希望每个人都会在学习,学习更多东西并为自己留下赞美的过程中少弯路吗?或者这对我来说是最大的支持。从并赞美工厂每天的动机。
如果您不了解文章,可以回复我的评论区域。让我们一起讨论,一起学习并共同取得进步!
微信(Z613500)或QQ(1016942589)之间的详细通信。