关于Hadoop所谓的消亡和跌落神坛的报道数不胜数。很多人事后说Hadoop一开始就没有意义。其他人说“Hadoop对于小型临时工作来说很慢”、“Hadoop很难”、“Hadoop已死,Spark是赢家”等等。那么事实真的如此吗?今天,围绕Hadoop缺陷的争论和最初被大肆宣传一样激烈。在所有这些喋喋不休的谈话中,您可能已经得出Hadoop已死的结论。我个人认为这个想法虽然可以理解,但却是错误的。TCP/IP您听说过TCP/IP吗?如果没有,请相信我,这是一项强大的技术。事实上,您热爱TCP/IP,只是您没有意识到而已。TCP/IP不仅驱动互联网,它驱动电子邮件,它甚至驱动网络。当你使用各种应用程序,使用各种流媒体,打车,上网等等,都得益于TCP/IP,你可能离不开它。尽管您喜欢TCP/IP,但您对配置它不感兴趣。您不必键入ifconfig之类的命令来查看您的WiFi适配器如何连接到网络。您甚至不关心它连接的网关以及它使用的DNS服务器。TC/IP在1990年代作为一种产品推向市场,结果不温不火。最终,TCP/IP被内置到操作系统中,如今它无处不在,TCP/IP是通用标准。Hadoop是基础设施其实Hadoop就是大数据世界里的TCP/IP。它是基础设施,它带来了巨大的好处。但是,当基础设施暴露时,好处就会大大减少。Hadoop被提升为网络浏览器,但它更像TCP/IP。当你明白这一点时,推广Hadoop本身并不是一个好主意。如果你直接使用Hadoop,那你就错了。如果你在命令行输入“hadoop”和一些参数,那你就是在倒退。您是想自己配置和运行所有内容,还是只想使用数据并让分析软件在后端处理Hadoop?大多数人会选择后者,但大数据行业往往会将客户引向前者。这就是业界对Hadoop的看法……这也是它对Spark和大量机器学习工具的看法。这是技术人员拉拢商业用户的例子,永无止境。开发工具不等同于业务工具业界并没有完全忽视这个问题,一些厂商已经在努力改善Hadoop的缺点。Hue、Jupyter、Zeppelin、Ambari等开源项目应运而生,旨在将Hadoop从业者从命令行中解放出来。但问题就在这里。我们需要面向业务用户的工具,而不是Hadoop从业者。Hue非常适合运行和跟踪Hadoop作业,以及用SQL或其他语言编写系统查询。与Spark相比,Jupyter和Zeppelin非常适合编写、运行代码,使用R和Python等语言进行数据科学,甚至数据可视化生成代码。问题是使用这些工具并不等同于离开命令行;他们只是让人们更有效地做这些事情。让人们完全脱离命令行是一回事,但让人们更容易做同样的事情并没有真正改变任何事情。BI工具厂商也在努力改善这种情况。但他们通过简化Hadoop并将其视为SQL数据库来做到这一点。在Hadoop中添加一个抽象层是好的,但在它们之间添加一个SQL层就不是了。想做大数据分析?选择一个使用Hadoop的工具并充分利用它。虽然您不需要直接使用Hadoop,但您的分析工具应该与其配合使用,而不是远距离使用。如果您还没有找到答案,这里有一个平衡的方法。做大数据分析,你不需要直接使用引擎——本文指的是Hadoop,但你仍然需要它的全部性能。为了实现这一点,您需要一个技术分析工具来利用技术而不否定或忽略它。在技??术工具和BI用户之间有一个重要的中间地带。找到它,您就可以上路了。Hadoop的未来Hadoop并没有死,这是毋庸置疑的。Hadoop是一项非常强大的关键技术。但它也是基础设施,不会成为大数据的典型代表。Hadoop(或Spark)应该嵌入到其他技术和产品中。通过这种方式,这些技术可以利用Hadoop(或Spark)的强大功能,而不会暴露其复杂性。Hadoop就像TCP/IP,问题在于人们如何使用它。如果你想做大数据分析,那就用一个利用了Hadoop能力的大数据分析软件。如果这样做,Hadoop将复活,不是靠魔法而是靠常识。
