不喜欢Hadoop？可能你打开的方式有问题

时间：2023-03-14 08:04:07 科技观察

关于Hadoop所谓的消亡和跌落神坛的报道数不胜数。很多人事后说Hadoop一开始就没有意义。其他人说“Hadoop对于小型临时工作来说很慢”、“Hadoop很难”、“Hadoop已死，Spark是赢家”等等。那么事实真的如此吗？今天，围绕Hadoop缺陷的争论和最初被大肆宣传一样激烈。在所有这些喋喋不休的谈话中，您可能已经得出Hadoop已死的结论。我个人认为这个想法虽然可以理解，但却是错误的。TCP/IP您听说过TCP/IP吗？如果没有，请相信我，这是一项强大的技术。事实上，您热爱TCP/IP，只是您没有意识到而已。TCP/IP不仅驱动互联网，它驱动电子邮件，它甚至驱动网络。当你使用各种应用程序，使用各种流媒体，打车，上网等等，都得益于TCP/IP，你可能离不开它。尽管您喜欢TCP/IP，但您对配置它不感兴趣。您不必键入ifconfig之类的命令来查看您的WiFi适配器如何连接到网络。您甚至不关心它连接的网关以及它使用的DNS服务器。TC/IP在1990年代作为一种产品推向市场，结果不温不火。最终，TCP/IP被内置到操作系统中，如今它无处不在，TCP/IP是通用标准。Hadoop是基础设施其实Hadoop就是大数据世界里的TCP/IP。它是基础设施，它带来了巨大的好处。但是，当基础设施暴露时，好处就会大大减少。Hadoop被提升为网络浏览器，但它更像TCP/IP。当你明白这一点时，推广Hadoop本身并不是一个好主意。如果你直接使用Hadoop，那你就错了。如果你在命令行输入“hadoop”和一些参数，那你就是在倒退。您是想自己配置和运行所有内容，还是只想使用数据并让分析软件在后端处理Hadoop？大多数人会选择后者，但大数据行业往往会将客户引向前者。这就是业界对Hadoop的看法……这也是它对Spark和大量机器学习工具的看法。这是技术人员拉拢商业用户的例子，永无止境。开发工具不等同于业务工具业界并没有完全忽视这个问题，一些厂商已经在努力改善Hadoop的缺点。Hue、Jupyter、Zeppelin、Ambari等开源项目应运而生，旨在将Hadoop从业者从命令行中解放出来。但问题就在这里。我们需要面向业务用户的工具，而不是Hadoop从业者。Hue非常适合运行和跟踪Hadoop作业，以及用SQL或其他语言编写系统查询。与Spark相比，Jupyter和Zeppelin非常适合编写、运行代码，使用R和Python等语言进行数据科学，甚至数据可视化生成代码。问题是使用这些工具并不等同于离开命令行；他们只是让人们更有效地做这些事情。让人们完全脱离命令行是一回事，但让人们更容易做同样的事情并没有真正改变任何事情。BI工具厂商也在努力改善这种情况。但他们通过简化Hadoop并将其视为SQL数据库来做到这一点。在Hadoop中添加一个抽象层是好的，但在它们之间添加一个SQL层就不是了。想做大数据分析？选择一个使用Hadoop的工具并充分利用它。虽然您不需要直接使用Hadoop，但您的分析工具应该与其配合使用，而不是远距离使用。如果您还没有找到答案，这里有一个平衡的方法。做大数据分析，你不需要直接使用引擎——本文指的是Hadoop，但你仍然需要它的全部性能。为了实现这一点，您需要一个技术分析工具来利用技术而不否定或忽略它。在技??术工具和BI用户之间有一个重要的中间地带。找到它，您就可以上路了。Hadoop的未来Hadoop并没有死，这是毋庸置疑的。Hadoop是一项非常强大的关键技术。但它也是基础设施，不会成为大数据的典型代表。Hadoop（或Spark）应该嵌入到其他技术和产品中。通过这种方式，这些技术可以利用Hadoop（或Spark）的强大功能，而不会暴露其复杂性。Hadoop就像TCP/IP，问题在于人们如何使用它。如果你想做大数据分析，那就用一个利用了Hadoop能力的大数据分析软件。如果这样做，Hadoop将复活，不是靠魔法而是靠常识。

上一篇：为什么需要动效设计

下一篇：一篇讲解Elasticsearch倒排索引和分词的文章

不喜欢Hadoop？可能你打开的方式有问题相关文章