当前位置: 首页 > 科技观察

Hadoop已死?Hadoop万岁!

时间:2023-03-13 14:07:11 科技观察

在各种博客文章和杂志投稿中,“Hadoop已死”的说法又重新流行起来,并开始变得越来越流行。近年来,Cloudera已经不再满足于Hadoop开源平台的身份,转而以企业数据公司的身份进行营销。今天,Cloudera已经进入企业数据云市场:混合云/多云服务、统一的安全系统和管理、多功能分析——这一切都归功于Hadoop的开源服务。话虽如此,在“Hadoop已死”的负面情绪中航行可能很困难。什么是Hadoop?首先,在最基本的层面上——Hadoop最初是Apache软件基金会的一个开源项目。后来Map/Reduce和HDFS也被纳入这个项目,很快就形成了广泛而丰富的开源生态。如今,Cloudera的“Hadoop发行版”(CDH/HDP/CDP)包含了30多个开源项目,涵盖存储、计算平台(如YARN,以及未来的Kubernetes)、批处理/实时计算框架(Spark、Flink、等)、编排、SQL、NoSQL、ML、安全/管理等。因此,如果只把Hadoop定义为MapReduce,那么MapReduce确实是没落了。但这并没有阻止Spark、Flink和其他产品的崛起——让客户满意。这就是平台的魅力和力量——它可以进化并接受新的范例。那么,如果Hadoop不是一个“项目”或“项目集”,那它是什么?“Hadoop”是一种哲学——一种运动,一种用于管理和分析数据的现代架构的发展。《HadoopPhilosophy》《HadoopPhilosophy》一直遵循以下原则:1.转向分解软件堆栈,构建每一层(存储、计算平台、批处理/实时/SQL计算框架等)Monolithic和不灵活的软件堆栈(例如,具有自定义存储格式的数据库、解析器、执行引擎等,以垂直集成的方式。特别是,通过建立开放的元数据、安全和管理平台来编排分类堆栈有助于实现这一目标。2.转向大型分布式系统的商用硬件,而不是专有/单一的硬件+软件堆栈。在经济学理论中,商品被定义为具有充分可替代性和广泛可获得性的商品或服务,这往往导致微薄的利润空间,使得品牌等价格以外的因素,变得不那么重要。请参阅下面的讨论,了解商品硬件如何在架构上很好地转换为公共云。3.转向利用开放数据标准和开源技术,而不是专有的、供应商控制的技术。它不仅仅是开放标准——标准是实现,而不仅仅是“规范”。4.转向灵活多变的技术生态(MRv1->YARN->K8s、MapReduce->Spark/Flink等),而不是一刀切的整体栈,让创新可以在每一层。在某种程度上,“Hadoop哲学”之于数据架构就像著名的Unix哲学之于软件开发。EricRaymond在他的《Unix编程艺术》一书中阐述了17条Unix规则,同样适用于这个领域:1.模块原则:使用简单的接口来组合简单的组件。?HDFS、YARN/K8s、Spark、Hive等可以相互组合、相互依赖。3、组合原则:设计时考虑拼接组合。?Impala、Hive、Spark等可用于端到端解决方案。4、分离原则:策略与机制分离,接口与引擎分离。?HDFS既是文件系统接口又是文件系统实现。这就是为什么Spark通过与Hadoop兼容的文件系统“API”与S3对话。6、吝啬原则:除非实在没有办法,否则不要编写庞大的程序。?避免“大”和“胖”层,而是使用依赖于其他层的模块化层,例如Phoenix和HBase。7.透明原则:设计应该是可见的,以便审查和调试。?开源!16、多样性原则:永远不要相信所谓“单向”的说法。?Hadoop生态系统提供了多种工具,因为它们适用于不同的场景,具有不同的优势(ETL可以通过Spark或Hive实现,SQL可以通过Hive/Tez或Impala实现,SQL可以通过LLAP或SparkSQL实现).17.扩展原则:面向未来进行设计,未来总是比预期来得更快。?2005-2006年,很难预测HBase、Hive、Impala、Spark、Flink、Kafka等产品的出现,但在过去的13+年里,它们已经成为优质产品的关键组成部分和堆栈,这已经是一个不错的结果了。什么是云?今天,公共云(以及私有云)显然将成为企业部署架构不可或缺的一部分。公有云本质上是企业硬件基础设施(服务器、网络、数据中心等)的商品化。因此,它完全符合Hadoop哲学的原则——专注于商用硬件。此外,整个Hadoop生态系统一直是为“变形”和吸收新影响而构建的——TomWhite在2006年编写了第一个S3-Hadoop连接器,亚马逊在2009年推出了EMR服务。相比之下,传统数据库供应商很难分解单独的、高度工程化的、融合的硬件/软件堆栈,并使它们在公共云中“本地”工作。不幸的是,整个行业并没有做好帮助市场(尤其是金融市场)了解Hadoop与公有云中传统技术的区别的工作。这是值得思考的,也是急需改进的。亚马逊的EMR、Azure的HDInsight和谷歌的Dataproc都是“Hadoop”如何在公共云中为客户群推动巨大价值和大规模业务的好例子。什么是Cloudera?Cloudera是一家数据公司。该公司能够将数据转化为清晰且可操作的见解,这主要是通过“Hadoop哲学”实现的。我们建立了这个市场-为我们的过去感到自豪,但没有盲目。我们驾驭技术浪潮(公共云、Kubernetes等),不仅让客户受益,而且与公司的使命保持一致。即使再过一百年,企业仍希望将数据转化为洞察力。这就是我们正在做并将继续做的事情。有些事情确实会改变——这需要引起注意。五年前,当我们还是IT技术人员时,我们就获得了通过。所有酷孩子都想和我们一起玩,分享他们能找到的每一个用例,并向他们的朋友炫耀我们。在某种程度上,当时流行的情绪是“已经知道答案是Hadoop-那么问题是什么?”。这会导致在产品生命周期的早期产生一些不合理、不切实际的期望。现在我们需要努力说服客户使用我们的产品,但我们给他们带来的价值和想法是毋庸置疑的。我们还需要说服客户使用CDP等技术。但他们今天确实与我们合作,他们的数千个BP数据和在他们的集体平台上运行的数百万个分析程序证明了这一点!从本质上讲,通过让用户和企业参与存储/管理/保护/控制/分析数据的用例,我们将继续蓬勃发展。随着“Hadoop已死”的说法重现和消退,我们会被误解,并且愿意被误解一段时间——因为我们重视结果。所有伟大的公司都会时不时被人误解,最后坚持下来的才是胜利者。Gartner分析师MervAdrian喜欢讲一个客户的故事,他说他最喜欢的“Hadoop应用程序”是在S3中使用Tensorflow和Spark。Merv问他为什么选择Hadoop,他回答说因为Hadoop团队创造了它。此外,使用的Spark来自Hadoop发行版。因此,Merv指出,“Hadoop的价值通常会被其他人看到。”CDP的基本目标是确保使用云服务使企业能够更轻松地从平台中获取价值,而无需处理技术复杂性。特别是,利用CDP提供的本地SaaS式服务体验进行数据仓库和机器学习,使业务用户可以轻松分析存储在云空间中的数据。此外,SDX使使用ABAC和细粒度策略来跨存储在对象存储和本地HDFS中的数据建立完全安全的数据湖变得简单,并且还提供源和跟踪。在这方面取得的进展令人兴奋——从许多企业客户的反馈中可以看出!那么,Hadoop死了吗?对Hadoop的旧观念已经过时——尘埃落定。Hadoop作为一种理念正在推动开源技术和开放数据标准的生态系统,使人们能够将数据转化为洞察力,这种理念是生机勃勃且经久不衰的。只要有数据,就会有Hadoop。Hadoop的旧哲学已经死了。Hadoop的新思想是常青树。