当前位置: 首页 > 科技观察

关于Hadoop你需要知道的事情

时间:2023-03-14 21:58:30 科技观察

除非你在过去的几年里一直与世隔绝,远离计算机世界,否则你不可能没有听说过Hadoop。全称ApacheHadoop是一个开源框架,用于在通用低成本硬件上进行处理存储和大规模并行计算。自2011年出现以来,他已经成为大数据领域最著名的平台。它是如何工作的?Hadoop起源于谷歌文件系统,是一个用Java开发的跨平台应用程序。核心组件是:HadoopCommon,它有其他模块依赖的库和基础工具;Hadoop分布式文件系统(HDFS),负责存储;HadoopYARN,用于管理计算资源;HadoopMapReduce,用于处理。Hadoop将文件分解成小块并将它们分发到集群中的节点。然后,它使用打包的代码将数据分发到节点以并行处理数据。这意味着可以比传统架构更快地处理数据。典型的Hadoop集群将具有主节点和从节点或工作节点。主节点有任务跟踪器、任务调度器、名称节点和数据节点。从节点通常充当数据节点和任务调度器,但在特殊场景下,程序可能只有数据节点,然后在其他从节点上进行处理计算。在大型Hadoop集群中,通常会使用一个专门的名称节点来管理HDFS节点的文件系统索引信息。这可以防止数据丢失和文件系统损坏。Hadoop文件系统Hadoop分布式文件系统是Hadoop扩展的核心。HDFS在处理大数据时的优势在于它可以跨多台机器存储gb或tb大小的文件。因为数据的副本存在于多台机器上而不是单机上使用额外的RAID来保证。然而,RAID仍可用于提高性能。通过允许主NameNode服务器在发生故障时自动故障转移到备份来提供进一步的保护。HDFS被设计为直接挂载在Linux系统的用户空间(FUSE)或虚拟文件系统中。文件访问权限通过JavaAPI处理。HDFS旨在跨硬件平台和操作系统进行移植。Hadoop还可以与其他文件系统一起工作,包括FTP、AmazonS3和MicrosoftAzure,但是,它需要一个特定的文件系统桥接来确保没有性能损失。Hadoop及其云与传统的数据中心相比,Hadoop往往部署在云端。这样做的好处是,公司可以轻松地更快地部署Hadoop,并且安装成本更低。大多数云提供商提供某种形式的Hadoop部署解决方案。微软提供了AzureHDInsight,它允许用户使用他们需要的节点数量,并对他们使用的计算能力和存储进行收费。HDInsight基于Hortonworks,可以方便地在内部系统和云端之间,或者在开发和测试移动数据之间进行备份。AmazonElasticComputeCloud(EC2)和AmazonSimpleStorageService(S3)也支持Hadoop,加上Amazon提供了ElasticMapReduce产品,因此可以自动化Hadoop集群的配置、作业的运行和终止以及EC2和S3的处理存储之间的数据传输。Google提供了一个名为CloudDataproc的托管Spark和Hadoop服务,它使用一系列shell脚本来创建和管理Spark和Hadoop集群。它支持第三方Hadoop发行版,如Cloudera、Hortonworks和MapR。GoogleCloudStorage也可以与Hadoop一起使用。Hadoop最近,Hadoop有了一些初步的进展。在2015年的Gartner研究中,只有18%的人表示他们会在未来两年内使用它。不想采用这项技术的原因包括与预期收益相比成本高,以及缺乏必要的技能。仍然有一些知名度很高的用户。雅虎的搜索引擎由Hadoop提供支持,该公司已通过开源社区向公众提供其使用版本的源代码。Facebook也使用Hadoop,2012年,该公司宣布其集群拥有100PB的数据,并且每天增长约1PB。尽管最初采用缓慢,但Hadoop正在增长。AlliedMarketResearch在2016年初进行的一项调查估计,到2021年,Hadoop市场的收入将超过840亿美元。由于Hadoop的工作方式,我们看到了过去批处理信息时代的倒退。虽然对于从大量历史数据中提取见解很有用,但它对于实时应用程序或连续传入数据流的效率较低。特性Hadoop一直与大数据息息相关。随着IoT设备的扩展和收集的数据量的增加,Hadoop的处理能力要求也会增加。它快速处理大量数据的能力意味着Hadoop系统在制定日常业务决策方面发挥着越来越重要的作用。各种规模的组织都热衷于使用大数据。Hadoop的开源特性及其在商品硬件上运行的能力意味着它的处理能力不仅可供大公司使用,还可以帮助公众使用大数据。对于所有这些操作,一家成功的公司需要能够利用Hadoop的优势。这意味着需要解决技能差距,并且可能仍然需要具有Java、Linux、文件系统和数据库背景的员工,他们可以快速掌握Hadoop技能。它还意味着越来越多地使用云以不太复杂的方式提供Hadoop的优势。