当前位置：首页 > Linux

Hadoop入门：Hadoop简介及集群搭建

时间：2023-04-07 01:28:02 Linux

Hadoop简介Hadoop是Apache下用java语言实现的开源软件框架，是开发和运行大规模数据处理的软件平台。允许使用简单的编程模型在大量计算机集群上分布式处理大数据集。大规模数据：通常大于1PB。Hadoop的核心组件是1.HDFS（分布式文件系统）：解决海量数据存储2.YARN（作业调度和集群资源管理框架）：解决资源任务调度3.MAPREDUCE（分布式计算编程框架）：解决海量数据计算现在说的Hadoop，泛指Hadoop生态系统。就是下图。MAPREDUCE：分布式计算程序开发框架HIVE：基于HADOOP的分布式数据仓库，提供基于SQL的查询数据操作HBASE：基于HADOOP的分布式海量数据库ZOOKEEPER：分布式协同服务基础组件Mahout：基于mapreduce/spark/flink等。分布式计算框架机器学习算法库Oozie：工作流调度框架Sqoop：数据导入导出工具（例如mysql和HDFS之间使用）Flume：日志数据采集框架Impala：基于Hadoop的实时分析Hadoop特性优点1.**可扩展性**（Scalable）：Hadoop在可用的计算机集群之间分发数据并完成计算任务，这些集群可以很容易地扩展到数千个节点。2.**低成本**（Economical）：Hadoop通过由普通廉价机器组成的服务器集群来分发和处理数据，因此成本非常低。3.**高效率**（Efficient）：通过并发数据，Hadoop可以并行地在节点间动态移动数据，使得速度非常快。4.**可靠性**（Rellable）：可以自动维护数据的多份副本，任务失败后可以自动重新部署计算任务。所以Hadoop对数据一点一点存储和处理的能力是值得人们信赖的。集群搭建HADOOP集群具体包括两个集群：HDFS集群和YARN集群。HDFS集群负责海量数据的存储。集群中的主要角色有：NameNode、DataNode、SecondaryNameNode。Hadoop的角色主要包括：ResourceManager,NodeManagerHadoop的三种部署方式，Standalone模式（独立模式），Pseudo-Distributed模式（伪分布式模式），Cluster模式（集群模式），部署前两种在单机集群模式下主要用于生产环境部署。N台主机将被用来组成一个Hadoop集群。这种部署方式下，主节点和从节点会分别部署在不同的机器上hadoop1NameNodeDataNodeResourceManagerhadoop2DataNodeNodeManagerSecondaryNameNodehadoop3DataNodeNodeManager准备工作：同步Linux系统时间ntpdatecn.pool.ntp.org设置hostnamevi/etc/sysconfig/networkHOSTNAME=hadoop-1，其他系统格式相同。配置IP，主机名映射vi/etc/hosts192.168.1.1hadoop1/...2hadoop2/...3hadoop3。其他linux设备同样配置ssh免密码登录生成秘钥ssh-keygen，将秘钥发送给其他机器。ssh-copy-idhadoop2关闭防火墙服务iptables停止。设置开机关闭chkconfigiptablesoff并安装jdk。开始安装，将hadoop压缩包上传到linux/export/software/目录下。如果没有，新建一个目录，解压到/export/server/目录下，进入/export/server/hadoop-2../etc/hadoop目录。修改hadoop-env.sh文件。vihadoop环境。sh.因为hadoop需要在java环境下运行exportJAVA_HOME=#java环境变量path修改core-site.xml文件vicore-site.xml#<属性><名称>fs.defaultFS<值>hdfs://hadoop1:9000<属性>hadoop.tmp.dir#/export/data/hddata需要自己创建目录/export/data/hddata修改hdfs-site.xml文件dfs.replication2dfs.名称节点。secondary.http-addresshadoop1:50090修改mapred-site.xml文件vimapred-site.xml#mapreduce.framework.nameyarn修改yarn-site.xml文件viyarn-site.xml<配置><属性><名称>yarn.resourcemanager.hostname<值>hadoop1<属性><名称>yarn.nodemanager.aux-servicesmapreduce_shuffle修改slaves文件vislaves为一键启动，添加hadoop1hadoop2hadoop3。写成3行。设置hadoop环境变量vi/etc/profileexportHADOOP_HOME=#hadoop安装路径，进入bin上级目录exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin刷新文件源/etc/profile并格式化它在开始之前。执行hdfsnamenode–format一键启动start-all.sh。一键停止stop-all.shhadoop1启动后执行jps命令查看是否启动成功。这些进程显示成功。NameNode、ResourceManager、DataNode、SecondaryNameNode、NodeManagerhadoop2、hadoop3显示NodeManagerDataNode进程。启动成功后，打开浏览器http://(linux1的IP地址):50070、http://(linux1的IP地址):8088地址查看集群。完成的！！！

上一篇：一天学一个Linux命令（70）：dig

下一篇：Linux环境下安装Nginx_0

Hadoop入门：Hadoop简介及集群搭建相关文章