当前位置: 首页 > Linux

Hadoop入门:Hadoop简介及集群搭建

时间:2023-04-07 01:28:02 Linux

Hadoop简介Hadoop是Apache下用java语言实现的开源软件框架,是开发和运行大规模数据处理的软件平台。允许使用简单的编程模型在大量计算机集群上分布式处理大数据集。大规模数据:通常大于1PB。Hadoop的核心组件是1.HDFS(分布式文件系统):解决海量数据存储2.YARN(作业调度和集群资源管理框架):解决资源任务调度3.MAPREDUCE(分布式计算编程框架):解决海量数据计算现在说的Hadoop,泛指Hadoop生态系统。就是下图。MAPREDUCE:分布式计算程序开发框架HIVE:基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作HBASE:基于HADOOP的分布式海量数据库ZOOKEEPER:分布式协同服务基础组件Mahout:基于mapreduce/spark/flink等。分布式计算框架机器学习算法库Oozie:工作流调度框架Sqoop:数据导入导出工具(例如mysql和HDFS之间使用)Flume:日志数据采集框架Impala:基于Hadoop的实时分析Hadoop特性优点1.**可扩展性**(Scalable):Hadoop在可用的计算机集群之间分发数据并完成计算任务,这些集群可以很容易地扩展到数千个节点。2.**低成本**(Economical):Hadoop通过由普通廉价机器组成的服务器集群来分发和处理数据,因此成本非常低。3.**高效率**(Efficient):通过并发数据,Hadoop可以并行地在节点间动态移动数据,使得速度非常快。4.**可靠性**(Rellable):可以自动维护数据的多份副本,任务失败后可以自动重新部署计算任务。所以Hadoop对数据一点一点存储和处理的能力是值得人们信赖的。集群搭建HADOOP集群具体包括两个集群:HDFS集群和YARN集群。HDFS集群负责海量数据的存储。集群中的主要角色有:NameNode、DataNode、SecondaryNameNode。Hadoop的角色主要包括:ResourceManager,NodeManagerHadoop的三种部署方式,Standalone模式(独立模式),Pseudo-Distributed模式(伪分布式模式),Cluster模式(集群模式),部署前两种在单机集群模式下主要用于生产环境部署。N台主机将被用来组成一个Hadoop集群。这种部署方式下,主节点和从节点会分别部署在不同的机器上hadoop1NameNodeDataNodeResourceManagerhadoop2DataNodeNodeManagerSecondaryNameNodehadoop3DataNodeNodeManager准备工作:同步Linux系统时间ntpdatecn.pool.ntp.org设置hostnamevi/etc/sysconfig/networkHOSTNAME=hadoop-1,其他系统格式相同。配置IP,主机名映射vi/etc/hosts192.168.1.1hadoop1/...2hadoop2/...3hadoop3。其他linux设备同样配置ssh免密码登录生成秘钥ssh-keygen,将秘钥发送给其他机器。ssh-copy-idhadoop2关闭防火墙服务iptables停止。设置开机关闭chkconfigiptablesoff并安装jdk。开始安装,将hadoop压缩包上传到linux/export/software/目录下。如果没有,新建一个目录,解压到/export/server/目录下,进入/export/server/hadoop-2../etc/hadoop目录。修改hadoop-env.sh文件。vihadoop环境。sh.因为hadoop需要在java环境下运行exportJAVA_HOME=#java环境变量path修改core-site.xml文件vicore-site.xml#<属性><名称>fs.defaultFS<值>hdfs://hadoop1:9000<属性>hadoop.tmp.dir#/export/data/hddata需要自己创建目录/export/data/hddata修改hdfs-site.xml文件dfs.replication2dfs.名称节点。secondary.http-addresshadoop1:50090修改mapred-site.xml文件vimapred-site.xml#mapreduce.framework.nameyarn修改yarn-site.xml文件viyarn-site.xml<配置><属性><名称>yarn.resourcemanager.hostname<值>hadoop1<属性><名称>yarn.nodemanager.aux-servicesmapreduce_shuffle修改slaves文件vislaves为一键启动,添加hadoop1hadoop2hadoop3。写成3行。设置hadoop环境变量vi/etc/profileexportHADOOP_HOME=#hadoop安装路径,进入bin上级目录exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin刷新文件源/etc/profile并格式化它在开始之前。执行hdfsnamenode–format一键启动start-all.sh。一键停止stop-all.shhadoop1启动后执行jps命令查看是否启动成功。这些进程显示成功。NameNode、ResourceManager、DataNode、SecondaryNameNode、NodeManagerhadoop2、hadoop3显示NodeManagerDataNode进程。启动成功后,打开浏览器http://(linux1的IP地址):50070、http://(linux1的IP地址):8088地址查看集群。完成的!!!