使用两台Centos7系统搭建Hadoop-3.1.4全分布式集群

时间：2023-03-14 19:49:26 科技观察

大数据常用技术词汇未来的竞争就是数据的竞争。大数据本质上是Hadoop的生态群。下面是常用的技术词汇ETL：代表提取、转换和加载。Hadoop：分布式系统基础设施HDFS：分布式文件系统HBase：大数据NoSQL数据库Hive：数据仓库工具DAG：第二代计算引擎Spark：第三代数据处理引擎Flink：第四代数据处理引擎MapReduce：原始并行计算框架Sqoop：nosql数据库与传统数据库之间的数据传输工具Hive：数据仓库工具Storm：分布式实时计算系统Flume：分布式海量日志收集系统。Kafka：分布式发布订阅消息系统ElasticSearch：分布式搜索引擎Kibana：ElasticSearch大数据图形化展示工具Logstash：Elasticsearch传送带Neo4j：Nosql图数据库Oozie：工作流调度系统-YARN：作业调度和集群资源管理框架Hadoopclusterbigdata是一个基于集群的分布式系统。所谓集群，是指由一组独立的计算机系统组成的多处理器系统，通过网络实现进程间通信，让几台计算机共同工作（服务），可以并行也可以备份。Distributed：分布式的主要工作是分解任务，拆解功能，多人一起做不同的事情Cluster：Cluster主要是把同一个业务部署在多台服务器上，多人一起做同样的事情Hadoop简介Hadoop是一个开源的在Apache下用Java语言实现的软件框架。它是一个用于存储和计算大规模数据的软件平台。Hadoop由ApacheLucene创始人DougCutting创建，起源于Nutch项目。2003年，Google发表了一篇GFS论文，为大规模数据存储提供了可行的解决方案。2004年，谷歌发表了一篇关于MapReduce系统的论文，为大规模数据计算提供了可行的解决方案。基于Google的论文，Nutch的开发者完成了HDFS和MAPREDUCE的相应开源实现，并从Nutch中分离出来成为一个独立的项目Hadoop。到2008年1月，Hadoop成为Apache的顶级项目，迎来了快速发展期。如今，国内外互联网巨头基本上都在使用Hadoop框架作为大数据解决方案，越来越多的公司将Hadoop技术作为进入大数据领域的必备技术。目前，Hadoop发行版分为开源社区版和商业版。开源社区版：指由Apache软件基金会维护的版本。是官方维护的版本系统，版本丰富，兼容性差。Commercialversion：指第三方商业公司基于Hadoop社区版发布的版本，经过一定的修改、集成和各种服务组件的兼容性测试。比较出名的有cloudera的CDH等。开源社区版：一般使用2.x版本系列，3.x版本系列：这个版本是最新版本，但还不稳定。废话不多说，开始今天的话题：使用三台Centos7系统搭建Hadoop2.X全分布式集群。去年用CentOS7搭建了hadoop3.X分布式集群。事情，这次我用两台Centos7系统搭建了一个全分布式的Hadoop集群。Centos虽然已经更新到8版本，但是很多大数据的研究都是基于Centos7系统的。这里不搭建伪分布式版本，搭建的版本为Hadoop-3.1.4，目前稳定在Haddop3.X。去年对应文章教程：https://blog.csdn.net/weixin_44510615/article/details/104625802https://blog.csdn.net/weixin_44510615/article/details/106540??129Centos7集群搭建前准备下载地址：http：//mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso。共4.8g。在搭建集群之前，需要在VMwearWorkstation上搭建一个Centos7系统。关于搭建过程，因为比较简单，这里就不再赘述了。通过物理机连接虚拟机时，需要两块虚拟网卡VMnet1和VMnet8。如果你安装的Vmware没有VMnet1和VMnet8，根据我之前踩过的坑，网上说安装cclear软件包删除注册表，就是不断的删除和下载Vmware，并不能解决问题.最后采用系统刷机的方法解决。所以，搭建虚拟机的前提是本地宿主机必须有一个虚拟的本地环境，否则你做什么都没用。这里插入图片描述，可以在本地ping通虚拟机的IP，实现本地与虚拟机的信息连接。这样就可以通过xshell远程连接centos7了。第一次使用Centos7时，需要给创建的用户提供管理员权限，所以需要使用root账户进行相关修改，防止node01不在sudoers文件中。此事将被举报。的错误。使用：wq！保存退出，如果远程连接失败，应该没有开发端口和IP地址。需要设置sudovim/etc/ssh/sshd_configtosetstaticip设置静态ip，重启网卡通过ifconfig配置阿里云yum源。一开始下载速度很慢，需要配置阿里云yum源。.#配置阿里云yum源yuminstall-ywgetcd/etc/yum.repos.d/mvCentOS-Base.repoCentOS-Base.repo.bakwgethttp://mirrors.aliyun.com/repo/Centos-7.repomvCentos-7.repoCentOS-Base.repo#配置epel源wgethttps://mirrors.aliyun.com/repo/epel-7.repo#清除缓存并更新yumcleanallyummakecacheyumupdate安装JDK由于hadoop框架的启动依赖java环境，所以需要准备jdk环境。目前，OpenJDK和OracleJava是两个主要的Java实现。卸载Linux系统原有的jdkOpenJDK，然后安装OracleJava。具体博客：https://blog.csdn.net/weixin_44510615/article/details/104425843克隆一个虚拟机，分别设置static为192.168.147.129，将三个Centos7主机名分别设置为node01和node02，以区分centos7机器。之前用node01创建用户名，发现弄错了，于是将两台主机的用户名都设置为hadoop。关于Centos7修改用户名：[root@node01~]#usermod-lhadoop-d/home/hadoop-mnode01.此后我们有两台centos电脑，在hadoop集群中不使用root账号。xshell可以连接成功。配置ssh免密码登录[root@node01~]#vim/etc/sysconfig/network#########HOSTNAME=node01[root@node01~]#vim/etc/hosts#########192.168.147.128node01192.168.147.129node02[root@node01~]#systemctlstopfirewalld[root@node01~]#systemctldisablefirewalld.service[root@node02~]#vim/etc/sysconfig/network#########HOSTNAME=node02[root@node02~]#vim/etc/hosts#########192.168.147.128node01192.168.147.129node02[root@node02~]#systemctlstopfirewalld[root@node02~]#systemctldisablefirewalld.服务实现hadoop账号在node01和node02之间自由切换，详见我的博客：https://blog.csdn.net/weixin_44510615/article/details/104528001?下载hadoop下载链接：https://mirrors.tuna.tsinghua。edu.cn/apache/hadoop/common/hadoop-3.1.4/hadoop-3.1.4.tar.gz[hadoop@node01~]$lshadoop-3.1.4.tar.gzmodulewget-log公共模板视频图片文件下载音乐桌面[hadoop@node01~]$mkdir-pmodule/hadoop[hadoop@node01~]$tar-zxvfhadoop-3.1.4.tar.gz-Cmodule/hadoop/[hadoop@node01~]$cdmodule/hadoop/hadoop-3.1.4/[hadoop@node01hadoop-3.1.4]$sudomkdir-pdata/tmp[hadoop@node01hadoop-3.1.4]$lsb在dataetcincludeliblibexecLICENSE.txtNOTICE.txtREADME.txtsbinshare修改配置文件配置集群/分布式模式时，需要修改“hadoop/etc/hadoop”目录下的配置文件，这里只设置正常启动的必要设置，包括workers，core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml，共5个文件，更多设置项请参考官方说明修改文件hadoop-env.sh[hadoop@node01hadoop]#vimhadoop-env.sh############exportJAVA_HOME=/usr/java/jdk1.8.0_281/[hadoop@node01hadoop]#vimyarn-env.sh############exportJAVA_HOME=/usr/java/jdk1.8.0_231修改文件workers在Master节点的workers文件中指定Slave节点，即node02[hadoop@node01hadoop]$vimworkers[hadoop@node01hadoop]$catworkersnode02修改文件core-site.xml请将core-site.xml文件修改为以下内容：修改文件hdfs-site.xml，请修改hdfs-site.xml文件内容如下：对于Hadoop的分布式文件系统HDFS，一般采用冗余存储。冗余因子通常为3，即一份数据保留三份。但是本教程只有一个Slave节点作为数据节点，即集群中只有一个数据节点，只能保存一份数据。因此，dfs.replication的值仍然设置为1。修改文件mapred-site.xml请将mapred-site.xml文件修改为以下内容：[hadoop@node01hadoop]$catmapred-site.xmlmapreduce.framework.nameyarn修改文件yarn-site.xml请修改yarn-site.xml文件内容如下：配置Hadoop环境变量在etc/profile中添加hadoop路径:InitializeHDFSinitialization对于HDFS，执行namenode初始化命令：hdfsnamenode-format可能会创建文件夹失败。对于这个权限问题，使用root账户使用命令sudochmod-Ra+w/绝对路径。如果HDFS初始化失败，必须删除之前创建的文件夹。启动集群，直接执行start-all.sh启动Hadoop。此时node02上的相关服务也会启动：在各个服务器上使用jps命令查看服务进程，或者直接进入Web-UI界面查看，端口为9870。可以看到有一个此时availableDatanode：然后可以查看Yarn的情况，端口号为8088：至此Hadoop分布式集群搭建成功。

上一篇：哪些开源数据库适合物联网环境？

下一篇：人工智能弊大于利？

使用两台Centos7系统搭建Hadoop-3.1.4全分布式集群相关文章