大数据常用技术词汇未来的竞争就是数据的竞争。大数据本质上是Hadoop的生态群。下面是常用的技术词汇ETL:代表提取、转换和加载。Hadoop:分布式系统基础设施HDFS:分布式文件系统HBase:大数据NoSQL数据库Hive:数据仓库工具DAG:第二代计算引擎Spark:第三代数据处理引擎Flink:第四代数据处理引擎MapReduce:原始并行计算框架Sqoop:nosql数据库与传统数据库之间的数据传输工具Hive:数据仓库工具Storm:分布式实时计算系统Flume:分布式海量日志收集系统。Kafka:分布式发布订阅消息系统ElasticSearch:分布式搜索引擎Kibana:ElasticSearch大数据图形化展示工具Logstash:Elasticsearch传送带Neo4j:Nosql图数据库Oozie:工作流调度系统-YARN:作业调度和集群资源管理框架Hadoopclusterbigdata是一个基于集群的分布式系统。所谓集群,是指由一组独立的计算机系统组成的多处理器系统,通过网络实现进程间通信,让几台计算机共同工作(服务),可以并行也可以备份。Distributed:分布式的主要工作是分解任务,拆解功能,多人一起做不同的事情Cluster:Cluster主要是把同一个业务部署在多台服务器上,多人一起做同样的事情Hadoop简介Hadoop是一个开源的在Apache下用Java语言实现的软件框架。它是一个用于存储和计算大规模数据的软件平台。Hadoop由ApacheLucene创始人DougCutting创建,起源于Nutch项目。2003年,Google发表了一篇GFS论文,为大规模数据存储提供了可行的解决方案。2004年,谷歌发表了一篇关于MapReduce系统的论文,为大规模数据计算提供了可行的解决方案。基于Google的论文,Nutch的开发者完成了HDFS和MAPREDUCE的相应开源实现,并从Nutch中分离出来成为一个独立的项目Hadoop。到2008年1月,Hadoop成为Apache的顶级项目,迎来了快速发展期。如今,国内外互联网巨头基本上都在使用Hadoop框架作为大数据解决方案,越来越多的公司将Hadoop技术作为进入大数据领域的必备技术。目前,Hadoop发行版分为开源社区版和商业版。开源社区版:指由Apache软件基金会维护的版本。是官方维护的版本系统,版本丰富,兼容性差。Commercialversion:指第三方商业公司基于Hadoop社区版发布的版本,经过一定的修改、集成和各种服务组件的兼容性测试。比较出名的有cloudera的CDH等。开源社区版:一般使用2.x版本系列,3.x版本系列:这个版本是最新版本,但还不稳定。废话不多说,开始今天的话题:使用三台Centos7系统搭建Hadoop2.X全分布式集群。去年用CentOS7搭建了hadoop3.X分布式集群。事情,这次我用两台Centos7系统搭建了一个全分布式的Hadoop集群。Centos虽然已经更新到8版本,但是很多大数据的研究都是基于Centos7系统的。这里不搭建伪分布式版本,搭建的版本为Hadoop-3.1.4,目前稳定在Haddop3.X。去年对应文章教程:https://blog.csdn.net/weixin_44510615/article/details/104625802https://blog.csdn.net/weixin_44510615/article/details/106540??129Centos7集群搭建前准备下载地址:http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso。共4.8g。在搭建集群之前,需要在VMwearWorkstation上搭建一个Centos7系统。关于搭建过程,因为比较简单,这里就不再赘述了。通过物理机连接虚拟机时,需要两块虚拟网卡VMnet1和VMnet8。如果你安装的Vmware没有VMnet1和VMnet8,根据我之前踩过的坑,网上说安装cclear软件包删除注册表,就是不断的删除和下载Vmware,并不能解决问题.最后采用系统刷机的方法解决。所以,搭建虚拟机的前提是本地宿主机必须有一个虚拟的本地环境,否则你做什么都没用。这里插入图片描述,可以在本地ping通虚拟机的IP,实现本地与虚拟机的信息连接。这样就可以通过xshell远程连接centos7了。第一次使用Centos7时,需要给创建的用户提供管理员权限,所以需要使用root账户进行相关修改,防止node01不在sudoers文件中。此事将被举报。的错误。使用:wq!保存退出,如果远程连接失败,应该没有开发端口和IP地址。需要设置sudovim/etc/ssh/sshd_configtosetstaticip设置静态ip,重启网卡通过ifconfig配置阿里云yum源。一开始下载速度很慢,需要配置阿里云yum源。.#配置阿里云yum源yuminstall-ywgetcd/etc/yum.repos.d/mvCentOS-Base.repoCentOS-Base.repo.bakwgethttp://mirrors.aliyun.com/repo/Centos-7.repomvCentos-7.repoCentOS-Base.repo#配置epel源wgethttps://mirrors.aliyun.com/repo/epel-7.repo#清除缓存并更新yumcleanallyummakecacheyumupdate安装JDK由于hadoop框架的启动依赖java环境,所以需要准备jdk环境。目前,OpenJDK和OracleJava是两个主要的Java实现。卸载Linux系统原有的jdkOpenJDK,然后安装OracleJava。具体博客:https://blog.csdn.net/weixin_44510615/article/details/104425843克隆一个虚拟机,分别设置static为192.168.147.129,将三个Centos7主机名分别设置为node01和node02,以区分centos7机器。之前用node01创建用户名,发现弄错了,于是将两台主机的用户名都设置为hadoop。关于Centos7修改用户名:[root@node01~]#usermod-lhadoop-d/home/hadoop-mnode01.此后我们有两台centos电脑,在hadoop集群中不使用root账号。xshell可以连接成功。配置ssh免密码登录[root@node01~]#vim/etc/sysconfig/network#########HOSTNAME=node01[root@node01~]#vim/etc/hosts#########192.168.147.128node01192.168.147.129node02[root@node01~]#systemctlstopfirewalld[root@node01~]#systemctldisablefirewalld.service[root@node02~]#vim/etc/sysconfig/network#########HOSTNAME=node02[root@node02~]#vim/etc/hosts#########192.168.147.128node01192.168.147.129node02[root@node02~]#systemctlstopfirewalld[root@node02~]#systemctldisablefirewalld.服务实现hadoop账号在node01和node02之间自由切换,详见我的博客:https://blog.csdn.net/weixin_44510615/article/details/104528001?下载hadoop下载链接:https://mirrors.tuna.tsinghua。edu.cn/apache/hadoop/common/hadoop-3.1.4/hadoop-3.1.4.tar.gz[hadoop@node01~]$lshadoop-3.1.4.tar.gzmodulewget-log公共模板视频图片文件下载音乐桌面[hadoop@node01~]$mkdir-pmodule/hadoop[hadoop@node01~]$tar-zxvfhadoop-3.1.4.tar.gz-Cmodule/hadoop/[hadoop@node01~]$cdmodule/hadoop/hadoop-3.1.4/[hadoop@node01hadoop-3.1.4]$sudomkdir-pdata/tmp[hadoop@node01hadoop-3.1.4]$lsb在dataetcincludeliblibexecLICENSE.txtNOTICE.txtREADME.txtsbinshare修改配置文件配置集群/分布式模式时,需要修改“hadoop/etc/hadoop”目录下的配置文件,这里只设置正常启动的必要设置,包括workers,core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,共5个文件,更多设置项请参考官方说明修改文件hadoop-env.sh[hadoop@node01hadoop]#vimhadoop-env.sh############exportJAVA_HOME=/usr/java/jdk1.8.0_281/[hadoop@node01hadoop]#vimyarn-env.sh############exportJAVA_HOME=/usr/java/jdk1.8.0_231修改文件workers在Master节点的workers文件中指定Slave节点,即node02[hadoop@node01hadoop]$vimworkers[hadoop@node01hadoop]$catworkersnode02修改文件core-site.xml请将core-site.xml文件修改为以下内容:修改文件hdfs-site.xml,请修改hdfs-site.xml文件内容如下:对于Hadoop的分布式文件系统HDFS,一般采用冗余存储。冗余因子通常为3,即一份数据保留三份。但是本教程只有一个Slave节点作为数据节点,即集群中只有一个数据节点,只能保存一份数据。因此,dfs.replication的值仍然设置为1。修改文件mapred-site.xml请将mapred-site.xml文件修改为以下内容:[hadoop@node01hadoop]$catmapred-site.xml
