Hadoop简介Hadoop是Apache下用java语言实现的开源软件框架,是开发和运行大规模数据处理的软件平台。允许使用简单的编程模型在大量计算机集群上分布式处理大数据集。大规模数据:通常大于1PB。Hadoop的核心组件是1.HDFS(分布式文件系统):解决海量数据存储2.YARN(作业调度和集群资源管理框架):解决资源任务调度3.MAPREDUCE(分布式计算编程框架):解决海量数据计算现在说的Hadoop,泛指Hadoop生态系统。就是下图。MAPREDUCE:分布式计算程序开发框架HIVE:基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作HBASE:基于HADOOP的分布式海量数据库ZOOKEEPER:分布式协同服务基础组件Mahout:基于mapreduce/spark/flink等。分布式计算框架机器学习算法库Oozie:工作流调度框架Sqoop:数据导入导出工具(例如mysql和HDFS之间使用)Flume:日志数据采集框架Impala:基于Hadoop的实时分析Hadoop特性优点1.**可扩展性**(Scalable):Hadoop在可用的计算机集群之间分发数据并完成计算任务,这些集群可以很容易地扩展到数千个节点。2.**低成本**(Economical):Hadoop通过由普通廉价机器组成的服务器集群来分发和处理数据,因此成本非常低。3.**高效率**(Efficient):通过并发数据,Hadoop可以并行地在节点间动态移动数据,使得速度非常快。4.**可靠性**(Rellable):可以自动维护数据的多份副本,任务失败后可以自动重新部署计算任务。所以Hadoop对数据一点一点存储和处理的能力是值得人们信赖的。集群搭建HADOOP集群具体包括两个集群:HDFS集群和YARN集群。HDFS集群负责海量数据的存储。集群中的主要角色有:NameNode、DataNode、SecondaryNameNode。Hadoop的角色主要包括:ResourceManager,NodeManagerHadoop的三种部署方式,Standalone模式(独立模式),Pseudo-Distributed模式(伪分布式模式),Cluster模式(集群模式),部署前两种在单机集群模式下主要用于生产环境部署。N台主机将被用来组成一个Hadoop集群。这种部署方式下,主节点和从节点会分别部署在不同的机器上hadoop1NameNodeDataNodeResourceManagerhadoop2DataNodeNodeManagerSecondaryNameNodehadoop3DataNodeNodeManager准备工作:同步Linux系统时间ntpdatecn.pool.ntp.org设置hostnamevi/etc/sysconfig/networkHOSTNAME=hadoop-1,其他系统格式相同。配置IP,主机名映射vi/etc/hosts192.168.1.1hadoop1/...2hadoop2/...3hadoop3。其他linux设备同样配置ssh免密码登录生成秘钥ssh-keygen,将秘钥发送给其他机器。ssh-copy-idhadoop2关闭防火墙服务iptables停止。设置开机关闭chkconfigiptablesoff并安装jdk。开始安装,将hadoop压缩包上传到linux/export/software/目录下。如果没有,新建一个目录,解压到/export/server/目录下,进入/export/server/hadoop-2../etc/hadoop目录。修改hadoop-env.sh文件。vihadoop环境。sh.因为hadoop需要在java环境下运行exportJAVA_HOME=#java环境变量path修改core-site.xml文件vicore-site.xml
