摘要:Spark和SparkSQL上的结构蜂巢都是翻译层,可以通过SQL翻译组成执行。
Spark和SparkSQL上的结构性蜂巢都是翻译的层,可以使用SQL翻译组成进行。多种数据源,然后使用SparkSQL执行分布式计算。
(1)首先,选择要选择正确的数据包,否则将不会启动。
Hive版本:Apache-Hive-2.1.1-bin.tar
火花版本:Spark-1.6.3 bin-hadoop2.4-without-hive(无需编译Hive)
(2)假设您已经安装了Hive和Spark,然后默认Hive拿走MR,您需要修改以下配置
(3)配置环境变量和操作参数
在hive-size.xml中配置spark_home;
在hive-size.xml或spark-default.conf或spark-env.conf配置SPARK运行参数中,您还可以在Hive操作环境中设置临时参数:
添加火花组件 - *。罐装包装在汇编的火花安装程序包中到hive_home/lib
(4)开始蜂巢
(5)启动Hive命令行窗口
(6)在火花旅行中打开蜂巢
(1)获取包裹
Hive版本:Apache-Hive-2.1.1-bin.tar
火花版本:Spark-1.6.3 bin-Hadoop2.4(需要编译Hive)
(2)在$ spark_home/conf目录中创建Hive-size.xml文件。内容如下:
(3)如果您使用的元数据库为mySQL,则请将mysql驱动到$ spark_home/lib,否则跳过。
(4)启动Hive Metadata服务,并在Spark运行时访问。
(5)执行命令
Spark提供了Spark -SQL命令直接操作Hive或Impala,启用SparkThriftServer服务,然后使用BEELINE进行远程连接以使用Spark SQL。SparkSQL的诞生实际上是替换HSQL。使用Hive的Metastore来管理,因此您需要配置hive.metastore.uris参数。
这是SparkThriftServer和HivethriftServer之间的区别。必须区分两者的端口:
HivEthRiftServer:通过JDBC或BEELINE远程连接的Hive Server的服务以使用HSQL操作Hive。
SparkThriftServer:Spark的服务,通过JDBC或Beeline远程连接到Spark,并使用Spark SQL操作Hive。
(1)在$ spark_home/conf目录中创建Hive-size.xml文件。内容如下:
(2)启动SparkThriftServer
启动SparkThriftServer后,Spark-SQL命令将在后台默认执行,实际上,该命令实际上是在使用Spark-Submit将任务提交给纱线。这将在YARN的8088页taskbar中设置居民任务,以执行Spark SQL。
(3)连接到火花
(4)这里的SQL可以在第8088页上查看执行过程。
本文分享了华为云社区的诚意,作者:dayu_dls。