当前位置: 首页 > 网络应用技术

Spark和SparkSQL在Hive上有什么区别?

时间:2023-03-07 11:44:44 网络应用技术

  摘要:Spark和SparkSQL上的结构蜂巢都是翻译层,可以通过SQL翻译组成执行。

  Spark和SparkSQL上的结构性蜂巢都是翻译的层,可以使用SQL翻译组成进行。多种数据源,然后使用SparkSQL执行分布式计算。

  (1)首先,选择要选择正确的数据包,否则将不会启动。

  Hive版本:Apache-Hive-2.1.1-bin.tar

  火花版本:Spark-1.6.3 bin-hadoop2.4-without-hive(无需编译Hive)

  (2)假设您已经安装了Hive和Spark,然后默认Hive拿走MR,您需要修改以下配置

  (3)配置环境变量和操作参数

  在hive-size.xml中配置spark_home;

  在hive-size.xml或spark-default.conf或spark-env.conf配置SPARK运行参数中,您还可以在Hive操作环境中设置临时参数:

  添加火花组件 - *。罐装包装在汇编的火花安装程序包中到hive_home/lib

  (4)开始蜂巢

  (5)启动Hive命令行窗口

  (6)在火花旅行中打开蜂巢

  (1)获取包裹

  Hive版本:Apache-Hive-2.1.1-bin.tar

  火花版本:Spark-1.6.3 bin-Hadoop2.4(需要编译Hive)

  (2)在$ spark_home/conf目录中创建Hive-size.xml文件。内容如下:

  (3)如果您使用的元数据库为mySQL,则请将mysql驱动到$ spark_home/lib,否则跳过。

  (4)启动Hive Metadata服务,并在Spark运行时访问。

  (5)执行命令

  Spark提供了Spark -SQL命令直接操作Hive或Impala,启用SparkThriftServer服务,然后使用BEELINE进行远程连接以使用Spark SQL。SparkSQL的诞生实际上是替换HSQL。使用Hive的Metastore来管理,因此您需要配置hive.metastore.uris参数。

  这是SparkThriftServer和HivethriftServer之间的区别。必须区分两者的端口:

  HivEthRiftServer:通过JDBC或BEELINE远程连接的Hive Server的服务以使用HSQL操作Hive。

  SparkThriftServer:Spark的服务,通过JDBC或Beeline远程连接到Spark,并使用Spark SQL操作Hive。

  (1)在$ spark_home/conf目录中创建Hive-size.xml文件。内容如下:

  (2)启动SparkThriftServer

  启动SparkThriftServer后,Spark-SQL命令将在后台默认执行,实际上,该命令实际上是在使用Spark-Submit将任务提交给纱线。这将在YARN的8088页taskbar中设置居民任务,以执行Spark SQL。

  (3)连接到火花

  (4)这里的SQL可以在第8088页上查看执行过程。

  本文分享了华为云社区的诚意,作者:dayu_dls。