当前位置：首页 > 网络应用技术

Spark和SparkSQL在Hive上有什么区别？

时间：2023-03-07 11:44:44 网络应用技术

　　摘要：Spark和SparkSQL上的结构蜂巢都是翻译层，可以通过SQL翻译组成执行。

　　Spark和SparkSQL上的结构性蜂巢都是翻译的层，可以使用SQL翻译组成进行。多种数据源，然后使用SparkSQL执行分布式计算。

　　（1）首先，选择要选择正确的数据包，否则将不会启动。

　　Hive版本：Apache-Hive-2.1.1-bin.tar

　　火花版本：Spark-1.6.3 bin-hadoop2.4-without-hive（无需编译Hive）

　　（2）假设您已经安装了Hive和Spark，然后默认Hive拿走MR，您需要修改以下配置

　　（3）配置环境变量和操作参数

　　在hive-size.xml中配置spark_home;

　　在hive-size.xml或spark-default.conf或spark-env.conf配置SPARK运行参数中，您还可以在Hive操作环境中设置临时参数：

　　添加火花组件 - *。罐装包装在汇编的火花安装程序包中到hive_home/lib

　　（4）开始蜂巢

　　（5）启动Hive命令行窗口

　　（6）在火花旅行中打开蜂巢

　　（1）获取包裹

　　Hive版本：Apache-Hive-2.1.1-bin.tar

　　火花版本：Spark-1.6.3 bin-Hadoop2.4（需要编译Hive）

　　（2）在$ spark_home/conf目录中创建Hive-size.xml文件。内容如下：

　　（3）如果您使用的元数据库为mySQL，则请将mysql驱动到$ spark_home/lib，否则跳过。

　　（4）启动Hive Metadata服务，并在Spark运行时访问。

　　（5）执行命令

　　Spark提供了Spark -SQL命令直接操作Hive或Impala，启用SparkThriftServer服务，然后使用BEELINE进行远程连接以使用Spark SQL。SparkSQL的诞生实际上是替换HSQL。使用Hive的Metastore来管理，因此您需要配置hive.metastore.uris参数。

　　这是SparkThriftServer和HivethriftServer之间的区别。必须区分两者的端口：

　　HivEthRiftServer：通过JDBC或BEELINE远程连接的Hive Server的服务以使用HSQL操作Hive。

　　SparkThriftServer：Spark的服务，通过JDBC或Beeline远程连接到Spark，并使用Spark SQL操作Hive。

　　（1）在$ spark_home/conf目录中创建Hive-size.xml文件。内容如下：

　　（2）启动SparkThriftServer

　　启动SparkThriftServer后，Spark-SQL命令将在后台默认执行，实际上，该命令实际上是在使用Spark-Submit将任务提交给纱线。这将在YARN的8088页taskbar中设置居民任务，以执行Spark SQL。

　　（3）连接到火花

　　（4）这里的SQL可以在第8088页上查看执行过程。

　　本文分享了华为云社区的诚意，作者：dayu_dls。

上一篇：iPhone8多少钱（iPhone8多少）？

下一篇：廉价iPhone的名称是什么（iPhone的便宜版本）？

Spark和SparkSQL在Hive上有什么区别？相关文章