当前位置: 首页 > Web前端 > HTML

以集群模式执行Spark程序(第七弹)

时间:2023-03-27 22:45:45 HTML

添加打包插件在pom.xml文件中添加需要的插件插入内容如下:src/main/scalasrc/test/scalanet.alchim31.mavenscala-maven-plugin3.2.2compiletestCompile-dependencyfile${project.build.directory}/.scala_dependenciesorg.apache.maven.pluginsmaven-shade-plugin2.4.3packageshade*:*<排除><排除>META-INF/*.SF<排除>META-INF/*.DSAMETA-INF/*.RSA等待加载第1步鼠标放在WordCount上,ctrl+c后,ctrl+v复制,重命名为WordCount_OnlineStep2修改代码3.读取数据文件,RDD可以简单理解为一个集合,集合中存储的元素为String类型valdata:RDD[String]=火花上下文。textFile(args(0))7.将结果数据保存到HDFSresult.saveAsTextFile(args(1))修改上面2行代码的第3步点击右边的【mavenprojects】-->双击【lifecycle】下的package,自动将项目打包成Jar包【图片上传失败...(image-d48c38-1660375399984打包成功标志:显示BUILDSUCCESS,在目标目录下可以看到2个jar包Step4启动Hadoop集群,访问网页$start-all.shStep5访问192.168.196.101(master):50070点击【utilities]—>[浏览文件系统]Step6点击【spark】—>[test],可以看到words.txtStep7删除words.txt$hadoopfs-rm/spark/test/words.txtStep8刷新下一页,可以看到/spark/测试路径下没有words.txtStep9Alt+p,切换到/opt/software,拉入包含第三方的spark_chapter02-1.0-SNAPSHOT.jar包jar.首先将解压后的两个jar包复制进去步骤10直接将F盘/word/words.txt拉入/opt/software步骤11查看是否有words.txt和spark_chapter02-1.0-SNAPSHOT.jarStep12执行提交命令$*bin/spark-submit*--masterspark://master:7077\--executor-memory1g\--total-executor-cores1\/opt/software/spark_chapter02-1.0-SNAPSHOT.jar\/spark/test/words.txt\/spark/test/out