一、Spark系统概览左边是Spark原生架构图,右边是SparkonMaxCompute运行在阿里云自研的Cupid平台上,可以原生支持Spark等开源社区Yarn支持的计算框架。2、客户端运行Spark的配置,使用2.1打开链接下载客户端到本地http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0-odps0.30.0/火花-2.3。0-odps0.30.0.tar.gz?spm=a2c4g.11186623.2.12.666a4b69yO8Qur&file=spark-2.3.0-odps0.30.0.tar.gz2.2上传文件到ECS2.3解压文件tar-zxvfspark-2.3。0-odps0.30.0.tar.gz2.4configureSpark-default.conf#spark-defaults.conf#默认模板一般只需要填写MaxCompute相关的账号信息即可使用Sparkspark.hadoop.odps。project.name=spark.hadoop.odps.access.id=spark.hadoop.odps.access.key=#其他配置请保持自己的值。spark.hadoop.odps.end.point=http://service.cn.maxcompute.aliyun.com/apispark.hadoop.odps.runtime.end.point=http://service.cn.maxcompute.aliyun-inc.com/apispark.sql.catalogImplementation=odpsspark.hadoop.odps。task.major.version=cupid_v2spark.hadoop.odps.cupid.container.image.enable=truespark.hadoop.odps.cupid.container.vm.engine.type=hyper2.5在githubhttps://github上下载对应的代码.com/aliyun/MaxCompute-Spark2.5上传代码到ECS解压unzipMaxCompute-Spark-master.zip2.6将代码打包成jar包(一定要安装Maven)cdMaxCompute-Spark-master/spark-2.xmvncleanpackage2.7查看jar包,运行bin/spark-submit--masteryarn-cluster--classcom.aliyun.odps.spark.examples.SparkPi\MaxCompute-Spark-master/spark-2.x/target/spark-examples_2.11-1.0.0-SNAPSHOT-shaded.jar3.DataWorks中运行Spark的配置与使用3.1进入DataWorks控制台界面,点击业务流程3.2打开业务流程,创建ODPSSpark节点3.3上传jar包资源,点击上传对应的jar包并提交。3.4配置ODPSSpark对应的节点配置。单击保存并提交。点击运行,查看运行状态。4.本地idea测试环境使用Spark4.1下载客户端和模板代码并解压客户端:http://odps-repo.oss-cn-hangzhou.aliyuncs.com/spark/2.3.0-odps0.30.0/spark-2.3.0-odps0.30.0.tar.gz?spm=a2c4g.11186623.2.12.666a4b69yO8Qur&file=spark-2.3.0-odps0.30.0.tar.gz模板代码:https://github.com/aliyun/MaxCompute-Spark4.2打开idea,点击打开选择模板代码4.2安装Scala插件4.3配置maven4.4配置JDK和依赖
