当前位置: 首页 > 科技观察

在Windows上安装PySpark保姆级教程

时间:2023-03-17 10:06:38 科技观察

安装Python或Anaconda发行版https://www.python.org/downloads/windows/从Python.org或Anaconda发行版下载并安装Python,其中包括Python、SpyderIDE和Jupyter笔记本。我推荐使用Anaconda,因为它非常流行,并且被机器学习和数据科学社区使用。https://www.anaconda.com/推荐使用Anaconda安装PySpark并运行Jupyternotebook。安装Java8要运行PySpark应用程序,需要Java8或更高版本,因此请从Oracle下载Java版本并将其安装到您的系统上。https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html安装后设置JAVA_HOME和PATH变量。JAVA_HOME=C:\ProgramFiles\Java\jdk1.8.0_201PATH=%PATH%;C:\ProgramFiles\Java\jdk1.8.0_201\bin在Windows上安装PySparkPySpark是一个用Python编写的用于Apache的Spark库用于运行Python应用程序的Spark函数。因此没有可供下载的PySpark库。您只需要Spark。按照以下步骤在Windows上安装PySpark。1、在Spark下载页面,选择DownloadSpark(第3点)链接进行下载。如果您想使用不同版本的Spark和Hadoop,请从下拉列表中选择您想要的版本,第3点的链接将更改为所选版本并为您提供更新的下载链接。https://spark.apache.org/downloads.html2。下载后解压二进制文件,将底层文件夹spark-3.0.0-bin-hadoop2.7复制到c:\apps3。现在设置以下环境变量。SPARK_HOME=C:\apps\spark-3.0.0-bin-hadoop2.7HADOOP_HOME=C:\apps\spark-3.0.0-bin-hadoop2.7PATH=%PATH%;C:\apps\spark-3.0.0-bin-hadoop2.7\bin如果您还不知道如何在Windows上添加或编辑环境变量,请按照以下步骤操作。1.打开“编辑系统环境变量”窗口,在“高级”选项卡下选择“环境变量”。编辑系统环境变量2.在以下环境变量屏幕上,通过选择新建选项添加SPARK_HOME、HADOOP_HOME和JAVA_HOME。3.这将打开用户变量窗口,您可以在其中输入变量名称和值。4.现在编辑PATH变量5.通过选择“新建”选项添加Spark、Java和Hadoopbin路径。在Windows上安装winutils.exe从winutils下载winutils.exe文件并将其复制到%SPARK_HOME%\bin文件夹。每个Hadoop版本的Winutils都不同,因此请从.https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exePySparkshell现在打开命令提示符并键入pyspark命令以运行PySparkshell。您应该在下面看到类似这样的内容。Spark-shell还创建了一个Spark上下文WebUI,默认情况下可以从http://localhost:4041/访问它。WebUUIApacheSpark提供了一套WebUI(Jobs、Stages、Tasks、Storage、Environment、Executors和SQL)来监控Spark应用程序的状态。SparkWebUIHistoryServerHistoryserver,记录你通过spark-submit,pysparkshell提交的所有PySpark应用。在开始之前,首先需要设置如下配置spark-defaults.confspark.eventLog.enabledtruespark.history.fs.logDirectoryfile:///c:/logs/path现在,在Linux或Mac上运行historyserver启动.$SPARK_HOME/sbin/start-history-server.sh如果您在Windows上运行PySpark,您可以通过启动以下命令来启动历史服务器。$SPARK_HOME/bin/spark-class.cmdorg.apache.spark.deploy.history.HistoryServer默认情况下,历史服务器侦听端口18080,您可以使用http://localhost:18080/从浏览器访问它。HistoryServer通过点击每个AppID,将在PySparkWebUI中获取应用程序的详细信息。