当前位置: 首页 > 网络应用技术

如何基于jupyter笔记本构建火花集群开发环境

时间:2023-03-09 10:57:39 网络应用技术

  摘要:本文介绍了如何基于jupyter笔记本构建火花集群开发环境。

  1. Sparkmagic:这是通过Livy Server Spark Rest在Jupyternotebook中的远程火花集群工作工具。SparkMagic项目包括一组框架和内核,这些框架和内核以多种语言运行Spark代码。您可以使用这些内核在Spark环境中的Jupyter笔记本中转换代码。

  2. Livy:这是基于火花的开源休息服务。它可以以静止的方式在火花集群中提交代码片段或串行二进制代码以执行。它提供以下基本功能:将scala,python或R代码片段提交到集群中的远程spark clusrun

  使用SAPRK群集,您可以构建或直接使用MRS等华为云服务,并在群集上安装Spark客户端。相同的节点(可以是Docker容器或虚拟机)安装Justyter Notebook和Livy。安装软件包的路径是:https://livy.incubace.org/download/

  modify livy.conf参考:https://enterprise-nocs.anaconda.com/en/latter/advanced/config-livy-html

  添加以下配置:

  。

  修改livy -env.sh,配置环境变量,例如spark_home,hadoop_conf_dir

  opt/bigdata/client/hdfs/hadoop/etc/hadoop/jaas.conf-xmx128m”

  开始利维:

  https://www.shouxicto.com/article/bin/livy-服务器开始

  Jupyter Notebook是一个开源的项目,广泛使用的项目。此处未描述安装过程。

  SparkMagic可以理解为Jupyter笔记本中的一种内核,直接pip pip install sparkmagic.注意,该系统必须具有GCC Python-dev libkrb5-dev工具。安装后,它将生成$ home/.sparkmagic/config.json文件。。该文件是SparkMagic的关键配置文件,与Spark配置兼容。

  其中,URL是Livy服务的IP和港口,并支持两个协议:HTTP和HTTPS

  “位置” |awk'{print $ 2}')“ cp -r $ {site_packages}/sparkmagic/kernels/pysparkkernel $ {kernels_folder}

  本文分享了真诚的Yunyun社区,作者:APR Pengpeng。