您现在的位置是:首页 >技术交流 >windows搭建pyspark环境详细教程网站首页技术交流

windows搭建pyspark环境详细教程

青云-- 2024-06-17 10:48:26
简介windows搭建pyspark环境详细教程

一.安装jdk及配置环境变量:
下载地址:
https://www.oracle.com/java/technologies/downloads/#java8-windows
安装步骤:
在这里插入图片描述
下载后点击安装,中途可以自定义安装路径,最后查看安装路径:

开始配置系统环境变量:
在这里插入图片描述
在系统变量中新建:
变量名: JAVA_HOME
变量值:D:jdk 也就是jdk的安装路径
确认后,打开cmd,输入java version,出现如下界面:
在这里插入图片描述
说明java系统环境变量已配好。

二.安装spark及配置环境变量:
下载地址:
https://archive.apache.org/dist/spark/
点击想安装的版本(我安装的是spark-3.0.0):
在这里插入图片描述
将压缩包放在喜欢的位置进行解压:
在这里插入图片描述

开始配置spark的系统环境变量:
在这里插入图片描述
在系统变量中新建:
变量名:SPARK_HOME
变量值:D:spark-3.0.0-bin-hadoop2.7

三.安装hadoop及配置环境变量:
下载地址:
https://archive.apache.org/dist/hadoop/common/
选择与spark对应的版本:
在这里插入图片描述
点击之后进行下载:
在这里插入图片描述
解压到喜欢的位置:
在这里插入图片描述
此时bin目录(D:hadoop-2.7.1in)下可能没有hadoop.dll及winutils.exe文件,
需要进行下载:
hadoop.dll:
https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/hadoop.dll
在这里插入图片描述
点击下载

winutils.exe:
https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
下载方式同上

将hadoop.dll和winutils.exe均拷贝到D:hadoop-2.7.1in下和C:WindowsSystem32下(两个文件各拷贝一份)
在这里插入图片描述

开始配置hadoop的系统环境变量:
在这里插入图片描述
新建系统变量:
变量名:HADOOP_HOME
变量值:D:hadoop-2.7.1
在cmd输入hadoop version,出现如下界面:
在这里插入图片描述
说明hadoop环境变量配置成功;
接着输入spark-shell,出现如下界面:
在这里插入图片描述
说明spark系统环境变量配置成功;
接下来安装py4j,在cmd中输入pip install py4j
安装成功后接着输入pip install pyspark,安装好后出现如下界面:
在这里插入图片描述
最后输入pyspark,出现如下界面:
在这里插入图片描述
再来pycharm看引用的pyspark代码,已经可以正常使用了:
在这里插入图片描述
至此,windows(win7)安装pyspark(3.0.0及以上版本)成功

风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。