写在前面: 本篇博文记录在win10上安装spark单机版的过程,需要安装的软件有:Java JDK、Scala、Hadoop、Spark,本次安装的版本以及版本之间的对应要求如下: 在安装之前,新建一个spark文件夹,除了java之外其他软件都放在这个文件夹下,方便管理。
如果已经安装了java,需要查看版本,Java版本最好是1.8或者11,查看方法,使用cmd打开命令行,输入java -version:
如果不是上述两个版本,需要到oracle下载对应的版本https://www.oracle.com/java/technologies/javase-downloads.html,填写注册信息后即可下载,记得选择版本8:
点击下一步即可顺利安装,安装目录默认为Program Files,最好修改为没有空格的路径。
修改环境变量JAVA_HOME为新版本的安装路径,我安装在C盘根目录下,如下图: 在path中添加: bin和jre目录下的bin文件。选择path,点击编辑并添加下图路径。 安装好之后再次打开命令行输入java -version,如果出现版本信息则安装成功。
下载链接:https://www.scala-lang.org/download/2.11.8.html 下载安装至之前建好的spark文件夹下即可。
我打开后发现环境变量是自动添加好的,如果没有添加,将安装目录下bin文件的路径添加至path即可,步骤同1.3的第二步。
打开命令行,输入scala -version,出现如下图所示的版本信息,则安装成功。
进入Hadoop官网下载页面:http://archive.apache.org/dist/hadoop/core/hadoop-3.0.0/ 将下载好的文件解压放到之前建好的spark文件夹下,下载winutils.exe: https://github.com/4ttty/winutils,将该文件放在hadoop的bin目录下。
添加安装路径为HADOOP_HOME,并将bin文件添加至path中,注意,这里的HADOOP_HOME不可缺少,不然后边会报错,不能定位winutils.exe文件的位置。
打开命令行,输入hadoop,如果出现下图所示信息则安装成功:
进入spark官网下载页面:http://spark.apache.org/downloads.html,因为scala是2.11,所以spark选择版本2.4.7:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz 将spark压缩包解压到之前建好的spark文件夹下即可。
添加解压后的spark文件夹下的bin文件所在路径至path,如下图所示:
打开命令行,输入pyspark,出现下图所示的情况,则安装成功,可进行下一步测试。 将解压后的spark文件夹下,python文件下的pyspark复制到python的安装目录下,site-packages文件夹中。 打开命令行,安装findspark:输入pip install findspark. 创建一个py文件或者打开jupyter notebook,输入以下三行代码,成功导入pyspark包,安装结束。
import findspark findspark.init() import pyspark