Spark单机版安装及配置(win10)

it2024-10-21  42

文章目录

1 安装java1.1 查看java是否安装及版本信息1.2 下载安装java1.3 配置java环境变量 2 安装Scala2.1 下载安装Scala 2.11.82.2 配置Scala环境变量2.3 测试scala的安装 3 安装Hadoop3.1 下载安装Hadoop3.0.03.2 配置Hadoop环境变量3.3 测试hadoop的安装 4 安装spark4.1 下载安装spark4.2 配置Spark环境变量4.3 测试Spark的安装


写在前面: 本篇博文记录在win10上安装spark单机版的过程,需要安装的软件有:Java JDK、Scala、Hadoop、Spark,本次安装的版本以及版本之间的对应要求如下: 在安装之前,新建一个spark文件夹,除了java之外其他软件都放在这个文件夹下,方便管理。

1 安装java

1.1 查看java是否安装及版本信息

如果已经安装了java,需要查看版本,Java版本最好是1.8或者11,查看方法,使用cmd打开命令行,输入java -version:

1.2 下载安装java

如果不是上述两个版本,需要到oracle下载对应的版本https://www.oracle.com/java/technologies/javase-downloads.html,填写注册信息后即可下载,记得选择版本8:

点击下一步即可顺利安装,安装目录默认为Program Files,最好修改为没有空格的路径。

1.3 配置java环境变量

修改环境变量JAVA_HOME为新版本的安装路径,我安装在C盘根目录下,如下图: 在path中添加: bin和jre目录下的bin文件。选择path,点击编辑并添加下图路径。 安装好之后再次打开命令行输入java -version,如果出现版本信息则安装成功。

2 安装Scala

2.1 下载安装Scala 2.11.8

下载链接:https://www.scala-lang.org/download/2.11.8.html 下载安装至之前建好的spark文件夹下即可。

2.2 配置Scala环境变量

我打开后发现环境变量是自动添加好的,如果没有添加,将安装目录下bin文件的路径添加至path即可,步骤同1.3的第二步。

2.3 测试scala的安装

打开命令行,输入scala -version,出现如下图所示的版本信息,则安装成功。

3 安装Hadoop

3.1 下载安装Hadoop3.0.0

进入Hadoop官网下载页面:http://archive.apache.org/dist/hadoop/core/hadoop-3.0.0/ 将下载好的文件解压放到之前建好的spark文件夹下,下载winutils.exe: https://github.com/4ttty/winutils,将该文件放在hadoop的bin目录下。

3.2 配置Hadoop环境变量

添加安装路径为HADOOP_HOME,并将bin文件添加至path中,注意,这里的HADOOP_HOME不可缺少,不然后边会报错,不能定位winutils.exe文件的位置。

3.3 测试hadoop的安装

打开命令行,输入hadoop,如果出现下图所示信息则安装成功:

4 安装spark

4.1 下载安装spark

进入spark官网下载页面:http://spark.apache.org/downloads.html,因为scala是2.11,所以spark选择版本2.4.7:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz 将spark压缩包解压到之前建好的spark文件夹下即可。

4.2 配置Spark环境变量

添加解压后的spark文件夹下的bin文件所在路径至path,如下图所示:

4.3 测试Spark的安装

打开命令行,输入pyspark,出现下图所示的情况,则安装成功,可进行下一步测试。 将解压后的spark文件夹下,python文件下的pyspark复制到python的安装目录下,site-packages文件夹中。 打开命令行,安装findspark:输入pip install findspark. 创建一个py文件或者打开jupyter notebook,输入以下三行代码,成功导入pyspark包,安装结束。

import findspark findspark.init() import pyspark

最新回复(0)