本地模式调试Spark程序（IDEA）

it2023-08-19 105

0、安装好jdk环境

1、下载hadoop对应的压缩包，解压至本地磁盘目录，并配置好环境变量

添加到Path中

2、需要注意的是，需要将本地JAVA_HOME在hadoop解压缩的目录D:\hadoop-2.9.2\etc\hadoop 下的文件 hadoop-env.cmd进行修改

原JAVA_HOME路径中有（Program File）包含了空格，需要将其修改为（Progra~1），修改后的效果如下

3、最后下载本地执行程序时需要用到的一些脚本文件 winutils，选择对应的版本，并添加到D:\hadoop-2.9.2\bin 目录下

4、将hadoop.dll复制到C:\Window\System32下即可

将hadoop.dll复制到C:\Window\System32下

5、执行Spark WordCount案例

import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object ScalaWordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[4]") val sc = new SparkContext(conf) val lines : RDD[String] = sc.textFile(args(0)) val words : RDD[String]= lines.flatMap(_.split(" ")) val wordAndOne : RDD[(String,Int)] = words.map((_,1)) val reduced : RDD[(String,Int)] = wordAndOne.reduceByKey(_+_) val sorted : RDD[(String,Int)] = reduced.sortBy(_._2,false) sorted.saveAsTextFile(args(1)) sc.stop() } }

设置执行参数：字典数据，目标文件

参考链接：

https://blog.csdn.net/medier/article/details/80572584

最新回复(0)