本地模式调试Spark程序(IDEA)

it2023-08-19  72

0、安装好jdk环境

1、下载hadoop对应的压缩包,解压至本地磁盘目录,并配置好环境变量

添加到Path中

2、需要注意的是,需要将本地JAVA_HOME在hadoop解压缩的目录D:\hadoop-2.9.2\etc\hadoop 下的文件 hadoop-env.cmd进行修改

原JAVA_HOME路径中有(Program File)包含了空格,需要将其修改为(Progra~1),修改后的效果如下

3、最后下载本地执行程序时需要用到的一些脚本文件 winutils,选择对应的版本,并添加到D:\hadoop-2.9.2\bin 目录下

4、将hadoop.dll复制到C:\Window\System32下即可

将hadoop.dll复制到C:\Window\System32下

5、执行Spark WordCount案例

import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object ScalaWordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[4]") val sc = new SparkContext(conf) val lines : RDD[String] = sc.textFile(args(0)) val words : RDD[String]= lines.flatMap(_.split(" ")) val wordAndOne : RDD[(String,Int)] = words.map((_,1)) val reduced : RDD[(String,Int)] = wordAndOne.reduceByKey(_+_) val sorted : RDD[(String,Int)] = reduced.sortBy(_._2,false) sorted.saveAsTextFile(args(1)) sc.stop() } }

设置执行参数:字典数据,目标文件

 

参考链接:

https://blog.csdn.net/medier/article/details/80572584

最新回复(0)