官方地址:http://spark.apache.org/
注意: 如果有权限问题,可以修改为root,方便学习时操作,实际中使用运维分配的用户和权限即可
chown -R root /export/servers/spark chgrp -R root /export/servers/sparkwords.txt
hello nihao shanghai henan hello nihao zaima chifan nihao shanghai hello #准备数据: #上传文件到hdfs `hadoop fs -put /root/words.txt /wordcount/input/words.txt` #目录如果不存在可以创建 `hadoop fs -mkdir -p /wordcount/input` #结束后可以删除测试文件夹 `hadoop fs -rm -r /wordcount` val textFile = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt") val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _) counts.saveAsTextFile("hdfs://node01:8020/wordcount/output")Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。
Standalone集群使用了分布式计算中的master-slave模型, master是集群中含有master进程的节点 slave是集群中的worker节点含有Executor进程 Spark架构图如下(先了解): http://spark.apache.org/docs/latest/cluster-overview.html
node01:master node02:slave/worker node03:slave/worker
配置spark环境变量 (建议不添加,避免和Hadoop的命令冲突) 将spark添加到环境变量,添加以下内容到 /etc/profile.d
cd /etc/profile.d vim spark.sh export SPARK_HOME=/export/servers/spark export PATH=$PATH:$SPARK_HOME/bin ----------------------------------- 注意: hadoop/sbin 的目录和 spark/sbin 可能会有命令冲突 ==start-all.sh stop-all.sh== 解决方案: 1.把其中一个框架的 sbin 从环境变量中去掉; 2.改名 hadoop/sbin/start-all.sh 改为: start-all-hadoop.sh需求: 使用集群模式运行Spark程序读取HDFS上的文件并执行WordCount
# 集群模式启动spark-shell: /export/servers/spark/bin/spark-shell --master spark://node01:7077 ------------------------------------------------------------------ #运行程序: sc.textFile("hdfs://node01:8020/wordcount/input/words.txt") .flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _) .saveAsTextFile("hdfs://node01:8020/wordcount/output2") ------------------------------------------------------------------ #SparkContext web UI http://node01:4040/jobs/注意: 集群模式下程序是在集群上运行的,不要直接读取本地文件,应该读取hdfs上的 因为程序运行在集群上,具体在哪个节点上我们运行并不知道,其他节点可能并没有那个数据文件
Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。 如何解决这个单点故障的问题,Spark提供了两种方案:
基于文件系统的单点恢复(Single-Node Recovery with Local File System)–只能用于开发或测试环境。基于zookeeper的Standby Masters(Standby Masters with ZooKeeper)–可以用于生产环境。该HA方案使用起来很简单,首先启动一个ZooKeeper集群,然后在不同节点上启动Master,注意这些节点需要具有相同的zookeeper配置。
#先停止Sprak集群 /export/servers/spark/sbin/stop-all.sh #在node01上配置: vim /export/servers/spark/conf/spark-env.sh #注释掉Master配置 #export SPARK_MASTER_HOST=node01 #在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS,内容如下: export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node01:2181,node02:2181,node03:2181 -Dspark.deploy.zookeeper.dir=/spark"参数说明 :
spark.deploy.recoveryMode:恢复模式spark.deploy.zookeeper.url:ZooKeeper的Server地址spark.deploy.zookeeper.dir:保存集群元数据信息的文件、目录。包括Worker、Driver、Application信息。测试主备切换:
在node01上使用jps查看master进程id使用kill -9 id号强制结束该进程稍等片刻后刷新node02的web界面发现node02为Alive #测试集群模式提交任务: 1.集群模式启动spark-shell /export/servers/spark/bin/spark-shell --master spark://node01:7077,node02:7077 2.运行程序 sc.textFile("hdfs://node01:8020/wordcount/input/words.txt") .flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _) .saveAsTextFile("hdfs://node01:8020/wordcount/output3")安装启动Hadoop(需要使用HDFS和YARN,已经ok)
安装单机版Spark(已经ok) 注意:不需要集群,因为把Spark程序提交给YARN运行本质上是把字节码给YARN集群上的JVM运行,但是得有一个东西帮我去把任务提交上个YARN,所以需要一个单机版的Spark,里面的有spark-shell命令,spark-submit命令
#修改配置: #在spark-env.sh ,添加HADOOP_CONF_DIR配置,指明了hadoop的配置文件的位置 vim /export/servers/spark/conf/spark-env.sh export HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoopCluster和Client模式最本质的区别是:Driver程序运行在哪里! 运行在YARN集群中就是Cluster模式, 运行在客户端就是Client模式 当然还有由本质区别延伸出来的区别,面试的时候能简单说出几点就行
cluster模式:生产环境中使用该模式 1.Driver程序在YARN集群中 2.应用的运行结果不能在客户端显示 3.该模式下Driver运行ApplicattionMaster这个进程中,如果出现问题,yarn会重启ApplicattionMaster(Driver)
client模式: 1.Driver运行在Client上的SparkSubmit进程中 2.应用程序运行结果会在客户端显示
spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下可以用scala编写spark程序,适合学习测试时使用!
示例 spark-shell可以携带参数 spark-shell --master local[N] 数字N表示在本地模拟N个线程来运行当前任务 spark-shell --master local[*] 表示使用当前机器上所有可用的资源 默认不携带参数就是–master local[] spark-shell --master spark://node01:7077,node02:7077 表示运行在集群上spark-submit命令用来提交jar包给spark集群/YARN spark-shell交互式编程确实很方便我们进行学习测试,但是在实际中我们一般是使用IDEA开发Spark应用程序打成jar包交给Spark集群/YARN去执行。 spark-submit命令是我们开发时常用的!!!
#计算π: /export/servers/spark/bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://node01:7077 \ --executor-memory 1g \ --total-executor-cores 2 \ /export/servers/spark/examples/jars/spark-examples_2.11-2.2.0.jar \ 10其他参数示例:
master spark://node01:7077 指定 Master 的地址name “appName” 指定程序运行的名称class 程序的main方法所在的类jars xx.jar 程序额外使用的 jar 包driver-memory 512m Driver运行所需要的内存, 默认1gexecutor-memory 2g 指定每个 executor 可用内存为 2g, 默认1gexecutor-cores 1 指定每一个 executor 可用的核数total-executor-cores 2 指定整个集群运行任务使用的 cup 核数为 2 个queue default 指定任务的对列deploy-mode 指定运行模式(client/cluster)注意: 如果 worker 节点的内存不足,那么在启动 spark-submit的时候,就不能为 executor分配超出 worker 可用的内存容量。 如果–executor-cores超过了每个 worker 可用的 cores,任务处于等待状态。 如果–total-executor-cores即使超过可用的 cores,默认使用所有的。以后当集群其他的资源释放之后,就会被该程序所使用。 如果内存或单个 executor 的 cores 不足,启动 spark-submit 就会报错,任务处于等待状态,不能正常执行。