spark on yarn集群搭建

it2023-10-24 83

前言

描述：在三个节点搭建分布式集群，主机名分别为：CAD01-ubuntu、CAD02-ubuntu、CAD03-ubuntu（其中CAD01-ubuntu为主节点、其他两个为从节点）实验环境：服务器节点数量：3 系统版本：Linux Java版本：jdk-8u261-linux-x64 Hadoop版本：hadoop-2.7.6 Spark版本：spark-2.3.0-bin-hadoop2.7

一、Hadoop搭建-准备工作

1、编辑主机名文件（此步骤不是必须，需要root权限，三台机器） vim /etc/hostname（打开该文件后，输入新改主机名、退出） hostname 主机名（临时主机名） bash（使上一步操作生效） hostname（查看是否修改成功） 2、配置自动时钟同步（需要root权限，三台机器） crontab -e 0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org（编辑模式） 3、关闭防火墙（需要root权限，三台机器） systemctl status firewalld.service（查看防火墙的状态）如上图所示，防火墙处于关闭状态（dead），若没有关闭，则： systemctl stop firewalld.service（临时关闭防火墙） systemctl disable firewalld.service（禁止开机启动防火墙） 4、配置hosts列表（使用root权限，三台机器） vim /etc/hosts 如上图所示，对应（IP号主机名），若不知道IP号，可以用ifconfig命令查看。 ping CAD01-ubuntu -c 3（配置完后，看一下是否能ping通服务器） ping CAD02-ubuntu -c 3 ping CAD03-ubuntu -c 3 5、免密登陆（普通用户）

主节点从节点验证免密登陆（不需要输入密码，则成功）退出登录 6、安装java（三台机器）

二、Hadoop搭建-安装部署Hadoop集群

1、主节点（普通用户下） tar -xzvf /home/gxx/tgz/hadoop-2.7.6.tar.gz –C /home/gxx(Hadoop压缩包解压到/home/gxx目录下) 2.1.1 配置/home/gxx/hadoop-2.7.6/etc/hadoop/hadoop-env.sh和/home/gxx/hadoop-2.7.6/etc/hadoop/yarn-env.sh export JAVA_HOME=/home/gxx/usr/java/jdk1.8.0_131/(两个配置文件都配置java环境变量) 2.1.2 配置core-site.xml 文件（ ~/hadoop-2.7.6/etc/hadoop/core-site.xml） 2.1.3 配置hdfs-site.xml文件（~/hadoop-2.7.3/etc/hadoop/hdfs-site.xml） 2.1.4 配置yarn-site.xml文件（~/hadoop-2.7.3/etc/hadoop/yarn-site.xml）：注意：若主机名不是CAD01-ubuntu请自行修改 2.1.5 配置mapred-site.xml文件 cp ~/hadoop-2.7.6/etc/hadoop/mapred-site.xml.template ~/hadoop-2.7.6/etc/hadoop/mapred-site.xml（复制mapred-site-template.xml文件）修改mapred-site.xml文件 2.1.6 配置slaves文件（~/hadoop-2.7.3/etc/hadoop/slaves） CAD02-ubuntu CAD03-ubuntu 2.1.7 创建Hadoop数据目录 mkdir /home/gxx/hadoopdata 2、从节点将配置好的hadoop文件夹复制到从节点 scp -r hadoop-2.7.6 gxx@CAD02-ubuntu:~/ scp -r hadoop-2.7.6 gxx@CAD03-ubuntu:~/ 3、配置Hadoop环境变量（三台节点，普通用户） vim ~/.bashrc（编辑本地环境变量，如下两行） #HADOOP （保存退出：wq） source ~/.bashrc(使环境变量生效) 4、格式化Hadoop文件目录（在master上执行） hdfs namenode -format 5、启动Hadoop集群（在master上执行）运行start-all.sh命令说明：格式化后首次执行此命令，提示输入yes/no时，输入yes。 6、验证是否开启成功 6.1 主节点和从节点输入jps分别为： 6.2 Web UI查看集群是否成功启动在主节点上打开Firefox浏览器，在浏览器地址栏中输入http://CAD01-ubuntu:50070/，检查namenode 和 datanode 是否正常，如下图所示。 6.3 运行PI实例检查集群是否成功 hadoop jar ~/hadoop-2.7.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar pi 10 10 （出结果，不报错，证明已经成功）

二、spark on yarn

1.在主节点上解压spark压缩包（普通用户）

tar -xzvf /home/gxx/tgz/spark-2.3.0-bin-hadoop2.7.tgz -C /home/gxx

2、配置本地环境变量（普通用户）

vim /home/gxx/.bashrc source /home/gxx/.bashrc(使本地环境变量生效) 3、开启Hadoop集群证明开启成功方式如第一部分5所示 4、验证Spark on Yarn安装部署是否生效 4.1 运行PI案例 /home/gxx/spark-2.3.0-bin-hadoop2.7/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 3 --driver-memory 1g --executor-memory 1g --executor-cores 1 examples/jars/spark-examples_2.11-2.3.0.jar 10 如果出现运行结果：PI值 4.2 访问web ui 浏览器中访问http://CAD01-ubuntu:8088 至此spark on yarn模式安装及验证完成

最新回复(0)