描述: 在三个节点搭建分布式集群,主机名分别为:CAD01-ubuntu、CAD02-ubuntu、CAD03-ubuntu(其中CAD01-ubuntu为主节点、其他两个为从节点) 实验环境: 服务器节点数量:3 系统版本:Linux Java版本:jdk-8u261-linux-x64 Hadoop版本:hadoop-2.7.6 Spark版本:spark-2.3.0-bin-hadoop2.7
1、编辑主机名文件(此步骤不是必须,需要root权限,三台机器) vim /etc/hostname(打开该文件后,输入新改主机名、退出) hostname 主机名(临时主机名) bash(使上一步操作生效) hostname(查看是否修改成功) 2、配置自动时钟同步(需要root权限,三台机器) crontab -e 0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org(编辑模式) 3、关闭防火墙(需要root权限,三台机器) systemctl status firewalld.service(查看防火墙的状态) 如上图所示,防火墙处于关闭状态(dead),若没有关闭,则: systemctl stop firewalld.service(临时关闭防火墙) systemctl disable firewalld.service(禁止开机启动防火墙) 4、配置hosts列表(使用root权限,三台机器) vim /etc/hosts 如上图所示,对应(IP号 主机名),若不知道IP号,可以用ifconfig命令查看。 ping CAD01-ubuntu -c 3(配置完后,看一下是否能ping通服务器) ping CAD02-ubuntu -c 3 ping CAD03-ubuntu -c 3 5、免密登陆(普通用户)
主节点 从节点 验证免密登陆(不需要输入密码,则成功) 退出登录 6、安装java(三台机器)
1、主节点(普通用户下) tar -xzvf /home/gxx/tgz/hadoop-2.7.6.tar.gz –C /home/gxx(Hadoop压缩包解压到/home/gxx目录下) 2.1.1 配置/home/gxx/hadoop-2.7.6/etc/hadoop/hadoop-env.sh和/home/gxx/hadoop-2.7.6/etc/hadoop/yarn-env.sh export JAVA_HOME=/home/gxx/usr/java/jdk1.8.0_131/(两个配置文件都配置java环境变量) 2.1.2 配置core-site.xml 文件( ~/hadoop-2.7.6/etc/hadoop/core-site.xml) 2.1.3 配置hdfs-site.xml文件(~/hadoop-2.7.3/etc/hadoop/hdfs-site.xml) 2.1.4 配置yarn-site.xml文件(~/hadoop-2.7.3/etc/hadoop/yarn-site.xml):注意:若主机名不是CAD01-ubuntu请自行修改 2.1.5 配置mapred-site.xml文件 cp ~/hadoop-2.7.6/etc/hadoop/mapred-site.xml.template ~/hadoop-2.7.6/etc/hadoop/mapred-site.xml(复制mapred-site-template.xml文件) 修改mapred-site.xml文件 2.1.6 配置slaves文件(~/hadoop-2.7.3/etc/hadoop/slaves) CAD02-ubuntu CAD03-ubuntu 2.1.7 创建Hadoop数据目录 mkdir /home/gxx/hadoopdata 2、从节点 将配置好的hadoop文件夹复制到从节点 scp -r hadoop-2.7.6 gxx@CAD02-ubuntu:~/ scp -r hadoop-2.7.6 gxx@CAD03-ubuntu:~/ 3、配置Hadoop环境变量(三台节点,普通用户) vim ~/.bashrc(编辑本地环境变量,如下两行) #HADOOP (保存退出:wq) source ~/.bashrc(使环境变量生效) 4、格式化Hadoop文件目录(在master上执行) hdfs namenode -format 5、启动Hadoop集群(在master上执行) 运行start-all.sh命令 说明:格式化后首次执行此命令,提示输入yes/no时,输入yes。 6、验证是否开启成功 6.1 主节点和从节点输入jps分别为: 6.2 Web UI查看集群是否成功启动 在主节点上打开Firefox浏览器,在浏览器地址栏中输入http://CAD01-ubuntu:50070/,检查namenode 和 datanode 是否正常,如下图所示。 6.3 运行PI实例检查集群是否成功 hadoop jar ~/hadoop-2.7.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar pi 10 10 (出结果,不报错,证明已经成功)
tar -xzvf /home/gxx/tgz/spark-2.3.0-bin-hadoop2.7.tgz -C /home/gxx
vim /home/gxx/.bashrc source /home/gxx/.bashrc(使本地环境变量生效) 3、开启Hadoop集群 证明开启成功方式如第一部分5所示 4、验证Spark on Yarn安装部署是否生效 4.1 运行PI案例 /home/gxx/spark-2.3.0-bin-hadoop2.7/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 3 --driver-memory 1g --executor-memory 1g --executor-cores 1 examples/jars/spark-examples_2.11-2.3.0.jar 10 如果出现运行结果:PI值 4.2 访问web ui 浏览器中访问http://CAD01-ubuntu:8088 至此spark on yarn模式安装及验证完成