HA(高可用)是Hadoop2.0之后引进的新特性,解决NN的备份问题。Hadoop2.0只支持2个NN,Hadoop3.0后支持多个NN。
HA的架构
1)有多台NN,只有一台工作(Active),其余备份(Standby)。
2)Standby的NN干的活和2NN类似,但是2NN缺少最新的日志无法完成最新的镜像,因此Active的NN把日志文件统一上传到QJM集群(一个高可靠的集群,类似于Zookeeper)。
3)Zookeeper集群监听NN是否挂了,HDFS提供zkfc来和Zookeeper集群打交道。