Hadoop是什么
Hadoop是Apache开发的分布式系统框架。
Hadoop主要用来解决海量数据的存储与计算。
广义上,Hadoop是指一个生态圈,还包括许多其他组件,如Hive,HBase,Spark等。
Hadoop的组成
MapReduce:分布式计算框架
Map:任务分开处理。
Reduce:结果汇总。
Yarn:资源调度
ResourceManager(RM):管理整个集群资源。
NodeManager(NM):管理单个节点资源。
AppMaster:向RM申请Container,以及告知Container具体任务。
Container:资源的抽象,Container中运行具体任务。
HDFS:分布式存储文件系统
NamNode(NN):存储元数据
DataNode(DN):存储数据
SecondaryNameNode(2NN):每隔一段时间对NameNode元数据备份
Common:辅助工具