Hadoop简介

it2023-08-31  66

Hadoop是什么

Hadoop是Apache开发的分布式系统框架。

Hadoop主要用来解决海量数据的存储与计算。

广义上,Hadoop是指一个生态圈,还包括许多其他组件,如Hive,HBase,Spark等。


Hadoop的组成

MapReduce:分布式计算框架

Map:任务分开处理。

Reduce:结果汇总。

 

Yarn:资源调度

ResourceManager(RM):管理整个集群资源。

NodeManager(NM):管理单个节点资源。

AppMaster:向RM申请Container,以及告知Container具体任务。

Container:资源的抽象,Container中运行具体任务。

 

HDFS:分布式存储文件系统

NamNode(NN):存储元数据

DataNode(DN):存储数据

SecondaryNameNode(2NN):每隔一段时间对NameNode元数据备份

Common:辅助工具

 

 

最新回复(0)