MapReduce是一个分布式计算框架。
1)InputFormat
切片
生成键值对
2)Map
根据业务逻辑并行处理数据
3)Shuffle
排序与分组
4)Reduce
根据业务逻辑对各个Map数据的汇总
5)OutputFormat
把键值对输出到文件