scala语言网上自行学习
spark生态圈
其实Hadoop生态圈差不多,只不过Hadoop计算是交给yarn进行。而sql语句是有hive来完成,storm来完成流式计算。而spark把这些东西都集成到一起,用起来很方便。
一、什么是Spark?特点
(1)spark就是为大规模的数据处理过程的一个统一的数据分析引擎。 (2)特点: 1、快:基于内存,同时提供容错机制 2、兼容HDFS、兼容Yarn 3、易用:支持多种编程语言:Scala、Java、Python、R 4、部署在不同平台上:Standalone、Yarn、容器Docker(k8s) 5、通用性:完备的生态圈系统
二、Spark的体系架构:主从架构