电商数据仓库—数据采集平台搭建
数据仓库的概念
什么是数据仓库
数据仓库就是为企业所有的决策制定过程,提供所有系统数据支持的战略集合。
数据仓库的目的
建立数据仓库并不是数据的最终目的,而是为了数据的最终目的做好准备。(比如数据清洗、拆分、统计等等)
数据仓库的作用
通过对数据仓库中的数据进行分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。
数据仓库的数据来源
主要是三大来源:
1.日志采集系统
2.业务系统数据库
3.爬虫系统(还有第三方接口)
项目需求分析
搭建数据采集平台
用户行为数据仓库的分层搭建
业务数据仓库的分层搭建
针对数据仓库中的数据进行分析统计,然后生成报表
项目集群机器的部署(以10台为例)
hadoop集群:使用HDFS-HA模式,2台NameNode,10台DataNode,1台ResourceManager,10台NodeManager
Zookeeper集群:安装9台,1个Leader,8个Follower
Flume:安装在你需要采集数据的机器上
KafKa集群:安装10台
Hive:随机安装一台机器上
Mysql:随机安装一台机器上</