电商数据仓库—数据采集平台搭建

it2023-07-25  67

电商数据仓库—数据采集平台搭建

数据仓库的概念

什么是数据仓库

数据仓库就是为企业所有的决策制定过程,提供所有系统数据支持的战略集合。

数据仓库的目的

建立数据仓库并不是数据的最终目的,而是为了数据的最终目的做好准备。(比如数据清洗、拆分、统计等等)

数据仓库的作用

通过对数据仓库中的数据进行分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。

数据仓库的数据来源

主要是三大来源:

​ 1.日志采集系统

​ 2.业务系统数据库

​ 3.爬虫系统(还有第三方接口)

项目需求分析

搭建数据采集平台 用户行为数据仓库的分层搭建 业务数据仓库的分层搭建 针对数据仓库中的数据进行分析统计,然后生成报表

项目集群机器的部署(以10台为例)

hadoop集群:使用HDFS-HA模式,2台NameNode,10台DataNode,1台ResourceManager,10台NodeManager Zookeeper集群:安装9台,1个Leader,8个Follower Flume:安装在你需要采集数据的机器上 KafKa集群:安装10台 Hive:随机安装一台机器上 Mysql:随机安装一台机器上</
最新回复(0)