数据仓库(Data Warehouse) ,是为企业指定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。
数据仓库的数据怎么来 ?
爬虫数据
重点: 爬虫不要操作过度 否则就面向 jy 编程了
用户行为数据
用户来到网站,跟网站或者客户端进行一个交互,所产生的数据。
存储在 日志服务器
以文件形式存储
业务数据
存储在 mysql 数据库
处理用户行为数据,日志文件数据
Flume
实时采集日志文件,将它上传到数据仓库中
处理业务数据
Sqoop
每天凌晨定时任务:例如20200619的数据 可以统计 20200618 的数据 (T+1模式 统计前一天数据)
ODS 层
为防止数据丢失或者损坏,我们将数据原封不动备份 存储 在 ODS 层 ,以保证数据 安全完整性
DWD 层
为防止数据 核心字段不完整,数据重复,数据过期,在DWD 进行数据清洗。
数据建模,维度规划