数仓概述

it2024-01-17  62

数据仓库(Data Warehouse) ,是为企业指定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。

数据仓库的数据怎么来 ?

爬虫数据

 重点: 爬虫不要操作过度  否则就面向 jy 编程了

用户行为数据

用户来到网站,跟网站或者客户端进行一个交互,所产生的数据。 存储在 日志服务器 以文件形式存储

业务数据

存储在  mysql 数据库

处理用户行为数据,日志文件数据

Flume 

实时采集日志文件,将它上传到数据仓库中

处理业务数据

Sqoop

每天凌晨定时任务:例如20200619的数据 可以统计 20200618 的数据 (T+1模式 统计前一天数据)

ODS 层

为防止数据丢失或者损坏,我们将数据原封不动备份 存储 在 ODS 层 ,以保证数据 安全完整性

DWD 层

为防止数据 核心字段不完整,数据重复,数据过期,在DWD 进行数据清洗。 数据建模,维度规划
最新回复(0)