电商数据仓库—用户行为数仓
数仓分层概念
为什么数仓分层?(优点)
把复杂问题简单化,方便定位问题
减少重复开发,通过中间数据层可以增加一次计算的复用性
隔离原始数据,使真实数据和统计数据解耦开
分为那几层?具体作用是什么?
ODS:原始数据层,主要存储最原始采集来的数据
DWD:数据清洗层,对ODS层的数据进行清洗,去空值,去异常值,去重复值
DWS:服务数据层,对DWD层的数据进行一个轻度的汇总,主要以明细为主
ADS:数据应用层,对DWS层的数据进行一个明确的统计,为各种统计报表提供数据
数仓搭建详情
搭建ODS
搭建DWD
自定义UDF和UDTF来搭建基础事务表(DWD)
自定义UDF和UDTF分别继承UDF和GenericUDTF
UDF中重写evaluate方法
UDTF中主要重写process方法
自定义UDF和UDTF的作用
hive中的已有的函数不能满足业务需求,需要自定义
自定义UDF和UDTF分别处理什么问题
用UDF函数解析公共字段;用UDTF函数解析事件字段。
各个业务术语和指标的理解及做法