电商数据仓库—用户行为数仓

it2023-07-28  69

电商数据仓库—用户行为数仓

数仓分层概念

为什么数仓分层?(优点) 把复杂问题简单化,方便定位问题 减少重复开发,通过中间数据层可以增加一次计算的复用性 隔离原始数据,使真实数据和统计数据解耦开 分为那几层?具体作用是什么? ODS:原始数据层,主要存储最原始采集来的数据 DWD:数据清洗层,对ODS层的数据进行清洗,去空值,去异常值,去重复值 DWS:服务数据层,对DWD层的数据进行一个轻度的汇总,主要以明细为主 ADS:数据应用层,对DWS层的数据进行一个明确的统计,为各种统计报表提供数据

数仓搭建详情

搭建ODS

搭建DWD

自定义UDF和UDTF来搭建基础事务表(DWD)

自定义UDF和UDTF分别继承UDF和GenericUDTF UDF中重写evaluate方法 UDTF中主要重写process方法

自定义UDF和UDTF的作用

hive中的已有的函数不能满足业务需求,需要自定义

自定义UDF和UDTF分别处理什么问题

用UDF函数解析公共字段;用UDTF函数解析事件字段。

各个业务术语和指标的理解及做法

最新回复(0)