本文介绍了数仓建模求职学习资料,有助于帮助完成毕业设计以及求职,是一篇很好的资料。
对技术面试,学习经验等有一些体会,在此分享。
(不定期更新,只是个人感受和体会)
数仓总结:
ods 1、数据格式、类型、长度 2、数据源,kafka、mysql
dwb 1、异常值 2、空值、null
dws 1、粒度处理 2、指标逻辑 3、异常数据过滤
rpt 数据价值的体现
dim 维表设计
数据传输:类型、长度
元数据管理
1、相同含义字段在各层级各表中的字段名、类型需要尽量保持一致
2、码表:枚举值,增加之后一定要修改comment
3、表的存储格式,数据模型区一律存储成 orc 格式,DM&ST层可根据具体需要统一成parquet
4、生命周期(时效性):对数据生命周期不同阶段的管理,不仅可以控制数据的野蛮生长,还可以提高数据的存取效率。
* 冷、热数据
* 备份
5、维度:维度树,字段类型,计算逻辑
6、指标:
* 派生指标 = 原子指标+时间周期+修饰词,
比如:
最近7天订单下单折扣金额ordr_crt_disc_amt_1w = 订单下单折扣金额ordr_crt_disc_amt + _1w
业务过程 订单下单ordr_crt
类型 bigint
单位 分
* 口径统一,比如uv:count(distinct uid) where uid>0
DQC
唯一性、一致性、准确性、准确性、规范性
(不定期更新,只是个人感受和体会)
数仓总结:
ods 1、数据格式、类型、长度 2、数据源,kafka、mysql
dwb 1、异常值 2、空值、null
dws 1、粒度处理 2、指标逻辑 3、异常数据过滤
rpt 数据价值的体现
dim 维表设计
数据传输:类型、长度
元数据管理
1、相同含义字段在各层级各表中的字段名、类型需要尽量保持一致
2、码表:枚举值,增加之后一定要修改comment
3、表的存储格式,数据模型区一律存储成 orc 格式,DM&ST层可根据具体需要统一成parquet
4、生命周期(时效性):对数据生命周期不同阶段的管理,不仅可以控制数据的野蛮生长,还可以提高数据的存取效率。
* 冷、热数据
* 备份
5、维度:维度树,字段类型,计算逻辑
6、指标:
* 派生指标 = 原子指标+时间周期+修饰词,
比如:
最近7天订单下单折扣金额ordr_crt_disc_amt_1w = 订单下单折扣金额ordr_crt_disc_amt + _1w
业务过程 订单下单ordr_crt
类型 bigint
单位 分
* 口径统一,比如uv:count(distinct uid) where uid>0
DQC
唯一性、一致性、准确性、准确性、规范性
(不定期更新,只是个人感受和体会)
数仓总结:
ods 1、数据格式、类型、长度 2、数据源,kafka、mysql
dwb 1、异常值 2、空值、null
dws 1、粒度处理 2、指标逻辑 3、异常数据过滤
rpt 数据价值的体现
dim 维表设计
数据传输:类型、长度
元数据管理
1、相同含义字段在各层级各表中的字段名、类型需要尽量保持一致
2、码表:枚举值,增加之后一定要修改comment
3、表的存储格式,数据模型区一律存储成 orc 格式,DM&ST层可根据具体需要统一成parquet
4、生命周期(时效性):对数据生命周期不同阶段的管理,不仅可以控制数据的野蛮生长,还可以提高数据的存取效率。
* 冷、热数据
* 备份
5、维度:维度树,字段类型,计算逻辑
6、指标:
* 派生指标 = 原子指标+时间周期+修饰词,
比如:
最近7天订单下单折扣金额ordr_crt_disc_amt_1w = 订单下单折扣金额ordr_crt_disc_amt + _1w
业务过程 订单下单ordr_crt
类型 bigint
单位 分
* 口径统一,比如uv:count(distinct uid) where uid>0
DQC
唯一性、一致性、准确性、准确性、规范性
部分转自互联网,侵权删除联系
最新评论