区块链技术博客
www.b2bchain.cn

数仓建模求职学习资料

本文介绍了数仓建模求职学习资料,有助于帮助完成毕业设计以及求职,是一篇很好的资料。

对技术面试,学习经验等有一些体会,在此分享。

(不定期更新,只是个人感受和体会)
数仓总结:
ods 1、数据格式、类型、长度 2、数据源,kafka、mysql
dwb 1、异常值 2、空值、null
dws 1、粒度处理 2、指标逻辑 3、异常数据过滤
rpt 数据价值的体现

dim 维表设计

数据传输:类型、长度

元数据管理
1、相同含义字段在各层级各表中的字段名、类型需要尽量保持一致
2、码表:枚举值,增加之后一定要修改comment
3、表的存储格式,数据模型区一律存储成 orc 格式,DM&ST层可根据具体需要统一成parquet
4、生命周期(时效性):对数据生命周期不同阶段的管理,不仅可以控制数据的野蛮生长,还可以提高数据的存取效率。
* 冷、热数据
* 备份
5、维度:维度树,字段类型,计算逻辑
6、指标:
* 派生指标 = 原子指标+时间周期+修饰词,
比如:

最近7天订单下单折扣金额ordr_crt_disc_amt_1w = 订单下单折扣金额ordr_crt_disc_amt + _1w
业务过程 订单下单ordr_crt

类型 bigint
单位 分
* 口径统一,比如uv:count(distinct uid) where uid>0

DQC
唯一性、一致性、准确性、准确性、规范性

(不定期更新,只是个人感受和体会)
数仓总结:
ods 1、数据格式、类型、长度 2、数据源,kafka、mysql
dwb 1、异常值 2、空值、null
dws 1、粒度处理 2、指标逻辑 3、异常数据过滤
rpt 数据价值的体现

dim 维表设计

数据传输:类型、长度

元数据管理
1、相同含义字段在各层级各表中的字段名、类型需要尽量保持一致
2、码表:枚举值,增加之后一定要修改comment
3、表的存储格式,数据模型区一律存储成 orc 格式,DM&ST层可根据具体需要统一成parquet
4、生命周期(时效性):对数据生命周期不同阶段的管理,不仅可以控制数据的野蛮生长,还可以提高数据的存取效率。
* 冷、热数据
* 备份
5、维度:维度树,字段类型,计算逻辑
6、指标:
* 派生指标 = 原子指标+时间周期+修饰词,
比如:

最近7天订单下单折扣金额ordr_crt_disc_amt_1w = 订单下单折扣金额ordr_crt_disc_amt + _1w
业务过程 订单下单ordr_crt

类型 bigint
单位 分
* 口径统一,比如uv:count(distinct uid) where uid>0

DQC
唯一性、一致性、准确性、准确性、规范性

(不定期更新,只是个人感受和体会)
数仓总结:
ods 1、数据格式、类型、长度 2、数据源,kafka、mysql
dwb 1、异常值 2、空值、null
dws 1、粒度处理 2、指标逻辑 3、异常数据过滤
rpt 数据价值的体现

dim 维表设计

数据传输:类型、长度

元数据管理
1、相同含义字段在各层级各表中的字段名、类型需要尽量保持一致
2、码表:枚举值,增加之后一定要修改comment
3、表的存储格式,数据模型区一律存储成 orc 格式,DM&ST层可根据具体需要统一成parquet
4、生命周期(时效性):对数据生命周期不同阶段的管理,不仅可以控制数据的野蛮生长,还可以提高数据的存取效率。
* 冷、热数据
* 备份
5、维度:维度树,字段类型,计算逻辑
6、指标:
* 派生指标 = 原子指标+时间周期+修饰词,
比如:

最近7天订单下单折扣金额ordr_crt_disc_amt_1w = 订单下单折扣金额ordr_crt_disc_amt + _1w
业务过程 订单下单ordr_crt

类型 bigint
单位 分
* 口径统一,比如uv:count(distinct uid) where uid>0

DQC
唯一性、一致性、准确性、准确性、规范性

部分转自互联网,侵权删除联系

赞(0) 打赏
部分文章转自网络,侵权联系删除b2bchain区块链学习技术社区 » 数仓建模求职学习资料
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

b2b链

联系我们联系我们