数据仓库ETL的两个设计主线
前言
数据仓库ETL有两个设计主线, 其一为规划与设计主线, 其二为数据主线.
规划&设计主线
规划与设计分为四步骤:需求/现状 -> 架构 -> 实现 -> 测试/发布. 每个步骤又有相应的具体问题考虑.
*** 需求与现状 ***
- 业务需求
- 数据评估和数据源现状
- 监察需求
- 安全需求
- 数据集成
- 数据延迟
- 归档和沿袭
- 最终用户提交界面
- 可用的开发技能
- 可用的管理技能
- 已有的许可证
*** 架构 ***
- 手工编码还是使用ETL工具
- 批处理还是流数据处理
- 水平任务依赖还是垂直任务依赖
- 自动调度
- 异常处理
- 质量控制
- 恢复与重启
- 元数据
- 安全
*** 实现 ***
- 硬件
- 软件
- 编码
- 文档
- 特定质量检查
*** 测试/发布 ***
- 开发系统
- 测试系统
- 生产系统
- 提交过程
- 升级方案
- 系统快照和回滚过程
- 性能调优
数据主线
数据流:抽取 -> 清洗 -> 规格化 -> 提交. 每个数据流步骤都可以用运行步骤来监控:
- 调度
- 作业执行
- 异常处理
- 恢复和重启
- 质量检查
- 发布
- 支持
*** 抽取 ***
- 读取源数据模型
- 连接并访问数据
- 调度源系统,截取通知和后台程序
- 捕获变化数据
- 将抽取的数据集结到磁盘
*** 清洗 ***
- 强制列属性
- 强制结构
- 强制数据和数值规则
- 强制复杂业务规则
- 创建元数据来描述数据质量
- 将清洗后的数据集结到磁盘
*** 规格化 ***
- 业务标志(在维表中)的规格化
- 业务度量和绩效指标(在事实表中)的规格化
- 复制
- 家庭关联信息的规格化(Householding)
- 国际化
- 将规格化的数据集结到磁盘
*** 提交 ***
- 加载平面型和雪花型维度
- 生成时间维度
- 加载退化维度
- 加载子维度
- 加载缓慢变化维(包括类型 1、 2、 3)
- 规格化维和规格化事实
- 处理迟到维和迟到事实
- 加载多值维
- 加载ragged层次维
- 加载维中的文本型事实
- 为事实表运行代理健pipeline
- 加载三种基础事实表粒度
- 加载和更新聚合表
- 将提交数据集结到磁盘
- Post title:数据仓库ETL的两个设计主线
- Post author:Kopei
- Create time:2020-11-22 00:00:00
- Post link:https://kopei.github.io/2020/11/21/data-warehouse-2020-11-22-etl-toolkit/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
Comments