数据仓库ETL的两个设计主线

Kopei article

前言

数据仓库ETL有两个设计主线, 其一为规划与设计主线, 其二为数据主线.

规划&设计主线

规划与设计分为四步骤:需求/现状 -> 架构 -> 实现 -> 测试/发布. 每个步骤又有相应的具体问题考虑.

*** 需求与现状 ***

  • 业务需求
  • 数据评估和数据源现状
  • 监察需求
  • 安全需求
  • 数据集成
  • 数据延迟
  • 归档和沿袭
  • 最终用户提交界面
  • 可用的开发技能
  • 可用的管理技能
  • 已有的许可证

*** 架构 ***

  • 手工编码还是使用ETL工具
  • 批处理还是流数据处理
  • 水平任务依赖还是垂直任务依赖
  • 自动调度
  • 异常处理
  • 质量控制
  • 恢复与重启
  • 元数据
  • 安全

*** 实现 ***

  • 硬件
  • 软件
  • 编码
  • 文档
  • 特定质量检查

*** 测试/发布 ***

  • 开发系统
  • 测试系统
  • 生产系统
  • 提交过程
  • 升级方案
  • 系统快照和回滚过程
  • 性能调优

数据主线

数据流:抽取 -> 清洗 -> 规格化 -> 提交. 每个数据流步骤都可以用运行步骤来监控:

  • 调度
  • 作业执行
  • 异常处理
  • 恢复和重启
  • 质量检查
  • 发布
  • 支持

*** 抽取 ***

  • 读取源数据模型
  • 连接并访问数据
  • 调度源系统,截取通知和后台程序
  • 捕获变化数据
  • 将抽取的数据集结到磁盘

*** 清洗 ***

  • 强制列属性
  • 强制结构
  • 强制数据和数值规则
  • 强制复杂业务规则
  • 创建元数据来描述数据质量
  • 将清洗后的数据集结到磁盘

*** 规格化 ***

  • 业务标志(在维表中)的规格化
  • 业务度量和绩效指标(在事实表中)的规格化
  • 复制
  • 家庭关联信息的规格化(Householding)
  • 国际化
  • 将规格化的数据集结到磁盘

*** 提交 ***

  • 加载平面型和雪花型维度
  • 生成时间维度
  • 加载退化维度
  • 加载子维度
  • 加载缓慢变化维(包括类型 1、 2、 3)
  • 规格化维和规格化事实
  • 处理迟到维和迟到事实
  • 加载多值维
  • 加载ragged层次维
  • 加载维中的文本型事实
  • 为事实表运行代理健pipeline
  • 加载三种基础事实表粒度
  • 加载和更新聚合表
  • 将提交数据集结到磁盘
  • Post title:数据仓库ETL的两个设计主线
  • Post author:Kopei
  • Create time:2020-11-22 00:00:00
  • Post link:https://kopei.github.io/2020/11/21/data-warehouse-2020-11-22-etl-toolkit/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
 Comments
On this page
数据仓库ETL的两个设计主线