Metadata in Data Warehouse

Kopei article

What is metadata?

Metadata元数据是描述数据的数据。举个例子,一是原始单反拍摄的照片一般是RAW格式,这个格式的文件会附带一些属性信息,如Etag, 描述照片拍摄的时间,拍摄的相机,曝光ISO, 分辨率等等信息,
这些信息就是照片的元数据。

Why do we need metadata?

为什么需要元数据, 主要为了向用户解释数据和数据仓库, 让用户更好地理解数据仓库.

Metadata in data warehouse

在数据仓库中存在7种元数据:

  • 数据结构元数据,描述每张表的表结构. 描述NDS, DDS, ODS和staging库中所有表结构, 包括collation(字符序). 这些信息大部分可以通过object catalog view拿到, 但是ETL元数据, DQ元数据, 数据定义元数据也需要结构信息, 所以我们需要单独创建这个库.
  • 数据定义和数据映射元数据,分别描述事实表和维度表的字段意义和来源。为了避免混淆和误解, 必须有一个清晰, 全公司都能理解的字段定义. 数据映射元数据有时候也叫数据血缘(data linage metadata), 数据血缘可以用于数据影响性分析。
  • 数据源的元数据,描述原始数据库表结构和字段意义. 具体包含数据类型, 字符序, 主键, 外键, 视图, 索引和分区.
  • ETL元数据,描述每个ETL流程中的每个数据流. 描述数据的流向, 所经过的转换, 父流程和定时任务.
  • 数据质量元数据,描述数据质量规则,对应的风险和措施.
  • 审计元数据,包含了所有数据仓库中的流程和活动.
  • 用量(Usage metadata)元数据,描述数据仓库的使用情况.
  • Post title:Metadata in Data Warehouse
  • Post author:Kopei
  • Create time:2021-07-13 00:00:00
  • Post link:https://kopei.github.io/2021/07/12/data-warehouse-2021-07-04-metadata-database/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
 Comments