Data Quality Overview

The importance of data quality
数据质量对于数据报表至关重要, 数据的准确性(Accuracy
), 完整性(Completeness
), 一致性(Consistency
), 精确性(Precision
)和时效性(timeliness
)这几个指标是评价数据质量的核心指标. 数据没有质量我们将构建数据仓库的意义将不复存在, 没有人相信一个数据不正确的数据仓库.
Data cleaning & matching
数据清洗用于处理脏数据, 同时也用于识别相同的数据, 一般用到三种逻辑:
- exact
- fuzzy
- rule-based, 包括
incoming data, cross-reference, and internal rules
Action to violated data
当一个数据违反数据规则时, 我们有多种处理方案:
- 拒绝数据进入仓库
- 允许数据进入仓库
- 修正数据
DQ process
数据质量的控制一般分为三步:
- 检查,
- 报告,
- 修正.
如下图所示是一般的DQ流程.
- Title: Data Quality Overview
- Author: Kopei
- Created at : 2021-06-19 00:00:00
- Updated at : 2021-07-12 00:00:00
- Link: https://kopei.github.io/2021/06/18/data-warehouse-2021-06-19-Data-Quality/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments