Data Quality Overview
The importance of data quality
数据质量对于数据报表至关重要, 数据的准确性(Accuracy), 完整性(Completeness), 一致性(Consistency), 精确性(Precision)和时效性(timeliness)这几个指标是评价数据质量的核心指标. 数据没有质量我们将构建数据仓库的意义将不复存在, 没有人相信一个数据不正确的数据仓库.
Data cleaning & matching
数据清洗用于处理脏数据, 同时也用于识别相同的数据, 一般用到三种逻辑:
- exact
 - fuzzy
 - rule-based, 包括
incoming data, cross-reference, and internal rules 
Action to violated data
当一个数据违反数据规则时, 我们有多种处理方案:
- 拒绝数据进入仓库
 - 允许数据进入仓库
 - 修正数据
 
DQ process
数据质量的控制一般分为三步:
- 检查,
 - 报告,
 - 修正.
 
如下图所示是一般的DQ流程.
- Title: Data Quality Overview
 - Author: Kopei
 - Created at : 2021-06-19 00:00:00
 - Updated at : 2021-07-12 00:00:00
 - Link: https://kopei.github.io/2021/06/18/data-warehouse-2021-06-19-Data-Quality/
 - License: This work is licensed under CC BY-NC-SA 4.0.
 
        Comments