Data Quality Overview

Kopei article

The importance of data quality

数据质量对于数据报表至关重要, 数据的准确性(Accuracy), 完整性(Completeness), 一致性(Consistency), 精确性(Precision)和时效性(timeliness)这几个指标是评价数据质量的核心指标. 数据没有质量我们将构建数据仓库的意义将不复存在, 没有人相信一个数据不正确的数据仓库.

Data cleaning & matching

数据清洗用于处理脏数据, 同时也用于识别相同的数据, 一般用到三种逻辑:

  • exact
  • fuzzy
  • rule-based, 包括incoming data, cross-reference, and internal rules

Action to violated data

当一个数据违反数据规则时, 我们有多种处理方案:

  • 拒绝数据进入仓库
  • 允许数据进入仓库
  • 修正数据

DQ process

数据质量的控制一般分为三步:

  • 检查,
  • 报告,
  • 修正.

如下图所示是一般的DQ流程.

  • Post title:Data Quality Overview
  • Post author:Kopei
  • Create time:2021-06-19 00:00:00
  • Post link:https://kopei.github.io/2021/06/18/data-warehouse-2021-06-19-Data-Quality/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
 Comments