企业级主数据治理框架

Kopei article

1. Introduction 介绍

1.1 什么是主数据?

主数据是以与业务活动相关的通用和抽象概念形式提供业务活动语境的数据,包括业务活动中涉及内部和外部对象的详细信息(定义与标识符)。一般主数据使用业务实体来表示,如客户、产品、雇员、供应商等数据,实体是客观世界的对象(人、组织、地方或事物等),实体被实例以数据/记录的形式表示。

1.2 为什么需要管理主数据?

常见的主数据管理驱动因素有:

  1. 满足组织数据的需求。组织中的多个业务领域需要访问相同的数据集,并且这些数据集是完整的、最新的、一致的。
  2. 管理数据质量。主数据管理通过使用统一的表示来定义对组织至关重要的实体,以降低由于数据不一致、质量和差异等问题对决策失误和机会错失的风险。
  3. 管理数据集成的成本。主数据管理需要将关键实体集成到统一的系统中,减少对因对关键实体定义和识别方式变化而产生的额外成本。
    图1. 主数据语境关系图

1.3 主数据管理的目标和原则

1.3.1 企业主数据管理的目标有:

  1. 确保组织在各个流程中拥有完整、一致、最新和权威的主数据。
  2. 促使企业在各个单元和各应用系统之间共享主数据。
  3. 通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。

1.3.2 企业主数据管理应遵循如下指导原则:

  1. 共享数据。需要组织的全局管理,以实现广泛地共享主数据。
  2. 所有权。主数据所有权属于整个组织,而不是属于某个应用系统或部门。在企业,主数据的所有权由信息化发展委员会做最终解释。相关业务记录系统的数据所有权属于相关业务部门,经过数据整合后在数据共享平台分发的主数据所有权转移为整个组织。
  3. 质量问题。主数据需要持续的数据质量监控和管理。
  4. 管理职责。企业信息化发展委员会拥有对主数据的远景和战略制定和监管,下设数据治理委员会负责策略发展和战略目标对齐,数据治理执行层负责具体地数据管理职责,控制和保证主数据的质量。
  5. 变更控制。在给定的时间点,主数据的值代表组织对准确和最新内容的最佳理解。改变数据值的取值规则,应该在有关数据治理执行层监督下谨慎进行,修改数据实体版本需要通过数据治理委员会审批通过,并且做到变更可追溯。
  6. 权限。任何主数据的使用和分发需要通过数据治理委员的审批,并由数据治理执行层执行并妥善管理权限。特定业务主数据的使用需要数据治理委员会分管领导亲自审批,例如人员信息主数据需要首席人力资源官审批才能给下游系统共享使用。

1.4 主数据治理管理层组织架构

企业主数据治理组织架构分为管理层和执行层,管理层设信息化发展委员会负责整个集团的数据治理愿景设计和战略规划与监管。信息化发展委员会下设数据治理委员会,负责向上对齐目标,向下监督数据治理的执行和策略发展。数据治理的执行层负责具体的主数据治理工作,包括计划、开发、维护和运营。整个主数据治理组织架构设置如图 2。

图2. 主数据治理组织架构图

1.5 主数据共享系统架构

企业的主数据共享架构采用业务系统本地管理主数据,数据共享平台作为公共平台集成和共享数据,对主数据做治理和展示,并将问题数据反馈给相关业务系统。

图3. 数据共享平台主数据共享架构

1.6 评估主数据管理情况

公司需要定期评估当前主数据管理的能力、成熟度和有效性。需要从如下几点识别公司主数据管理的情况:

  1. 哪些角色、组织、地点和事物等实体被反复引用
  2. 哪些数据被用来描述人、组织、地点和事物等实体
  3. 数据是如何被定义和设计的,以及数据颗粒度细化程度
  4. 数据在哪里被创建或源于哪个系统,在哪里被存储、提供和访问
  5. 数据通过组织内的系统时是如何发生变化的
  6. 谁使用了这些数据,为了什么目的
  7. 用什么标准来衡量数据及其来源的质量和可靠性

2.Activities 活动

2.1 主数据管理的关键步骤

主数据管理的关键步骤包括数据模型管理、数据采集、数据验证、标准化和数据丰富、实体解析、数据分发和共享。

2.1.1 数据模型管理

清晰一致的逻辑数据模型定义对主数据管理至关重要。数据模型必须是企业级定义的术语,并对整个组织所进行的业务相关联。源系统中数据定义的术语不能在企业具有全局意义,所以不能依赖源系统的定义。每个主数据模型都要有严格的版本定义和辅助字段以帮助确定某一时刻此版本主数据是对企业级实体的最佳理解。推荐的主数据附加辅助属性有:

|—————–+—————|

主数据元属性 描述
正式名称 通过管理层审核的中英文名,统一企业内部语意
—————–+—————
数据源提供者 提供数据源系统
—————–+—————
数据源数据创建时间 标识数据值的创建时间
—————–+—————
数据源数据更新时间 标识数据值的更新时间
—————–+—————
实体模型版本号 官方确定的主数据版本号
—————–+—————
实体数据的创建时间 从源数据整合后的创建时间
—————–+—————
实体数据的更新时间 分发的数据集最新更新日期
—————–+—————
表1.主数据附加属性

2.1.2 数据采集

从规划、评估和合并数据源数据到主数据系统必须是一个可靠、可重复的过程。数据采集活动包括:

  1. 接受并应对新的数据源采集需求
  2. 使用数据清洗和数据分析工具进行快速、即时、匹配的数据质量评估
  3. 评估数据并将数据整合的复杂性传递给需求者,以帮助他们进行成本效益分析
  4. 尝试数据采集及评估其匹配规则的影响
  5. 为新数据源确定数据质量指标
  6. 确定维护和监控数据质量的责任人
  7. 完成与整体数据管理环境的集成

2.1.3 数据验证、标准化和数据丰富

  1. 验证。识别明显错误或者不正确的数据,并采用对应措施(删除或合并)。
  2. 标准化。确保数据内容符合标准参考数据、标准格式。
  3. 数据丰富。添加可以用于改进实体解析服务的额外属性。
  4. 实体解析和标识符管理。实体解析是指确定两个或多个对现实世界对象的表示是否为同一个对象的过程。通过确定两个或多个表示之间的相似性来确定是否为同一对象。实体解析包括一系列活动(实例提取、实例准备、实例解析、身份管理、关系分析),这些解析活动能够使实体、实例的身份以及实体、实例之间的关系持续地被管理。实例可以通过一个全局标识符把等价的实例关联起来。

2.1.4 数据分发与共享

主数据分发与共享需要严格的权限管理和数据安全使用声明。确保下游系统只使用最小的、必要的、可控的数据。

2.2 评估和评价数据源

现有应用中的数据是主数据管理工作的基础。理解这些数据的结构和内容的过程很重要,评估数据源主要是为了评估数据质量,具体包括数据的完整性、唯一性、有效性、一致性、准确性和及时性。对于有些数据实体,可以采用购买标准化数据来实现主数据管理工作,这些参考数据可以和内部数据进行比较,以此来改善企业内部数据的质量。

2.3 定义架构方法

主数据管理的架构方法取决于业务战略、现有数据源平台以及数据本身,特别受数据的血缘和波定性以及延迟性影响。依据企业现有的系统状况,由于缺少部分必要的业务记录系统,数据共享中心架构显得尤为重要,推荐开发数据共享平台,以便管理员可以在数据共享中心维护部分主数据并且共享数据给下游系统。

2.4 建模主数据

主数据管理是一个持续的整合过程。为了实现一致的结果,必须在主题域中为数据建模,定义企业级的主题域实体和属性。主数据定义的术语和属性应该和整个组织所进行的业务相关联,而不是单单取决于某个源系统的数据。构成主数据的属性也应该定义粒度,并且粒度在整个组织具有意义。如果多个数据源存在不同的命名属性,在企业级模型中必须整合成单一属性,并且数据值处于适当的语境中。

2.5 定义管理职责和维护过程

主数据管理组织架构如 1.4 章所述,具体的管理职责和维护方式如图 4 所示,技术解决方案和管理流程需要并存于主数据管理的工作中,技术解决方案用在主记录标识符的匹配、合并和管理工作,管理流程用来对记录进行修复和缺失补进。比如,相关业务部门作为业务系统和数据的所有者负有业务系统数据管理职责,当业务源数据经过主数据共享平台治理,数据所有权发生变更,相关业务数据也成为企业级主数据,同时主数据管理模块向源系统提供问题数据必要的反馈。

图4. 管理职责和维护流程图

2.6 建立治理制度,推动主数据使用

在初步完成主数据治理工作后,需要在系统之间建立单向闭环的数据流,以保持系统之间值的一致性。强制要求各下游系统使用主数据,保持主数据的一致。

3. Guidelines 实施指南

3.1 遵循主数据架构

企业主数据建设需要遵循如上章描述的体系架构,整合方式需要考虑企业的组织架构、记录系统的数量、数据访问延迟性要求以及消费系统的需求。

3.2 监测数据流动

当数据在共享环境中流动时,应监控相关数据流,以达到如下目的:

  1. 显示数据如何在整个组织中共享和使用
  2. 在应用系统中识别数据血缘关系
  3. 辅助进行数据问题的溯源
  4. 展示数据整合和消费整合技术的有效性
  5. 通过消费数据来评估源系统数据传输的及时性
  6. 确定在集成组件中执行业务规则和转换的有效性

3.3 设定主数据共享协议

为了确保恰当的访问和使用,数据共享协议需要被建立,协议规定:哪些数据可以被共享、在何种条件下可以被共享和使用。数据共享平台负责人应当建立服务水平协议和指标(SLA), 以衡量共享数据的可用性和分享数据的质量;并建立标准的沟通方法,使所有受到影响的相关方了解问题的存在和补救工作状况。

3.4 组织和文化变革

提高主数据的可用性和质量需要先考虑组织的准备情况、组织的未来使命和愿景。
文化变革才是数据治理的中心课题:确定哪些决定由哪些人负责,哪些工作由哪些人负责。本框架建议使用图 2 进行组织和文化架构调整,以适应主数据治理的挑战。
在执行层面,当主数据治理执行层认为数据源存在风险,并通知该数据的本地管理员需要开展整改工作时,本地管理员需要及时做出相应的修补措施。

4. Metrics 度量指标

企业的主数据治理状况可以参考如下指标度量:

4.1 数据质量和遵从性

数据质量仪表盘可以用来描述数据质量,其中应该说明实体或相关属性的置信度,包括数据准确性,及时性、唯一性、有效性、完整性和一致性。

4.2 数据变更活动

审核可信的数据血缘对于提高数据共享环境中的数据质量十分重要,需要指标展示数据值的变化率,并且适当调整主数据管理进程中的算法。

4.3 数据获取和消费

数据由上游系统供应,由下游系统和流程使用。需要有记录显示和追踪哪些系统共享数据,哪些系统消费数据。

4.4 服务水平协议(SLA)

应建立服务水平协议并传到给贡献者和订阅者,以提供相应的流程支持,技术问题和数据问题解释。

4.5 数据管理专员覆盖率

这个指标关注对数据内容负责的团队,识别人员覆盖率对数据管理方面的差距。

4.6 拥有和维护成本

从解决方案的角度来看,成本包括基础设施,软件许可证,支持人员,咨询费,培训等。

4.7 数据共享量和使用情况

需要跟踪纳入主数据的数据量和使用情况,以确定数据共享环境的有效性。具体指标有流入和流出数据的定义、纳入和订阅数量和速率。

  • Post title:企业级主数据治理框架
  • Post author:Kopei
  • Create time:2021-10-25 00:00:00
  • Post link:https://kopei.github.io/2021/10/24/data-warehouse-2021-10-25-master-data-governance/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
 Comments