你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

治理数据的要求

云规模分析建议你考虑以下有关治理数据的要求:

  • 数据实体定义,用于在业务词汇表中创建通用业务词汇。 此处的数据实体是指客户、供应商、材料、员工等概念。
  • 数据实体识别和发现。
  • 用于管理数据访问安全、数据隐私和数据保留的数据分类。
  • 人,例如数据所有者(具有治理责任)和数据管理员(负责数据保护和质量)。
  • 数据治理过程。
  • 数据生命周期管理,用于管理数据的保留时长
  • 用于定义特定数据在其整个生命周期中应如何治理的策略和规则。
  • 分布式数据环境中跨数据存储的策略实施。
  • 主数据管理,让客户、产品和供应商等运营和分析系统中的数据保持一致。
  • 元数据世系,用于了解数据实体的转换和关系。
  • 能够实现对结构化、多结构化和非结构化数据进行治理的技术。 治理可能跨越数据中心、多个云和边缘。

一个挑战是,企业在多个位置中收集和存储数据。 数据可能包括在不同地区和不同法律管辖区收集和存储的数据。 因此,不同的法律可能适用于在不同的司法管辖区管理相同的数据。 发现分布在多个云和地理位置的数据,以:

  • 了解分布式数据环境中存在哪些数据属性、数据实体和数据关系。
  • 对数据进行分类以了解如何对其进行管理
  • 定义策略以指定应如何管理每种类型的数据分类和生命周期管理。
  • 在分布式数据环境中实施数据质量、数据访问安全、数据隐私和生命周期管理策略。

数据分类

数据分类是通过为数据资产分配唯一的逻辑标记或类来对数据资产进行分类的一种方式。 分类基于数据的业务上下文。

需要有一种方法对数据进行分类,以了解其保密级别以及保留多长时间。 分类有如下要求:

  • 数据机密性分类方案
  • 数据保留分类方案

数据保密性分类方案

分类 说明
公用 任何人都可以访问数据,并且数据可以发送给任何人。 例如,政府公开数据。
仅限内部使用 只有员工可以访问数据,并且无法将其发送到公司外部。
机密 仅当特定任务需要时,才能共享数据。 在没有保密协议的情况下,无法将数据发送到公司外部。
敏感数据(个人数据) 数据包含隐私信息,必须在有限的时间内在需要知道的基础上屏蔽和共享。 此类数据不得发送到未经授权的人员或公司外部。
受限 数据只能与负责保护该数据的指定人员共享。 例如,法律文档或商业机密。

数据生命周期保留分类方案

保留 说明
数据可随时删除。
临时 在短时间内保留数据。 例如,将 Twitter 数据保留一周。
固定期限 将数据保留设定年数,之后可以将其删除。 例如,将税务记录保留七年以遵守政府法律。
永久性 永不删除数据。 例如,法律书信。

要在整个分布式数据环境中一致地标记数据,需要使用每个方案中定义的类自动执行数据机密性和数据生命周期保留分类过程。 自动化使其能够得到一致且正确的管理。 然后,为分类方案中的每个类定义规则和策略,以指定如何根据其分类管理数据。

数据治理角色和职责

另一个要求是问责制的需要。 否则,谁对管理数据负责的困惑就会挥之不去。 如果没有问责制,你如何回答以下问题?

  • 谁设定成功指标并监控数据治理计划的运作情况?
  • 谁是数据所有者?
  • 谁定义和维护业务词汇表?
  • 谁创建和维护访问安全策略?
  • 谁在保护个人数据隐私以确保合规性?
  • 谁负责所有宣传册和合作伙伴网站上的产品数据质量?
  • 谁确保客户数据在所有系统中保持一致?
  • 谁在监管外部订阅数据的使用与许可证?
  • 谁在监管数据库管理员和数据科学家等特权用户?
  • 是 C 级高管吗? 是部门主管吗?
  • 是治理、风险和合规的负责人吗?
  • 法务部呢?
  • 这是 IT 的责任吗?

需要角色和职责来避免混淆,并为数据文化的实现奠定基础。

数据治理流程

要实现以下目标,不仅需要流程,以及各种角色和职责:

  • 治理通用业务词汇的定义和维护
  • 发现并识别你拥有的数据及其含义和存储位置
  • 对数据进行分类以了解如何对其进行管理
  • 治理数据访问安全策略的定义和维护
  • 治理数据隐私政策的定义和维护
  • 检测数据质量问题并进行补救
  • 应用政策以确保采取行动以确保合规性
  • 治理主数据的维护

数据治理政策和规则

定义政策和规则以治理以下方面:

  • 数据完整性规则
  • 数据引入策略和规则
  • 数据访问安全策略和规则
  • 数据隐私政策和规则
  • 数据质量政策和规则
  • 数据维护策略和规则
  • 数据保留政策和规则

将这些策略和规则与数据治理分类方案中的每个类相关联。

主数据管理

治理数据的另一个要求是主数据管理。 主数据是任何组织中共享最广泛的数据,并且包括核心数据实体。 核心数据实体包括客户、供应商、材料、员工和资产。 它还包括在不同财务应用程序中发现的财务会计科目表数据。 由于主数据的共享范围非常广泛,因此与应用程序无关。 操作事务处理应用程序和分析系统都需要主数据。 保持数据同步可以解决很多数据错误和处理错误。 因此,通过一个通用流程集中维护它并同步每个需要它的系统是理想的情况。 此外,需要对允许谁维护它以及需要在哪里进行维护进行治理。

这同样适用于参考数据,例如代码集和金融市场数据。 在这种情况下,代码集的标准化和同步被称为参考数据管理,这也是一项要求。

元数据世系

最后,对于元数据沿袭也有要求。 可以使用审计跟踪来了解数据的来源,以及数据在传输到报告或数据存储过程中是如何转换的。 你可以使用元数据来跟踪维护数据的人员或内容,包括发生的时间和地点。

端到端数据治理要求的摘要

你需要一个端到端的解决方案,该解决方案可以跨边缘、多个云和数据中心的数据存储在其整个生命周期内管理数据。

数据治理框架示意图。

你的数据治理解决方案应该包含几个组件:

  • 数据治理愿景和策略
  • 数据本身,例如客户数据、供应商数据、订单数据等。
  • 从创建到销毁的数据生命周期,需要在其中管理数据。
  • 数据治理角色和职责(人员)。
  • 数据治理流程和活动以及它们如何应用于数据生命周期。
  • 在生命周期的不同点管理数据的策略和规则。
  • 数据治理技术有助于实现数据治理。

后续步骤