数据目录开发最佳做法

注意

Microsoft Purview 数据目录将其名称更改为 Microsoft Purview 统一目录。 所有功能将保持不变。 当新的 Microsoft Purview 数据治理体验在你的区域中正式发布时,你将看到名称更改。 检查你所在的区域的名称

在本文中,我们将回顾可以实施的数据治理策略,以维护健康、有价值的、可发现的数据。 有关设置数据目录的技术步骤列表,请参阅数据 目录入门指南

  1. 通过业务概念了解数据
    1. 创建治理域
    2. 创建数据产品
    3. 定义术语表术语
  2. 解锁业务价值
    1. 让用户搜索和浏览新域和产品
    2. 创建 OKR
    3. 合规的数据访问
    4. 使用关键数据元素生成逻辑数据模型
  3. 提高数据成熟度
    1. 使用以治理为中心的操作改进数据产品
    2. 通过数据质量提高数据的可信度\
    3. 使用主数据管理创建真实数据产品的源
    4. 使用数据运行状况控件衡量治理成熟度
    5. 生成特定于域的标准

通过业务概念了解数据

治理域、数据产品和术语表术语等业务概念将数据与日常业务实践结合在一起。 这不仅使数据使用者更容易理解他们正在使用的数据,而且还允许你实现这些资源的数据治理的民主化。 使用现有专家和数据支持者将数据目录构建为丰富的资源。

创建治理域

治理域用于分配所有权和维护任务,并让用户更轻松地找到所需的数据。 通过按治理域分发信息,用户可以达到所需的适当信息级别,而无需遍历整个数据资产。

创建治理域或查看治理域结构时,需要考虑以下事项:

  1. 治理域结构模型
  2. 开发规划

治理域结构模型

  • 中心域 (良好的) - 使用单个域对于小型组织来说可能很高效,但可能无法很好地扩展,并且容易在增长过程中出现瓶颈。
  • 基于部门的域 (良好的) - 部门不会一致地做出决策,如果部门定期迁移,则可能需要改变数据目录结构。
  • 功能/治理线域 (更好的) - 为团队提供灵活性,并与现有业务模型保持一致。 这可能难以大规模管理,并且可能需要许多子域来为数据决策者提供支持。 它还可以创建数据使用接收器,这是数据目录治理方法的对立面。
  • 域组合 (最佳) - 跨主题领域/数据领域、功能域、法规域和项目域组合,使你的数据与其专家保持一致。 在数据目录中,数据专家是你最强大的资源;他们知道需要应用哪些策略,以及其他人需要知道哪些内容才能充分利用数据。 此结构也是组织更新最持久的结构,因为它基于数据在日常中的使用方式,而不是基于业务结构。

治理域开发规划

  1. 开始创建治理域时,请从一些与已有强大数据管理的团队保持一致的域开始:
    1. 将数据专员和数据产品所有者分配到治理域,并让他们开始开发符合其当前做法的术语表和数据产品。
    2. 如果需要,可以并行将数据扫描到数据映射中,以补充数据产品。
    3. 将治理域保留为 草稿 状态,直到一些数据产品已开发完毕并可供用户使用。
  2. 发布治理域,并向第一批用户分配数据目录读取者权限,让他们开始浏览。
  3. 根据第一批用户的反馈,循环访问现有数据产品,或扩展到下一个数据产品或治理域。
  4. 从一些治理域开始,这些域主要覆盖了数据产品,可确保数据使用者数据目录具有所需的内容,并且可以继续返回。

提示

不建议将治理域与平台域保持一致。 IT 通常与技术结构或服务/应用程序保持一致,并且与业务团队使用数据的方式不一致。 数据映射中的平台域可能与这些技术团队(而不是业务团队)保持一致。 治理域的目标是使业务用户与对他们最有用的信息保持一致。 专注于数据使用,而不是数据结构,以开发治理域。

创建数据产品

目前存储的大部分数据几乎没有任何已知值,可能需要花费时间和手动时间来评估和理解,然后才能将其删除或改进。 专注于具有已知价值和使用情况的数据,将使更多的团队能够构建一致的价值,并展示获得充分理解和高度利用的数据的好处。 这将推动数据治理实践的进一步采用,并且随着每个数据资产的价值变得更加清晰,清理数据资产的工作变得更加容易。

专注于组织中已存在的数据资源。 将这些作为数据产品添加到数据目录中将使用户更容易发现它们。 它还将使访问更具可伸缩性,并通过世系、数据质量和问责制提高可信度。 现有数据资源的一些示例包括:

  1. 黄金区域数据湖、高度精选的 SQL 存储、团队用来支持其日常实践的特选数据仓库/data lakehouse。
  2. 用于做出决策的报告。
  3. 报表环境中使用的数据表。
  4. 主数据和引用数据。

数据产品开发规划

  1. 将数据源添加到Microsoft Purview 数据映射时,规划数据产品应是引入过程的一部分。 数据产品所有者应知道哪些数据存储正在注册和扫描,哪些数据存储已准备好添加到数据目录。
  2. 从已扫描到数据映射的核心数据资产生成第一个数据产品。
  3. 当用户准备好使用该域的数据时,发布你的第一个数据产品。

定义术语表术语

构建术语时,请从你已经知道的内容开始,并继续从数据中构建价值,以显示哪些方面是影响最大的。 下面是创建和管理术语表术语时可以遵循的一些提示,以创造最大价值。

  1. 向最热情的用户提供数据表明能够继续增加价值,并为更多治理提供优先级。
  2. 许多业务团队已经有一个术语表来帮助新员工将自己定位到业务。 使用它们作为第一个候选术语中的一些来描述治理域及其数据。
  3. 如果不确定某个术语是否表示另一个概念 ((如实体或业务流程) 添加术语是一个很好的起点,以便收集最基本的元数据。 如果需要,此术语可能已过期,新概念可用于收集更多元数据并推动预期的端到端体验。
  4. 添加术语表术语后,将这些术语链接到数据产品将提高数据产品的可发现性,并提高使用者对数据的了解。
  5. 定期检查映射到术语的数据产品,使数据专员能够更好地了解其在数据资产中的使用情况。
  6. 始终可以改进和编辑术语定义。 在完全一致之前,等待发布术语将延迟团队使用该术语,并阻止新价值创造或提升潜在改进。

术语开发规划

  1. 数据专员应了解治理域的框架,然后开始添加已知术语并开始开发新术语。
  2. 术语定义应开发并包含有价值的信息,供使用者了解其上下文和使用情况。
  3. 第一组术语和数据产品应一起发布,以便使用者启动其数据用例并在目录中发现数据。
  4. 构建语义知识永不停止,因此请制定计划,了解如何使团队在整个治理生命周期内继续提供术语。

解锁业务价值

基本数据目录结构已到位,现在是时候开始解锁数据的价值了,方法是让用户能够访问数据,并将其直接绑定到业务目标。 从数据中创造价值来自于使用该数据,但使用数据意味着公司中的每个人都需要在正确的时间以正确的格式找到正确的数据,以提供所需的见解或功能。 数据使用者是利用数据实现新业务价值的关键。

允许用户搜索和浏览治理域和数据产品

你已花时间构建治理域和数据产品,因此请授予数据使用者访问权限,让他们使用它们,并了解它们的工作原理。 业务用户可能正在寻找的战略报告,这些报表已经提供了他们需要的见解,以便及时、明智地做出业务决策。

下面介绍了如何从战略上向用户授予访问权限:

  • 不要首先向公司中的每个人授予对数据目录的访问权限。 首先启用需要目录中数据的团队。 如果数据产品的格式不是科学家所需的数据,或者数据不在业务用户的预定义报告中,他们将失去对目录的信任。 使正确的角色能够首先使用目录来构建通往成功的途径。
  • 首先,需要目录中数据的团队。 你为谁构建了数据产品? 哪些团队帮助开发了术语表术语? 这些是很好的初始候选人。
  • 请从分析师和数据专家开始,他们能够告诉你目录中存在哪些差距。 他们可以帮助指向可以为数据目录做出贡献的专家和业务所有者。 随着时间的推移,数据目录的完整性将足够大,公司中的每个人都将能够找到其大部分数据需求。

创建 OKR

通过构建目标和关键结果并将其绑定到有助于推动或衡量该价值的数据产品来展示数据的业务价值。 确保业务领导者了解其数据的价值和治理的重要性,将推动团队如何构建、维护和治理其数据以创建见解的优先级和新的协同作用。

构建目标可立即识别数据对用户及其所推动业务的重要性。 这极大地增强了对某些数据在业务流程或实现其目标的能力中所扮演的角色的理解。

  1. 考虑用于流程改进、质量问题、主要战略目标的 OKR,以及你将使用数据衡量的任何其他内容,以展示业务价值和更改。
  2. 确保为每个目标创建关键结果,以显示如何衡量和评估目标,并创建实现该目标的问责制。
  3. 可能存在复杂的目标,这些目标需要许多关键结果才能完成。 关键结果可能会独立于其他关键结果进行,度量可以显示需要优先顺序或帮助重新走上正轨的区域。

合规的数据访问

提供对数据的访问权限可能会给公司带来风险,并且必须遵循已知的标准和策略,才能确保适当授予访问权限,并负责任地使用数据。 数据目录中的用户可以在发现或使用数据时填写数据访问表单。 将此表单和流程保留为目录的一部分,可使访问、安全、快速且一致,从而获得高度可变的技术数据资产。 下面是在目录中成功设置访问权限的一些方法:

  • 确保数据产品的相应审批者已到位,并且他们了解数据产品的处理需求。
  • 某些数据产品可能有数百或数千个访问请求,因此可能需要在分布式时区中创建团队,以确保及时访问审批和预配。
  • 准备组或备份审批者,以防有假期或计划外休假。
  • 治理域所有者应定期检查访问请求摘要,以验证预期,并查看监视访问请求过程的控制更改是否导致所需的响应时间。

使用关键数据元素生成逻辑数据模型

提高对数据实体和元素的深入技术理解和期望将包括新的控制措施,用于断言数据是否满足这些预期。 创建数据字典和数据逻辑模型可提供数据的结构和深层业务期望,确保数据符合其用途。 通过将这些知识纳入数据目录团队将立即了解数据的结构和原因,以及物理数据资产中实际可用的内容有何不同。

  • 专注于对域最重要的数据元素。 关键数据元素将展示数据对业务有着深厚的专业知识和重要性。
  • 不要 关注整个域中元素的完整性。 并非每个列都需要此级别的控制,许多数据元素对于用户来说可能一目了然。
  • 跨不同团队评估关键数据元素可确保业务团队对其数据以及团队创建的内容如何影响许多其他业务领域有共同的了解。
  • 使访问策略与关键数据元素保持一致可确保对整个数据资产的关键数据实施适当的访问控制。
  • 为关键数据元素构建数据质量规则可确保无论在何处或如何使用数据,都符合预期。

提高数据成熟度

改进数据资产和治理,以填补空白并消除价值创造的瓶颈:

  • 监视运行状况操作,以增量方式改进整个数据目录的治理。
  • 优化数据的新用途,并通过提高数据质量消除数据问题。
  • 使用主数据管理为单一事实来源创建一流的数据产品。
  • 评估数据运行状况,并确定最大价值影响优先级。

对运行公司的核心数据进行深入投资可确保此数据在整个业务中可用,从而持续消除数据问题,并为创建见解提供稳定的基础。 提供数据问题证据有助于确保数据治理的可操作性,但它将推动改进,从而立即释放新价值,而无需投资尚未完全理解低价值的数据领域。 不断提高数据成熟度将帮助团队彼此共享学习,并在发生更改时展示改进的证据。

使用以治理为中心的操作改进数据产品

建立对数据的信任需要持续改进和支持。 虽然使用者需要一些时间来查找和应用数据,但关注问题或支持需求时,可以根据最佳做法提前采取简单的操作。 运行状况管理中的运行状况操作为数据目录提供了这些有用操作的完整列表,以帮助你专注于接下来可以执行的操作来改进治理。 下面是使用运行状况操作获取最大价值的一些最佳做法:

  • 在数据产品仍处于草稿状态时检查其操作。 这可确保在发布时,它涵盖基本信息,并为消费者提供谨慎发布这些数据的舒适感。
  • 并非所有操作都必须同时执行。 当你详细了解数据或与专员合作以更清晰地了解数据时,某些操作可能需要一些时间才能解决。 继续检查操作,查看哪些地方已准备好进行新的改进。
  • 如果操作开始显得压倒一切、不必要或像是低值干扰,请考虑对运行状况控件进行更改。 优化任何人执行的操作数可确保将适当级别的治理应用于数据。

通过数据质量提高数据的可信度

通常,数据质量是一次性项目,用于修复数据中的特定问题。 这些改进不会持续。 良好的数据质量需要持续评估和改进,以确保问题不会返回或不会产生新问题。

  • 一旦定义了数据质量期望的基线。 制定计划以及时修正问题,对于保持业务正常运行和数据可供使用至关重要。
  • 将数据质量扫描计划为定期运行将有助于确保使用者持续改进数据并受到高度支持。
  • 对关键规则和分数更改设置警报将使数据提供程序能够在使用者发现或遇到问题之前更正问题。 警报还可用于在消费者在体验中发现问题之前,或者通过基于质量不佳的数据做出决策,以透明方式与消费者共享问题。

使用主数据管理创建真实数据产品的源

某些数据对几乎每个流程和整个业务都至关重要,因此值得进行卓越的管理和治理。 这些数据实体通常是跨领域的实体,如客户列表或员工配置文件,它们可能需要在许多业务流程中具有深厚的业务专业知识和经验。 某些数据高度可用,但规模较小,仍受益于更深层次的控制和管理:例如国家/地区、货币或行业细分的引用数据属性。 这些数据类型中的每一种都将受益于主数据管理解决方案,以构建适合在整个业务中使用的事实来源。

  • 实践具有数据质量的主数据管理对于确保此重要数据干净且一致至关重要。
  • 此级别的数据管理工作量很大,因此请选择有价值的数据元素或高风险数据元素,以确保你的工作产生高价值。
  • 为主数据创建关键数据元素和数据产品。 这些合作伙伴对象将有助于提升数据目录中的主控数据,并增加其使用和理解。
  • 为主数据构建新的运行状况控件,以持续评估其大规模使用情况,并防止新的非托管数据获得使用,并在快速发展的数据资产中造成混乱。

使用数据运行状况控件衡量治理成熟度

需要在整个业务中大规模评估数据治理的成熟度,以确保治理有效并创造业务价值。 通过应用控件的内置度量,运行状况管理使中央数据办公室或单个治理域能够查看哪些方面可以执行更多操作。 大规模收集此证据可快速提升影响业务的最关键数据问题,其中一个问题可能会影响业务的许多领域。 此证据有助于解决数据管理更改的优先顺序问题,并快速演示适当级别的治理的价值。

  1. 建立业务节奏,以审查运行状况管理实践:
    1. 与治理领域负责人和中央数据办公室进行每月评审,讨论新治理或技术解决方案的优先级和需求。
    2. 使团队能够深入了解其运行状况管理报告,以确保他们可以做出最佳决策,以创造业务所需的价值。
    3. 将运行状况管理引入到从 SLT 到单个管家的所有业务级别,以确保治理正确、一致且可操作。
    4. 如果数据存在需要跨业务协作或更深入的治理的较大问题,请考虑创建新的治理域并定义所有权,以推动该数据的治理。
  2. 不要期望所有治理域具有相同的成熟度级别或专注于治理的相同方面:
    1. 在适当的级别启用治理使业务所有者能够就如何处理其数据做出最有价值的决策。
    2. 并非所有业务部分都有相同的数据需求,当焦点位于其他位置时,强制更深层次的治理可能无助于创造业务价值。
    3. 某些数据在数据资产中价值较低或出现,并且尚未完全知道该值。 使团队能够快速行动并适应其需求,从而利用数据的价值来完善其治理。
  3. 一致地评估运行状况管理,以查找可以指示大型问题或需要注意的新知识的大型更改。
  4. 共享运行状况管理分数。 共享可以将团队聚集在一起,了解哪些内容对他们有效,或者他们如何查找新控件以在域中构建新价值。 了解“良好”健康状况可以激励其他团队进行改进,并确保他们还向其消费者提供有价值的数据。

生成特定于域的标准

数据的业务所有者最好是确保数据治理的大小适合所需的价值和控制级别。 这些业务团队已经依赖于数据,并且处于定义其期望的最佳位置,并且需要确保数据有价值。

  • 使治理域能够为其数据创建新控件,而不管数据在何处使用。
  • 不要期望所有治理域都需要相同级别的控制或采用所有控件。 设计上限制在单个业务部分使用的数据可能无法从高级控制中受益。 对没有适当值的数据进行更多控制可能会阻止团队收集或保留未充分利用的数据。
  • 使用适当的控制级别来帮助确定可从治理域中删除低价值数据的位置,以消除风险并提高数据资产的价值。