描述 Microsoft Purview 数据目录

已完成

Microsoft Purview 数据目录的目标是提供一个用于管理数据的平台,推动在组织中创造业务价值。 它通过一组符合数据治理原则的丰富功能来实现此目标。 以下各部分介绍了 Microsoft Purview 数据目录的一些主要功能。

治理领域

治理领域:治理领域是一种通过业务概念(如营销或财务)组织数据资产的新方式,可为数据资产提供上下文。 治理领域是一个边界,用于实现数据产品和业务概念(如术语表术语、OKR 或关键数据)的常见治理、所有权划分和发现。 你可以建立多种边界,例如:

  • 基本业务领域 - 人力资源、销售、财务、供应链等。
  • 总体主题领域 - 产品、相关方等。
  • 基于组织职能的边界 - 客户体验、云供应链、商业智能等。

业务领域还与其他几个作为功能纳入数据目录的业务概念相关联。

数据产品

与业务领域相关的是数据产品。 数据产品是一种具有名称、说明、所有者的业务构造,最重要的是其具有包含关联数据资产的列表。 数据产品可为其包含的资产提供上下文,并为数据使用者提供用例。

一个治理领域可以包含多个数据产品,但一个数据产品由单个治理领域管理,且可在多个领域中出现。

成功的数据产品可让数据使用者轻松使用日常语言识别有价值的数据,同时简化这些数据资产的所有权责任。

假设数据科学家创建了一组数据资产,供数据模型和他人使用。 尽管数据科学家可以使用数据目录向所有相关数据资产添加术语表术语,并且可以为每个资产添加说明,以提高其在类似信息搜索时的相关度,但这无法保证数据使用者知道要使用的术语表术语,也无法保证他们能找到所有数据资产。 这便是数据产品的优势所在。 数据科学家创建了一个数据产品,在其中列出用于创建其数据模型的所有资产。 说明中提供了完整的用例,以及有关如何使用数据的示例或建议。 现在,数据科学家是数据产品的所有者,他们通过帮助数据使用者在这一个数据产品中统一获得所需的全部内容,改善了使用者的搜索体验。

术语表术语

术语表术语可为数据资产提供关键的业务上下文,并应用确定如何管理、治理和发现数据以供使用的策略。

术语表术语是定义组织中使用的业务、流程和系统的各个概念。 它们可以应用于整个数据资产,与数据资产和数据产品相关,向用户提供业务上下文。

术语在治理领域下创建,用于提供特定于组织每个部分的上下文。 例如,销售部门和营销部门可能使用相同的术语来表示不同的内容,治理领域可帮助团队区分这些含义。 一旦创建,术语就会映射到数据产品,为这些数据产品提供上下文,并根据业务上下文提供特定数据管理。

术语表术语基于业务上下文提供数据治理,因为它们现在包含策略。 商业术语中的策略将特定业务运行状况目标、数据管理要求和使用条款应用于术语所适用的任何数据产品。

关键数据元素

并非所有数据元素都具有相同的重要性或敏感度,不加选择地投入资源来管理所有数据的质量可能不切实际且成本高昂。 关键数据元素 (CDE) 是数据资产中重要信息的逻辑分组。 这些分组可以使数据更易于理解并促进标准化。 这些元素可以关联数据质量规则和访问策略,以进一步保护数据资产中的敏感信息。

例如:“客户 ID”关键数据元素可以将一个表中的“CustID”和另一个表中的“CID”映射到同一逻辑容器。 用户可以跨数据资产匹配此值以建立连接,当数据生成者创建新资产时,他们可以将此元素用作蓝图,从而以正确的格式提供优质信息。

关键数据元素是在治理领域中创建的,并且可以设置策略来管理这些重要的信息片段。

通过创建 CDE,组织可以战略性地分配资源,将治理工作集中在对业务影响最大的领域。

OKR

Microsoft Purview 中的 OKR(目标和关键结果)是与治理领域和数据产品相关联的可跟踪业务目标,将会强调业务数据的价值。

OKR 将数据产品直接链接到实际业务目标,以跨越业务与数据资产之间的鸿沟。 数据治理不仅仅是 IT 任务或工程最佳做法,也是关乎价值创造的关键部分。

数据访问策略

通过数据目录访问策略,你可以管理对数据产品的访问,并设置一个系统来向请求访问权限的用户提供相应权限。 通过创造自助访问机会,同时捍卫安全性和正确使用标准,可以促进数据资产的创新和灵活性。

搜索并浏览

数据发现可能很耗时,因为你可能不知道在哪里查找你需要的数据。 搜索使数据使用者能够轻松找到分析或治理工作负载所需的数据。 如果你知道要查找的内容,则搜索非常有用,但有时数据使用者希望浏览可供他们使用的数据。 Microsoft Purview 数据目录提供了浏览体验,使用户能够按集合或遍历目录中每个数据源的层次结构来浏览可用的数据。

运行状况管理

运行状况管理提供有可增强数据管理策略和管理的功能。

运行状况控制:通过数据运行状况控制,你的团队可以分析和跟踪你完成数据治理的历程,这涉及监视治理运行状况并使用提供的运行状况控制来跟踪进度。 数据运行状况控制是实现的特定措施、流程和工具,用于监视、维护和改善组织数据的质量、安全性和整体运行状况。

数据运行状况控制的优势包括:

  • 更高的数据质量:确保数据在用于制定决策时保持准确、一致且可靠。
  • 增强的安全性:防止敏感数据发生泄露、未经授权的访问和损坏。
  • 法规遵从:帮助组织遵守有关数据管理的法律和行业标准。
  • 运营效率:减少更正数据问题所用的时间和资源,并确保数据随时可用。
  • 风险缓解:防止因数据管理不善而导致的代价高昂的错误和数据相关风险。

总之,数据运行状况控制是全面数据治理策略的重要组成部分,可帮助组织维护其数据资产的完整性、安全性和可用性。

运行状况操作:运行状况管理操作可为你和你的用户提供相关措施,帮助在全部数据资产中改善数据运行状况和治理。 这些操作对应于为计算数据产品的数据治理运行状况控制分数而进行的检查。 执行这些操作可以提高运行状况分数,并提升数据目录的整体可用性和可发现性。

数据质量

Microsoft Purview 数据质量是一个全面的解决方案,它使治理领域和数据所有者能够评估和监督其数据生态系统的质量,从而促进有针对性的改进操作。

数据质量使用户能够使用无代码/低代码规则(包括开箱即用 (OOB) 的规则和 AI 生成的规则)评估数据质量。 这些规则会进行聚合,以在数据资产、数据产品和治理领域级别提供分数,确保每个领域中数据质量的端到端可见性。 Microsoft Purview 数据质量还包含 AI 支持的数据分析功能

通过应用 Microsoft Purview 数据质量,组织可以有效地衡量、监视和提高其数据资产的质量。