数据治理的示例设置

Microsoft Purview 数据治理以Microsoft Purview 统一目录和Microsoft Purview 数据映射为特色,可提供全面的可见性、数据信心和负责任的创新,帮助组织在 AI 时代实现更大的业务价值。 使用管理运行状况数据的示例,按照本文中的步骤作,以帮助你了解如何设置统一目录并使用其功能为组织构建健全的数据治理实践。

步骤 1:在 统一目录 中设置治理域

治理域是建立数据责任制的关键,有助于在整个公司内联合治理这些数据。 创建治理域时,从适当的所有者开始,可确保你能够有效地识别数据资产中所有数据的专家并与之协作。 治理域可以是多种不同的类型,以便与将管理该数据的团队的数据边界类型保持一致。 例如:功能域 (财务、人力资源、销售) 或 (产品、客户、健康) 的数据域。

先决条件

授予权限并生成第一个治理域

  1. 打开 Microsoft Purview 门户

  2. 使用管理员帐户的凭据登录到 Microsoft Purview 门户,该帐户分配有 角色管理 角色 (例如 Purview 管理员) 。 转到 “设置 > 角色和范围” 以查看和管理。

  3. 选择 “角色组”。

  4. “Microsoft Purview 解决方案的角色组 ”页上,选择“ 数据治理 ”角色组。

  5. “编辑角色组成员 ”页上,选择“ 选择用户 ”或“ 选择组”。

  6. 选择要添加到角色组的所有用户或组的检查框。

  7. 选择 “选择”。

  8. 在“统一目录”中,依次选择“目录管理”、“治理域”。

  9. “治理域 ”页上,可以设置目录的其余部分,使其他人能够联合数据所有权,使团队能够扩展其知识,并建立数据的业务价值。

    1. 首先选择“ 新建治理域”。
      1. 你可以更新治理域的名称,但为此,我们可以将其命名为“ (教程) 个人健康”,并说明“个人健康数据是指在医疗保健领域收集和使用与个人身体或心理健康相关的任何信息。 这可以包括各种数据类型,例如医疗记录、治疗史、诊断图像和实验室测试结果。 它通常受到各种法律和法规的保护,以确保隐私和机密性。
      2. 选择类型作为“数据域”。
      3. 将父域留空 (如果这是目录中的第一个治理域,则不会在此处选择任何内容)
      4. 选择“创建”
      5. 现在,请自行再创建两个域。 这些将是你自己组织中协作和治理的联合的关键点,因此,在实施Microsoft Purview 统一目录时,请考虑谁可能是域的所有者。
        1. 可以遵循以下示例:
        • 公司功能域表示整个公司使用的高度受控资产和术语。
        • Sales 是大多数组织将拥有的一个功能域,它是“企业”的子域。
  10. 选择创建的治理域。

  11. 选择治理域的“ 角色 ”选项卡。

  12. 默认情况下,创建治理域时,会添加到治理域中的所有角色。 作为治理域所有者,你需要在域中添加数据专员 (业务专家) ,数据产品所有者 (谁知道哪些数据资产最适合其他人使用) 。

  13. 切换回 “详细信息 ”选项卡。

  14. 选择“ 管理策略 ”按钮以应用域级别策略。 此策略将应用于域中的所有数据产品,启用策略的自动应用可确保数据专家不必成为策略专家。

  15. “管理访问策略 ”选项卡中,选中 “允许数据复制 ”旁边的复选框。通过选择此策略选项,它将自动应用证明,要求所有请求访问数据产品的用户证明他们了解数据的数据复制策略。

  16. 选择“ 保存更改” 以确认策略是由治理域设置的。

  17. 在治理域中选择“ 发布 ”。 “ 发布 ”按钮发布域中的所有其他概念。

创建术语表术语

向治理域添加术语表术语可让其他人更好地了解业务如何使用和理解数据。 术语表术语还确保见解使用常见术语,并且通常使用整个治理领域的知识。

  1. 在治理域的页面上,找到术语表术语卡并选择“查看所有”。

  2. “术语表术语” 页上,选择“ 新建术语”。

  3. 输入详细信息:

    1. 名称:“爆发”
    2. 描述:一种已影响或有可能影响大部分人口的疾病。
    3. 现在可以将其余部分留空,但有一些字段要收集:负责为公司定义术语的术语所有者,用于共享术语名称的首字母缩略词,最后,你可以提供指向资源的链接,这些资源将包含有关该术语的详细信息。
  4. 选择“创建”

  5. 选择“ 管理策略” 按钮。 与域级别策略类似,可以创建术语级别策略,这些策略将应用于任何正在使用的术语。

  6. 选中 “需要经理审批”旁边的框。 当请求访问数据产品时,这会强制Microsoft Entra ID中所列用户的经理进行辅助审批。

  7. 为创建的“爆发”术语选择“ 发布 ”。 已发布的术语在统一目录中是可筛选的,并确保使用该术语描述其数据产品的其他用户在浏览数据产品时能够在统一目录中看到该说明。

  8. 现在再创建两个术语。 这一次,选择“爆发”术语作为创建的术语的父术语。 尝试在任一术语的相关选项卡中构建这些子术语之间的关系,以帮助构建这些术语如何协同工作以解释整个主题的网络。

    1. 大流行:全球爆发的一种疾病,影响多个国家或大洲的许多人。
    2. 流行:一种全国或区域爆发的疾病,具有高传染性,影响很大一部分人口。
  9. 尝试在之前创建的任何其他域中创建几个其他术语。 如果不确定要添加的内容,请尝试 “获取建议术语 ”按钮,让 GenAI 根据你提供的域的说明和名称提出一些建议。

添加 OKR

现在,为个人健康域添加 OKR (目标和关键结果) ,以帮助其他人了解数据的业务价值。 这将在数据与它提供的业务价值之间建立直接连接。

  1. 从“治理域”页中选择 “OKR ”框。

  2. 选择“ 新建 OKR”。

  3. 首先输入目标的详细信息:

    1. 目标:通过使患者有效接种疫苗,降低大流行风险。
    2. 所有者:输入姓名
    3. 目标日期:“2024-12-31”
  4. 选择“创建”

  5. 向目标添加关键结果可确保目标是可衡量的,并监视实现目标的进度。 选择“ + 添加密钥结果”。

  6. 输入密钥结果详细信息:

    1. 关键成果:确保最有可能受大流行影响的 80% (>65 岁) 年龄较大的年龄组在 2024 日历年底前接受全面疫苗接种。
    2. 进度状态:按进度
    3. 进度金额:70
    4. 目标金额:80
    5. 最大金额:100
  7. 选择“创建”。

  8. 选择“发布”。

创建关键数据元素

最后,在个人健康中创建一个关键数据元素 (CDE) ,以确保最重要的数据列具有一致的定义和理解,并且它们始终满足业务对数据形成和存储方式的期望。

  1. 在选择了“个人运行状况”域的“治理域”页中,选择“ 关键数据元素 ”框。
  2. 选择“ 新建关键数据元素”。
  3. 输入基本 CDE 元数据:
    1. 名称:年龄组
    2. 说明:用于确保所需分析报告的常见人员年龄分组遵循其他人可以依赖的引用,并删除单个年龄以提高数据的匿名性。 年龄组分为8组: <2 年、2-4 年、5-11 年、12-17 年、18-24 年、25-49 年、50-64 年、65+ 年。
    3. 所有者:输入姓名
    4. 预期数据类型:文本
    5. 选择“创建”

CDE 的真正功能在于,它直接映射到存储此数据的物理数据列。 此连接可确保达成共识,并支持大规模评估数据质量规则和策略。

  1. 从刚刚创建的 CDE 中选择“ + 添加”列

  2. 从数据湖的黄金容器中搜索 Covid 19 疫苗和病例趋势 数据资产

  3. 选择 “Covid 19 疫苗和案例趋势 ”资产的框(而不是名称)。

    提示

    如果选择资产的蓝色名称,它将在 Microsoft Purview 中打开一个新窗口,其中显示资产详细信息。

  4. 选择 AgeGroupVacc 列旁边的单选按钮。

  5. 选择“添加”。

  6. 选择刚刚创建的 CDE 顶部的“ 数据质量 ”选项卡,将数据质量规则应用于 CDE。 这类似于为术语表术语和治理域添加策略的方式。

  7. 选择“新建规则

  8. 选择 “数据类型匹配项”

  9. 输入规则名称:确认年龄组格式

  10. 选择“创建”

  11. 在 CDE 上选择“ 发布

现在,此 CDE 将自动将数据质量规则应用于使用 Covid 19 疫苗和病例趋势资产的每个数据产品,我们将在下一部分中介绍。

  1. 尝试在其他域中创建几个其他 CDE。 下面是一些想法:
    • 销售:收入和卖家名称
    • 公司:产品 ID

步骤 2:在数据映射中设置和注册数据

如果没有可用于扫描的数据源,可以按照这些步骤完全部署Azure Data Lake Storage (ADLS Gen2) 示例。

提示

如果与 Microsoft Purview 帐户在同一租户中已有数据源,请继续执行本部分的下一部分以扫描资产。

在房地产数据资产中,你会发现许多不同的系统用于不同的数据应用程序。 在 Fabric 和 Snowflake 等报表环境中,团队使用数据副本来生成分析解决方案并为报表和仪表板提供支持。 有一些作数据系统支持应用程序团队或客户用于完成业务流程,这些业务流程基于在此过程中做出的决策收集或添加数据。

若要创建更真实的数据资产,建议在目录中显示许多数据源,这些数据源可以涵盖任何公司可能具有的不同数据用途的广度。 支持用例所需的数据类型可能与需要报表和仪表板的业务用户大相径庭,分析师需要符合的维度和事实来生成报表,数据科学家或数据工程师需要直接从收集数据的系统中的原始源数据,所有这些以及更多功能使不同的用户能够看到查找的重要性, 在同一位置理解和访问数据。

有关将数据添加到资产的其他教程,可以遵循以下指南:

先决条件

  • Azure 中的订阅: 立即创建 Azure 免费帐户
  • 租户Microsoft Entra ID:Microsoft Entra ID 治理
  • Microsoft Purview 帐户
    • 管理员对 Microsoft Purview 帐户的访问权限 (如果创建了 Microsoft Purview 帐户,则这是默认设置。新 Microsoft Purview 门户预览中的权限 |Microsoft Learn)
  • 所有资源;Microsoft Purview,数据源和Microsoft Entra ID必须位于同一云租户中。

设置数据资产

A. 创建和填充存储帐户
  1. 按照本指南创建存储帐户:为Azure Data Lake Storage Gen2创建存储帐户
  2. 为新的数据湖创建容器:
    1. 导航到存储帐户的“概述”页。
    2. 选择“数据存储”部分下的“ 容器 ”选项卡。
    3. 选择“ + 容器 ”按钮
    4. 名称为“bronze”,然后选择“ 创建 ”按钮
    5. 重复这些步骤以创建“黄金”容器
  3. 从 data.gov 下载一些示例 CSV 数据:按年龄组划分的 Covid-19 疫苗接种和病例趋势,美国
  4. 将 CSV 上传到创建的存储帐户中名为“bronze”的容器。
  5. 选择名为“bronze”的容器,然后选择“ 上传 ”按钮。
  6. 浏览保存 CSV 的位置,然后选择 “Covid-19_Vaccination_Case _Trends ”文件。
  7. 选择“上传”。
B. 创建Azure 数据工厂

此步骤将演示数据如何在奖牌数据湖的层之间移动,并确保数据采用使用者预期使用的标准化格式,这是运行数据质量的先决条件步骤。

  1. 按照本指南创建Azure 数据工厂:创建Azure 数据工厂

  2. 使用以下Azure 数据工厂指南:使用映射数据流转换数据,将数据从“bronze”容器中的数据作为 Delta 格式表复制到“gold”容器

  3. 通过选择创建的 ADF 资源的“概述”选项卡上的“启动工作室”按钮,从Azure 门户打开Azure 数据工厂 ( ADF) 体验。

  4. 在 ADF 工作室中选择“ 创作 ”选项卡。

  5. 选择 + 按钮,然后从下拉菜单中选择 “数据流 ”。

  6. 将数据流命名为“CSVtoDeltaC19VaxTrends”。

  7. 在空框中 选择“添加源 ”。

  8. 将“源设置”设置为:

    1. 输出流名称:“C19csv”
    2. 说明:留空
    3. 源类型:内联
    4. 内联数据集类型:带分隔符的文本
    5. 链接服务:选择存储 csv 的数据湖
  9. 将“源选项”设置为:

    1. 文件模式:文件
    2. 文件路径:/bronze/ Covid-19_Vaccination_Case _Trends
    3. 不允许找到任何文件:保持未选中状态
    4. 更改数据捕获:保留未选中状态
    5. 压缩类型:无
    6. 编码:默认 (UTF-8)
    7. 列分隔符:逗号 (,)
    8. 行分隔符:默认 (\r、\n 或\r\n)
    9. 引号字符:双引号 (“)
    10. 转义字符:反斜杠 ()
    11. 第一行作为标题:CHECKED
    12. 将其余部分保留为默认值
  10. 选择创建的源 旁边的小 + ,然后选择 接收器

  11. 创建接收器,在其中存储数据的格式和位置,以便将数据从“bronze”中的 csv 移动到“gold”中的增量表。

    1. 设置接收器值 (将所有设置保留为默认值,除非指定)
    2. 接收器类型:内联
    3. 内联数据集类型:增量
    4. 链接服务:与源中使用的数据湖相同,因为我们将存储在不同的容器中。
  12. 设置设置值 (将所有设置保留为默认值,除非指定)

    1. 文件夹路径:gold/Covid19 疫苗和病例趋势
  13. 需要输入值,因为此名称是我们希望数据的存储方式,并且不存在要选择的名称。

  14. 选择“ 验证”,这会检查数据流并提供修复任何错误的说明。

  15. 选择“ 全部发布”。

  16. 选择 + 按钮,然后从下拉菜单中选择管道

  17. 将管道命名为“CSV 到增量 C19 Vax 趋势”

  18. 选择在前面步骤 CSV 到 Delta (C19VaxTrends) 中创建的数据流,并将其拖放到打开的管道选项卡上。

  19. 选择 “验证”

  20. 选择 “发布”

  21. 选择“ 调试 ” (使用活动运行时) 来运行管道。

    提示

    如果遇到空格错误或增量格式不适当的字符:打开下载的 CSV 并更正。 然后重新上传并覆盖青铜区域中的 CSV。 然后重新运行管道。

  22. 导航到数据湖中的黄金容器,现在应会看到在管道期间创建的新 Delta 表。

扫描资产

如果尚未将数据资产扫描到Microsoft Purview 数据映射,则可以按照以下步骤填充数据映射。

扫描数据资产中的源将自动收集数据资产的元数据, (这些源中的表、文件、文件夹、报表等 ) 。 通过注册数据源并创建扫描,可以建立对目录中显示的源和资产的技术所有权,并确保可以控制谁可以访问 purview Microsoft 中的哪些元数据。 通过在域级别注册和存储源和资产,它将存储在访问层次结构的最高级别。 通常,最好创建一些集合,在其中扫描资产元数据并为该数据建立正确的访问层次结构。

如果选择使用 Microsoft Fabric 或 SQL,可以使用以下指南提供访问权限:

注册数据湖并扫描资产

  1. 在“域”选项卡下的“Microsoft Purview 数据映射”中,选择域的角色分配, (它将是Microsoft Purview 帐户的名称) :

    1. 将自己添加为数据源管理员和数据策展人到域。
      1. 选择“ 数据源管理员”角色旁边的人员图标。
      2. 在名称中搜索Microsoft Entra ID (它可能需要输入完全如Microsoft Entra ID) 中拼写的全名。
      3. 选择“确定”
      4. 为数据策展人重复这些步骤。
  2. 注册数据湖:

    1. 选择“ 数据源 ”选项卡。
    2. 选择“注册”。
    3. 选择Azure Data Lake Storage Gen2存储类型。
  3. 提供连接的详细信息:

    1. 订阅 (可选)
    2. 数据源名称 (这是 ADLS Gen2 源) 的名称
    3. 应在其中存储资产元数据的集合 (可选)
    4. 选择 “注册”
  4. 数据源注册完成后,可以配置扫描。 注册表示Microsoft Purview 已连接到数据源,并将其置于正确的集合中以获取所有权。 然后,扫描将从源读取元数据并填充数据映射中的资产。

  5. 选择在“数据源”选项卡中注册的源

  6. 选择“新扫描”并提供详细信息:

    1. 对此扫描使用默认集成运行时
    2. 凭据应Microsoft Purview MSI (系统)
    3. 扫描级别为自动检测
    4. 选择集合或使用域 (集合必须是注册数据源的同一集合或子集合)
    5. 选择“继续”

    提示

    此时,Microsoft Purview 将测试连接,以验证是否可以完成扫描。 如果尚未授予 Microsoft Purview MSI 读取器对数据源的访问权限,它将失败。 如果你不是数据源所有者或具有用户访问权限参与者扫描将失败,因为它要求你有权创建连接。

  7. 现在,仅选择容器“gold”,我们将增量表置于本教程的“生成数据”部分。 这将阻止扫描数据存储中的任何其他数据资产。

    1. 黄金旁边应该只有一个蓝色检查,你可以在所有内容旁边保留检查,因为它将扫描完整的源,仍然创建我们将使用的资产等。
    2. 选择“ 继续”
  8. 在“选择扫描规则集”屏幕中,应使用默认扫描规则集。

  9. 选择“ 继续”

  10. 在设置扫描触发器中,你将设置扫描的频率,以便在继续将数据资产添加到湖的黄金容器时,它会继续填充数据映射。 选择“ 一次”。

  11. 选择 继续

  12. 选择“ 保存并运行”。 这将创建一个扫描,该扫描将仅从数据湖的黄金容器读取元数据,并填充我们将在接下来的部分Microsoft Purview 统一目录中使用的表。 如果仅选择“保存”,则不会运行扫描,并且不会看到资产。 扫描运行后,你将看到创建的扫描, 上次运行 状态为 “已排队”。 扫描读取完成后,你的资产已准备好用于下一部分。 这可能需要几分钟或数小时,具体取决于源中的资产数量。

步骤 3:发布数据产品

创建数据产品对于确保组织能够发现正确的数据至关重要。 数据产品有助于防止过度管理数据资产中低值或无价值的数据,因为它没有用途或价值有限。 确保数据专家即将发布数据产品将激活最有价值的数据,并根据该价值构建适当的治理级别。 策展技术团队不知道其业务目的的资产,或试图管理复杂且不断增长的数据资产中的所有内容,将导致额外的时间和生产力下降,从而追查可能永远不会使用的数据的详细信息,或者可能只是从资产中删除。 相反,专注于具有价值且人们需要发现和构建更多价值的数据片段。 随着团队使用更多数据并更好地了解需要什么或更有用的数据,可以创建满足这些需求的数据产品,并且治理可以进行调整,以确保它始终根据数据的价值和敏感度保持正确的大小。

先决条件

创建和发布数据产品

  1. 打开 Microsoft Purview 门户

  2. 选择“统一目录”。

  3. 依次选择“ 目录管理 ”和“ 治理域”。

  4. “治理域 ”页中,选择“个人运行状况”域

  5. 选择“业务概念”下的“转到数据产品”链接

  6. 在这里,称为数据产品所有者的数据专家将识别组织中其他人打算使用的数据资产,并提供必要的信息来使其可用。

  7. 选择“新建数据产品

  8. 提供有关数据产品的详细信息

    1. 名称:“Covid-19 疫苗接种和病例趋势(按年龄)
    2. 描述:“这些数据来自疾病预防控制中心,作为美国卫生部 & 人类服务部的一部分。 这些数据包含美国国家一级按年龄组分列的疫苗接种和病例趋势。 数据按至少一剂进行分层,并完全接种疫苗。 数据还代表所有疫苗合作伙伴,包括司法管辖区合作伙伴诊所、零售药店、长期护理设施、透析中心、联邦紧急管理局和卫生资源与服务管理局合作伙伴站点,以及联邦实体设施。
    3. 类型:数据集
    4. 选择“下一步”。
    5. 用例:“此数据供公众使用,旨在帮助了解不同年龄组的疫苗接种趋势和新病例。 年龄分为两组,年龄从 <2岁到65岁以上。 同样,每日数字也提供了趋势,这些数字按年龄组提供7天新病例的平均值。
    6. 标记为 “已选中”,标记为“已认可 ”。
    7. 选择“保存”
  9. 现在,你已生成了数据产品的基本元数据。接下来,添加一些属性并映射数据映射中的资产。

  10. 选择“ + 添加数据资产 ”按钮。

  11. 你将看到已扫描到数据映射中的资产,其中包括数据源的所有文件夹和层。

  12. 搜索添加到数据湖黄金容器的 Covid19 疫苗和病例趋势 资产,然后选择此资源集。

  13. 选择“添加”。 可以根据需要为数据产品选择任意数量的资产,但此处只需要一个。

    提示

    尝试“ 获取建议 ”按钮,让 GenAI 帮助从数据映射中的资产中进行选择,并从减少的结果列表中选择“Covid19 疫苗和病例趋势”。

  14. 现在可以看到添加到数据产品的资产。

  15. 选择术语表术语标题旁边的“+ 添加术语”

  16. 选择之前创建的“爆发”术语,然后选择“添加

  17. 现在,应会看到映射到数据产品的资产中年龄组的关键数据元素。

  18. 选择 OKR 标题旁边的“+ 添加 OKR”

  19. 选择“通过启用有效的患者疫苗使用来降低大流行风险”。 它是我们在 第一部分中创建的目标。

管理数据产品访问请求策略

在页面顶部,发布数据产品之前的最后一步是选择“ 管理策略 ”按钮。 此处,访问策略和请求访问工作流是通过做出选择并提供要审批的名称来配置的。 还可以使用“ 继承的策略 ”选项卡查看适用于我们之前应用的数据副本证明的治理域策略。 对于来自疫情术语表术语的 经理批准 ,情况相同。

  1. 选择“ 管理策略 ”选项卡。

  2. “访问时间限制”下,提供访问请求在需要续订之前多长时间的详细信息。 我们将此设置设置为授予长达一年的访问权限。

  3. 在框中,放入 1。

  4. 在下拉列表中选择年份。

  5. 在“审批要求”下,在“审批者”框中提供你的姓名。 (将需要在 Microsoft Entra ID) 中注册的名称

    注意

    无需检查经理批准,因为该策略继承自疫情术语表术语。

  6. 选择 “预览请求表单 ”按钮,查看请求访问时目录使用者将查看的内容。 你将看到需要数据副本证明和经理批准,因为它们是由治理域和术语表术语设置的。

  7. 选择“保存更改”。

映射数据资产并配置访问策略后,即可将数据产品发布到目录。

  1. 在数据产品上选择“ 发布 ”。

  2. 尝试在之前创建的其他域中创建利润报表

    1. 利润报表,类型:仪表板/报表。
    2. 产品母版,类型:Maser 数据和参考数据。

注意

可以向这些资产添加许多资产,并查看具有许多资产的数据产品的外观,以及数据产品可能来自任何域的术语,以查看如何使用术语表使用一组一致的术语来描述数据。

步骤 4:运行数据质量

现在,目录中提供了一个数据产品,运行数据质量规则将告知所有人数据状态良好,可供使用。 随着对数据的了解,可以添加新的数据质量规则,以确保它适用于所有用例。 确保数据产品具有最高质量将有助于建立对数据的信任,并告诉其他人,数据正在受到改进的监视。 随着数据价值的增长,数据的质量必须得到更密切的监视和控制,因为如果管理不善,数据质量问题可能会造成巨大影响。

先决条件

  • 数据质量规则只能在 ADLS Gen2 和 Microsoft Fabric 中的增量格式表上运行。
  • 必须启用来自 Microsoft Purview 的托管标识才能读取数据源,因为它是目前唯一受支持的数据质量凭据。
  • 必须在运行数据质量的治理域中具有数据质量 专员角色
  • 你必须是所有者或具有对要连接数据质量扫描的数据源的用户访问管理员访问权限,以确保对数据进行适当的安全授权。
  • 必须具有 数据配置文件管理员角色 才能对数据运行配置文件。

创建并运行数据质量规则

  1. 打开 Microsoft Purview 门户

  2. 选择“统一目录”。

  3. 选择“ 数据管理 ”下的“ 数据质量”选项卡。

  4. 选择在 第 1 节中创建的个人健康域。

  5. 选择“管理”按钮,然后从菜单中选择Connections。 建立此连接可确保你能够在该治理域中的数据源上运行数据质量扫描,防止团队在没有适当授权的情况下访问数据知识。

  6. 在“连接”屏幕上选择“ 新建 ”以创建新连接:

    1. 提供显示名称“Personal Health ADLSg2 DQ”。
    2. 选择Azure Data Lake Storage Gen2的源类型。
      1. 提供第 2 节中创建的数据源的详细信息。

        注意

        凭据必须Microsoft Purview MSI (系统) 才能进行数据质量连接

      2. 选择“测试连接
      3. 测试连接后,选择“提交

建立连接后,即可运行配置文件并开始构建数据质量规则。 这可确保了解业务规则和适当规则的专家在最重要的数据产品上运行。

  1. 返回到“数据质量”页。
  2. 选择“个人运行状况治理”域。
  3. 选择第 3 部分内置的“按年龄排序的 Covid-19 疫苗接种和病例趋势”数据产品。
  4. 选择已添加到数据产品的资产。 (它必须采用 第 2 部分 的增量格式,否则数据质量不会) 运行。
  5. 将数据质量规则应用于数据列,以衡量它是否满足对质量的期望:
    1. 在所选资产上选择“ 规则 ”选项卡。
    2. 选择“ 新建规则”。
    3. 选择“空/空白字段规则”。
    4. 提供详细信息:
      • 从列下拉列表中选择 AgeGroupVacc 列
      • 规则名称:确认疫苗接种年龄组存在
    5. 选择“创建”。
    6. 选择“ 新建规则”。
    7. 选择“ 数据类型匹配”。
    8. 提供详细信息。
    9. 选择“日期”“管理列”。
    10. 选择“创建”。
  6. 选择“ 运行数据质量扫描”。

配置文件数据

为数据创建配置文件,以查看每列的高级静态,并发现任何可能具有新规则的异常。

  1. 在“统一目录”中,依次选择“运行状况管理”、“数据质量”。
  2. 选择 “配置文件数据”
  3. 选中 “列名称” 旁边的顶部框以分析所有列。 Microsoft Purview 将推荐要分析的列,你可以选择你知道值得分析的列,以帮助防止高度敏感数据上的配置文件或已知数据被稀疏填充。
  4. 选择 “运行配置文件”

扫描完成后,你将能够查看新数据产品的数据质量分数和配置文件,并且数据质量分数将提供给目录的所有用户,确保所有人都知道数据的状态。

为数据质量扫描创建计划,以确保持续监视数据质量问题。 设置警报,确保在使用者受到影响之前解决数据质量问题。

  1. “运行状况管理”下,选择“ 数据质量”。
  2. 选择配置数据质量规则的“个人运行状况”域。
  3. “管理 ”下拉列表中,选择“ 计划的扫描”。
  4. “计划的扫描 ”页上,选择“ 新建”。
  5. 添加 概述 详细信息
    1. 名称:个人健康 DQ 月度评估
    2. 说明:每月扫描 DQ 规则以持续改进。
  6. 选择“ 继续”
  7. 选择扫描范围
  8. 选中 按年龄排序的 Covid-19 疫苗接种和病例趋势 数据产品旁边的框
  9. 选择“ 继续”
  10. 计划扫描,确保扫描在每个月的最后一天运行
    1. 选择 “定期”
    2. 重复周期:每一个月
    3. 月份天数:最后一天
    4. 计划扫描时间 (UTC) :12:00:00
    5. 在 UTC) (开始定期:保留为默认值
  11. 选择“ 继续”
  12. 查看扫描的详细信息,查看在保存之前是否想要进行任何更改。
  13. 选择“保存”。 由于我们之前触发了手动扫描,因此现在不需要触发另一次扫描,但如果需要新的扫描,请选择“ 保存并运行”。

配置警报

数据质量经过计划扫描后,可以触发警报,让专员知道是否存在数据质量问题或扫描失败导致的问题或需要注意。 为失败的扫描和分数降低超过 5% 时配置数据质量警报。

  1. 返回“数据质量”页上的“个人运行状况”域。
  2. “管理 ”下拉列表中,选择“ 警报”。
  3. 选择 新建
  4. 输入警报详细信息
    1. 显示名称:个人健康 DQ 每月扫描
    2. 说明:确保最低 DQ 阈值满足使用者预期。
    3. 目标:分数减少超过
    4. 阈值:5
    5. 关闭通知:保持未选中状态
    6. 打开质量扫描失败通知:保持选中状态
    7. 收件人:输入姓名
  5. 选择 继续

提示

在统一目录中实现时,需要向管理员发送警报,以便将问题通知使用者,并与数据的技术所有者协作进行更正。

在本部分结束时,你将获得一个正常运行统一目录,其中包含作数据质量,用于管理你向组织数据使用者提供的数据。 一切都是将最有价值的数据传递给使用者,并建立对他们将使用的数据的信任。 随着数据价值的增长和新的数据策略的出现,下一部分将帮助演示如何管理整个目录,或者更深入地使用主数据进行特定数据管理。

步骤 5:主数据管理

主数据管理是符合最重要的数据实体的做法,这些实体必须准确、独特且一致地应用于业务的所有领域,因为这些数据中的错误和问题可能会影响整个业务。 通过我们的 MDM 合作伙伴之一,你将能够将所选的 Master 数据管理 (MDM) 解决方案与 Microsoft Purview 集成,以实现数据统一、标准化和清理,从而创建黄金记录并将主数据发布为数据产品。

按照此处的教程获取所选解决方案: Microsoft Purview 中的主数据管理

步骤 6:管理数据运行状况

在 Microsoft Purview 数据资产运行状况中,中央数据办公室和其他数据经理能够根据公司标准评估数据的状态,并有效地管理其战略进度。 为了确保公司中的每个人都知道可以采取哪些措施来增加其数据的价值,必须了解标准并使其对整个组织可缩放,而无需让每个人都成为数据治理专家。 从 Microsoft Purview 每个数据办公室中现装的一组行业标准控件开始,并自定义控件以满足其期望,并确保它与其数据目标保持一致。 这些控制措施的有效性的关键不仅在于衡量这些标准,而且还要确保负责数据的人员能够自行采取行动,并负责做出影响数据价值的改进。 在“数据资产运行状况”中,可以设置和管理所有这些关键功能。

先决条件

使用数据资产运行状况评估数据治理

  1. 打开 Microsoft Purview 门户

  2. 选择“统一目录”。

  3. 在左侧导航的 “数据资产运行状况 ”下,选择“ 运行状况控件”。

  4. 选择“值创建”控件组旁边的胡萝卜>

  5. 将鼠标悬停在控件标题上时,选择铅笔图标以编辑控件。 通过编辑控件,可以更改控件的阈值,以设置分数的预期值,并设置颜色评分以演示进度阶段。

  6. 通过这些详细信息,你可以提供控件的说明,以及它对组织的意义,并为特定控件设置所有者。

  7. 选择控件的“ 规则 ”选项卡以更改阈值。 这表明它的目标很高,如果它不健康,那么跟进至关重要。

    1. 继承自组:切换以关闭 (应) 灰色。
    2. 目标分数:90
    3. 选择“ 新建规则”。
    4. 将分数旁边的框设置为 GreaterThanOrEqual
    5. 将百分比设置为 90
    6. 状态 = 运行状况 (绿色)
    7. Else Box 状态 = 严重 (紫色)
    8. 选择“保存”
  8. 在“数据资产运行状况”下,选择“ 元数据质量”。

在这里,可以更改或添加创建控件分数的规则。 在这里,我们希望更改 “价值创建 ”作的严重性,以确保所有用户都知道此作的重要性。

  1. 选择 “配置严重性”
  2. 选择 “值创建” 控件组
  3. 选择 业务 OKR 对齐控件 标题
  4. 将严重性从“中”更改为“高”,然后选择“ 保存”
  5. 选择“ 运行状况作 ”选项卡
  6. 筛选器分配给: 到你的姓名
  7. 选择一个作,你可以看到作的所有者需要执行哪些作以确保满足治理预期,或者他们可以分配一个新的所有者来获得最好的专家来提供他们的输入。 还有一种状态,可让其他人知道正在进行的工作以及需要确定其他作优先级的位置。

步骤 7:数据大众化

让用户以投诉方式查找和访问所需的数据是数据民主化的本质,并确保用户可以找到构建业务价值所需的数据。 提供简洁简单的数据发现体验是Microsoft Purview 统一目录的目的,同时使专员能够大规模更新和管理目录中提供的数据。 在本部分中,我们将逐步讲解用户如何查找和请求对数据的访问权限,并确保相应的审批者能够跟踪这些访问请求并提供输入。

先决条件

发现数据产品

  1. 在“统一目录”中,依次选择“发现”、“数据产品”。
  2. “数据产品 ”页上,使用搜索栏按年龄搜索疫苗接种率。
  3. 在这里,你将看到你在 第 2 节中发布的数据产品。 这显示了如何仅向用户公开用于发现和防止用户浏览技术性较高的数据资产的数据。
  4. 年龄选择 Covid-19 疫苗接种和病例趋势 数据产品
    1. 在这里,使用者可以看到你提供的元数据,以及安装过程中配置的任何其他属性。 数据质量分数也在这里,因此消费者甚至在访问数据之前就知道质量。
    2. 选择资产,使用者可以看到数据资产中提供的所有列。
    3. 选择“爆发”术语表术语,使用者可以查看有关该术语的说明和其他信息,以便更深入地了解数据。
  5. 一旦使用者确信想要使用该数据,他们需要获得对数据的批准访问权限。
    1. 选择 “请求访问权限”
    2. 填写表单详细信息以提交请求。
    3. 用户:保留你的姓名
    4. 经理审批:自动要求并定向到Microsoft Entra ID经理。
    5. 目的:选择目的
    6. 业务理由:OKR 监视
    7. 选中证明旁边的框,表示你了解使用此数据的预期。
    8. 选择“ 发送”。

访问请求现在将发送到Microsoft Entra ID中列出的托管。 在这里,经理可以通过打开电子邮件并选择链接或进入 purview Microsoft 来访问请求。 可以直接在 Microsoft Purview 中审批和管理访问权限。

  1. 在“统一目录”中,依次选择“目录管理”、“请求”。
  2. 选择“ 个人运行状况 ”域。
  3. 选择提交的请求。
  4. 现在,审批者可以通过对请求选择“ 响应 ”来批准或拒绝。