Microsoft Purview 扫描最佳做法

Microsoft Purview 治理解决方案 支持自动扫描本地、多云和软件即服务, (SaaS) 数据源。

运行 扫描 会调用从已注册数据源引入元数据的过程。 在扫描和策展过程结束时策展的元数据包括技术元数据。 此元数据可以包括数据资产名称,例如表名或文件名、文件大小、列和数据世系。 还会为结构化数据源捕获架构详细信息。 关系数据库管理系统就是此类源的一个示例。

策展过程根据配置的扫描规则集对架构属性应用自动分类标签。 如果 Microsoft Purview 帐户已连接到Microsoft Purview 合规门户,则会应用敏感度标签。

重要

如果有任何 Azure 策略 阻止对 存储帐户的更新,这将导致 Microsoft Purview 扫描过程出错。 按照 Microsoft Purview 异常标记指南 为 Microsoft Purview 帐户创建例外。

为什么需要最佳做法来管理数据源?

最佳做法使你能够:

  • 优化成本。
  • 打造卓越运营。
  • 提高安全合规性。
  • 提高性能效率。

注册源并建立连接

以下设计注意事项和建议可帮助你注册源并建立连接。

设计注意事项

  • 使用集合创建符合组织战略的层次结构,例如地理、业务职能或数据源。 层次结构定义要注册和扫描的数据源。
  • 根据设计,不能在同一 Microsoft Purview 帐户中多次注册数据源。 此体系结构有助于避免向同一数据源分配不同访问控制的风险。

设计建议

  • 如果多个团队使用同一数据源的元数据,则可以在父集合中注册和管理数据源。 然后,可以在每个子集合下创建相应的扫描。 这样,相关资产会显示在每个子集合下。 没有父级的源在地图视图中的虚框内分组。 没有箭头将它们链接到父级。

    显示 Microsoft Purview 的屏幕截图,其中数据源已在父集合中注册。

  • 如果需要在云中注册多个源(例如 Azure 订阅或资源组),请使用 Azure 多个 选项。 有关详细信息,请参阅以下文档:

  • 注册数据源后,你可能会多次扫描同一个源,以防不同的团队或业务部门以不同的方式使用同一源。

有关如何定义用于注册数据源的层次结构的详细信息,请参阅 集合体系结构的最佳做法

扫描

以下设计注意事项和建议根据扫描过程中涉及的关键步骤进行组织。

设计注意事项

  • 注册数据源后,设置扫描以管理自动化且安全的元数据扫描和策展。
  • 扫描设置包括为每个扫描频率的每个数据源唯一配置扫描名称、扫描范围、集成运行时、扫描触发器频率、扫描规则集和资源集。
  • 在创建任何凭据之前,请考虑数据源类型和网络要求。 此信息可帮助你确定方案所需的身份验证方法和集成运行时。

设计建议

在相关 集合中注册源后,在设置扫描时计划并遵循此处显示的顺序。 此过程顺序有助于避免意外成本和返工。

显示准备扫描时要遵循的顺序的屏幕截图。

  1. 从系统内置分类规则中确定分类要求。 或者,可以根据需要创建特定的自定义分类规则。 它们基于特定的行业、业务或区域要求,这些要求是现可用的:

  2. 在配置扫描之前创建扫描规则集。

    显示“数据映射”下的“扫描规则集”的屏幕截图。

    创建扫描规则集时,请确保以下几点:

    • 验证系统默认扫描规则集是否足以扫描要扫描的数据源。 否则,请定义自定义扫描规则集。

    • 自定义扫描规则集可以包括系统默认和自定义,因此请清除与要扫描的数据资产无关的选项。

    • 如有必要,请创建自定义规则集以排除不需要的分类标签。 例如,系统规则集包含地球的通用政府代码模式,而不仅仅是美国。 你的数据可能与某种其他类型的模式匹配,例如“比利时驾驶执照号码”。

    • 将自定义分类规则限制为 最重要相关的 标签,以避免混乱。 你不希望向资产标记太多标签。

    • 如果修改自定义分类或扫描规则集,则会触发完全扫描。 适当配置分类和扫描规则集,以避免返工和成本高昂的完整扫描。

      显示创建自定义扫描规则集时用于选择相关分类规则的选项的屏幕截图。

      注意

      扫描存储帐户时,Microsoft Purview 使用一组定义的模式来确定一组资产是否构成资源集。 可以使用资源集模式规则来自定义或覆盖 Microsoft Purview 检测哪些资产分组为资源集的方式。 这些规则还确定资产在目录中的显示方式。 有关详细信息,请参阅 创建资源集模式规则。 此功能具有成本注意事项。 有关信息,请参阅 定价页

  3. 为已注册的数据源设置扫描。

    • 扫描名称:默认情况下,Microsoft Purview 使用命名约定 SCAN-[A-Z][a-z][a-z],当你尝试识别已运行的扫描时,该约定没有帮助。 请务必使用有意义的命名约定。 例如,可以将扫描 环境-source-frequency-time 命名为 DEVODS-Daily-0200。 此名称表示 0200 小时的每日扫描。

    • 身份验证:Microsoft Purview 提供各种身份验证方法用于扫描数据源,具体取决于源的类型。 它可以是 Azure 云、本地或第三方源。 按照以下首选项顺序对身份验证方法遵循最低特权原则:

      • Microsoft Purview MSI - 托管服务标识 (,例如,Azure Data Lake Storage Gen2源)
      • 用户分配的托管标识
      • 服务主体
      • 例如,本地或Azure SQL源的 SQL 身份验证 ()
      • 帐户密钥或基本身份验证 (,例如,对于 SAP S/4HANA 源)

      有关详细信息,请参阅 管理凭据操作指南。

      注意

      如果为存储帐户启用了防火墙,则必须在设置扫描时使用托管标识身份验证方法。 设置新凭据时,凭据名称只能包含 字母、数字、下划线和连字符

    • 集成运行时

      • 有关详细信息,请参阅 网络体系结构最佳做法
      • 如果删除自承载集成运行时 (SHIR) ,则依赖于它的任何正在进行的扫描都将失败。
      • 使用 SHIR 时,请确保内存足以用于扫描的数据源。 例如,使用 SHIR 扫描 SAP 源时,如果看到“内存不足错误”:
        • 确保 SHIR 计算机具有足够的内存。 建议的量为 128 GB。
        • 在扫描设置中,将可用的最大内存设置为一些适当的值,例如 100。
        • 有关详细信息,请参阅 扫描并管理 SAP ECC Microsoft Purview 中的先决条件。
    • 范围扫描

      • 设置扫描范围时,请仅选择在粒度级别或父级别相关的资产。 这种做法可确保扫描成本达到最佳且性能高效。 如果对父级进行了完全或部分检查,则将自动选择某个父级下的所有未来资产。

      • 某些数据源的一些示例:

        • 对于Azure SQL数据库或Data Lake Storage Gen2,可以将扫描范围限定为数据源的特定部分。 选择列表中的相应项,例如文件夹、子文件夹、集合或架构。
        • 对于 Oracle、Hive 元存储数据库和 Teradata 源,可以使用 SQL LIKE 表达式通过分号分隔值或架构名称模式来指定要导出的特定架构列表。
        • 对于 Google Big 查询,可以通过分号分隔值来指定要导出的特定数据集列表。
        • 为整个 AWS 帐户创建扫描时,可以选择要扫描的特定存储桶。 为特定 AWS S3 存储桶创建扫描时,可以选择要扫描的特定文件夹。
        • 对于 Erwin,可以通过提供以分号分隔的 Erwin 模型定位符字符串列表来限定扫描范围。
        • 对于 Cassandra,可以通过分号分隔值或通过键空间名称模式使用 SQL LIKE 表达式来指定要导出的特定键空间列表。
        • 对于 Looker,可以通过提供以分号分隔的 Looker 项目列表来限定扫描范围。
        • 对于 Power BI 租户,只能指定是包含还是排除个人工作区。

        显示用于在配置扫描时确定扫描范围的选项的屏幕截图。

      • 通常,根据通配符 (使用“忽略模式”,例如,对于数据湖,) 排除临时、配置文件、RDBMS 系统表或备份或 STG 表。

      • 扫描文档或非结构化数据时,请避免扫描大量此类文档。 扫描处理此类文档的前 20 MB,并可能导致更长的扫描持续时间。

    • 扫描规则集

      • 选择扫描规则集时,请确保配置之前创建的相关系统或自定义扫描规则集。
      • 可以创建自定义文件类型并相应地填写详细信息。 目前,Microsoft Purview 仅支持自定义分隔符中的一个字符。 如果在实际数据中使用自定义分隔符(如 ~),则需要创建新的扫描规则集。

      显示配置扫描时选择的扫描规则集的屏幕截图。

    • 扫描类型和计划

      • 扫描过程可以配置为运行完整或增量扫描。
      • 在非业务或非高峰时段运行扫描,以避免源上出现任何处理过载。
      • 开始重复时间 必须至少比 计划扫描时间短 1 分钟,否则将在下一次重复周期中触发扫描。
      • 初始扫描是完全扫描,每次后续扫描都是增量扫描。 后续扫描可以计划为定期增量扫描。
      • 扫描频率应与数据源或业务要求的更改管理计划保持一致。 例如:
        • 如果源结构可能每周发生一次更改,则扫描频率应同步。更改包括已添加、修改或删除的资产中的新资产或字段。
        • 如果分类或敏感度标签应每周更新一次(可能是出于法规原因),则扫描频率应为每周一次。 例如,如果每周在源数据湖中添加分区文件,则可以计划每月扫描。 无需计划每周扫描,因为元数据没有更改。 此建议假定没有新的分类方案。
        • 将扫描计划为在创建的同一天运行时,开始时间必须至少早于扫描时间一分钟。
        • 扫描可以运行的最大持续时间为 7 天,可能是由于内存问题。 此时间段不包括引入过程。 如果 7 天后尚未更新进度,扫描将标记为“失败”。 引入 (到目录) 过程目前没有任何此类限制。
    • 取消扫描

      • 目前,如果扫描的状态在触发扫描后已从“已排队”转换为“正在进行”状态,则只能取消或暂停扫描。
      • 不支持取消单个子扫描。

需要注意的要点

  • 如果在执行扫描后从源系统中删除了某个字段或列、表或文件,则仅在下一次计划的完整或增量扫描之后 (Microsoft Purview 中删除) 才会反映该字段或列、表或文件。
  • 可以使用资产名称下的 “删除” 图标从 Microsoft Purview 目录中删除资产。 此操作不会删除源中的 对象。 如果在同一源上运行完全扫描,则会在目录中重新引入该扫描。 如果已计划每周或每月扫描,而不是 (增量) ,则不会选取已删除的资产,除非在源中修改对象。 例如,在表中添加或删除列。
  • 若要了解通过 Microsoft Purview 治理门户 手动 编辑数据资产或基础架构后后续扫描的行为,请参阅 目录资产详细信息
  • 有关详细信息,请参阅 有关如何查看、编辑和删除资产的教程。

后续步骤

管理数据源