监视 Microsoft Purview 中的数据映射填充

在 Microsoft Purview 中,可以扫描各种类型的数据源并查看一段时间内的扫描状态。 还可以将其他服务与 Microsoft Purview 连接,并查看引入的资产/关系的趋势。 本文概述了如何监视和获取数据地图总体的鸟瞰图。

监视扫描运行

  1. 通过以下方式打开 Microsoft Purview 治理门户:

  2. 打开 Microsoft Purview 帐户,然后选择“ 数据映射 ->监视”。 需要对任何集合具有 数据源管理员 角色才能访问此页面。 可以看到属于具有数据源管理员权限的集合的扫描运行。

  3. 高级 KPI 显示一段时间内的扫描运行总数。 该时间段默认为过去 30 天,还可以选择过去 7 天。 根据所选的时间筛选器,可以在图中查看“成功”、“已完成但异常”、“失败”、“已取消”和“正在进行”扫描运行的分布情况(按周或按天)。 它是扫描运行端到端状态,包括发现和引入阶段。 有关状态详细信息的详细信息,请参阅 扫描运行详细信息 部分。

    查看一段时间内的扫描运行

  4. 在图形底部,有一个 “查看更多” 链接供你进一步探索。 该链接将打开 “扫描状态 ”页。 在这里,可以看到扫描名称及其状态为“成功”、“已完成但出现异常”、“失败”或“已取消”的次数。 还可以按源类型筛选列表。

    查看扫描状态的详细信息

  5. 可以通过选择扫描名称进一步浏览特定 扫描。 它会将你连接到扫描历史记录页,你可以在其中找到包含更多执行详细信息的扫描运行列表。

    查看给定扫描的扫描历史记录

  6. 可以单击运行 ID 以检查有关扫描运行详细信息的详细信息。

已知限制:

目前,此监视体验不包括以下信息。 可以检查相应的扫描运行详细信息

  • 不涵盖Azure SQL数据库的世系提取扫描运行。
  • 对于 Azure Synapse Analytics 工作区、Azure 订阅/资源组和 AWS 帐户的扫描,它仅捕获父扫描运行的状态/计数,而不捕获每个资源的子扫描运行。

扫描运行详细信息

可以导航到从不同位置扫描给定扫描的运行历史记录:

  • “监视扫描运行”部分中所述,转到“数据映射 -> 监视”。
  • 转到数据映射 -> -> 选择所需的数据源 -> 请参阅扫描最近扫描最近失败的扫描
  • 转到 数据映射 ->集合 -> 选择所需的集合 ->扫描 -> 选择要查看更多的扫描名称。

扫描运行历史记录的保留期为 90 天。

可以单击运行 ID 以检查有关扫描运行详细信息的详细信息:

视图扫描运行执行详细信息的屏幕截图。

  • 顶部部分概述了扫描运行,包括以下信息:

    • 运行 ID:用于标识此特定扫描运行的 GUID。
    • 扫描类型:手动或计划扫描。
    • 运行类型:完全扫描或增量扫描。
    • 扫描规则集:运行中使用的扫描规则集(如果适用)。
    • 扫描运行状态:总体扫描状态。 它结合了元数据发现和引入阶段的状态。
    • 扫描运行持续时间:端到端执行持续时间和开始/结束时间。
  • 元数据发现 部分汇总了 Purview 连接到源的发现阶段的指标,提取元数据/世系并分类数据。

    • 发现状态

      状态 说明
      已完成 元数据发现成功。
      已完成但出现异常 元数据发现完成,而某些基础操作失败,这可能导致扫描结果中缺少资产、元数据或分类。 可以在 异常日志中查看详细信息。
      已失败 元数据发现失败。 可以通过单击旁边的“更多信息”链接来检查错误详细信息。
      已取消 扫描运行由用户取消。
      正在进行中 元数据发现正在运行。
      已排队 元数据发现正在等待可用的集成运行时资源。
      如果使用自承载集成运行时,请注意,每个节点可以同时运行多个并发扫描,具体取决于计算机规范 (CPU 和内存) 。 更多扫描处于“已排队”状态。
      扼杀 元数据发现受到限制。 这意味着此Microsoft Purview 帐户目前具有比允许的最大并发计数更多的持续扫描运行。 在此处详细了解限制。 此特定扫描运行正在等待,将在其他正在进行的扫描 () 完成后执行。

      在“已限制”或“已排队”状态期间,扫描运行不会收费。

    • 发现的资产:从源中枚举的资产数。 对于完整扫描和增量扫描,它包括配置范围中的所有资产,无论它们是现有资产还是自上次扫描运行以来新创建/更新的资产。 对于增量扫描,仅提取新创建或更新的资产的详细元数据。

    • 分类的资产:为对数据进行分类而采样的资产数,无论资产是否具有任何匹配的分类。 它是基于 采样机制的已发现资产的子集。 对于增量扫描,只能选择新创建或更新的资产进行分类。

    • 持续时间:发现阶段持续时间和开始/结束时间。

  • 元数据引入 部分汇总了 Purview 使用标识的元数据和关系填充数据映射的引入阶段的指标。

    • 引入状态

      状态 说明
      已完成 所有资产和关系都已成功引入数据映射。
      已完成,但 (以前的“部分已完成”) 部分资产和关系已成功引入数据映射,而某些资产和关系会失败。 可以在 异常日志中查看详细信息。
      已失败 引入阶段失败。
      已取消 扫描运行由用户取消,因此会一起取消引入。
      正在进行中 引入正在进行中。
      已排队 引入正在等待可用的服务资源或等待扫描以发现元数据。
    • 引入的资产:引入到数据映射中的资产数。 对于增量扫描,它仅包括新创建或更新的资产,在这种情况下,可能小于“发现的资产”计数。 扫描基于文件的源时,它是资源集聚合前的原始资产计数。

    • 引入的关系:引入到数据映射中的关系数。 它包括世系和其他关系,如外键关系。

    • 持续时间:引入持续时间和开始/结束时间。

查看异常日志 (预览)

重要

此功能目前处于预览阶段。 Microsoft Azure 预览版的补充使用条款包括适用于 Beta 版、预览版或其他尚未正式发布的 Azure 功能的其他法律条款。

当某些资产或关系在扫描运行期间无法从源中发现或无法引入数据映射时。 例如,状态最终显示为“已完成”,但出现异常,你可以:

  1. 选择扫描。
  2. 选择包含失败或异常的扫描的运行 ID。
  3. 扫描运行详细信息面板中选择“下载日志”按钮。 它提供捕获失败详细信息的异常日志文件。

发现阶段日志

下表显示了发现阶段日志文件的架构。

说明
TimeStamp 发现操作发生时的 UTC 时间戳。
ErrorCode 异常的错误代码。
OperationName 它包含以下值:
- 枚举:指示枚举给定范围下的子对象的操作,例如列出容器下的文件夹/文件,列出数据库下的表。 失败时,扫描结果中不包含操作项的子对象。
- GetMetadata:指示提取对象(例如表、文件等)的元数据的操作。发生故障时,操作项的资产可能不包含完整的元数据。
- SampleResourceSet:指示在扫描基于文件的数据源时对与资源集模式匹配的最新文件采样的操作。 发生故障时,操作项所属的资源集可能会错过分类/架构。
- ReadData:指示从源检索示例数据的操作。 失败时,操作项未分类。 如果它是基于文件的源,则也可能缺少架构。
- 分类:指示应用分类的操作。 失败时,操作项可能会错过分类。
- GenerateAsset:指示将发现的元数据转换为 Microsoft Purview 资产的操作。 当发生故障(通常是由于系统错误)时,操作项的资产最终不会显示在数据映射中。
OperationItem 失败的资产/关系的标识符,通常使用完全限定的名称。
邮件 有关由于什么原因未能发现哪些资产/关系的详细信息。

已知限制:

  • 使用 Azure 集成运行时或托管虚拟网络集成运行时进行扫描时,支持发现阶段日志。
  • 扫描 Azure 或 Power BI 数据源时,支持发现阶段日志。
  • 目前,它可能无法捕获扫描运行期间发生的所有异常。

引入阶段日志

下表显示了引入阶段日志文件的架构。

说明
TimeStamp 引入操作发生时的 UTC 时间戳。
ErrorCode 异常的错误代码。
OperationItem 失败的资产/关系的标识符,通常使用完全限定的名称。
邮件 有关由于什么原因未能引入哪些资产/关系的详细信息。 如果资源集的引入失败,则它可能会应用于匹配同一命名模式的多个资产,并且消息包含受影响的计数。

可以将其他服务与 Microsoft Purview 连接,以建立“链接”,使该服务资产的元数据和世系可供Microsoft Purview 使用。 目前,Azure 数据工厂Azure Synapse Analytics 支持链接。

监视通过链接引入的资产和关系:

  1. 转到 Microsoft Purview 帐户 ->打开 Microsoft Purview 治理门户 ->数据映射 ->监视 ->链接。 需要对任何集合具有 数据源管理员 角色才能访问“监视”选项卡。可以看到属于具有数据源管理员权限的集合的结果。 需要对根集合具有权限才能监视Azure 数据工厂和Azure Synapse Analytics 链接。

  2. 可以看到高级 KPI,包括源总数、引入的资产数和关系 (世系) ,然后是随时间推移的趋势图表。 可对以下内容应用更多筛选器,以缩小结果范围:

    • 源类型
    • 源名称
    • 日期范围:默认值为 30 天。 还可以选择过去 7 天或自定义日期范围。 保留期为 45 天。

    指标将报告到右上角显示的日期时间。 聚合每小时发生一次。

    查看链接结果的屏幕截图。

  3. 在图形底部,有一个 “查看更多” 链接供你进一步探索。 在 “链接状态 ”页中,可以看到源名称的列表,以及源类型、引入的资产、引入的关系和上次运行日期时间。 将传递上一页中的筛选器,可以按源类型、源名称和日期范围进一步筛选列表。

    按源查看链接结果的屏幕截图。

  4. 可以通过单击源名称向下钻取到每个源以查看下一级别的详细信息。 例如,对于Azure 数据工厂,它显示每个管道活动如何报告资产和与 Microsoft Purview 的关系,其名称的格式<pipeline_name>/<activity_name>为 。

    按源的子项目查看链接结果的屏幕截图。

已知限制

  • 对于 Azure 数据工厂 和 Azure Synapse Analytics,此链接监视当前捕获从复制活动生成的资产和关系,但不会捕获数据流和 SSIS 活动。
  • 聚合和日期筛选器采用 UTC 时间。

扫描不再运行

如果Microsoft Purview 扫描过去成功运行,但现在失败,检查以下事项:

  1. 首先检查错误消息以查看失败详细信息。
  2. 是否已更改或轮换了资源的凭据? 如果是这样,则需要进行更新,以使扫描使用正确的凭据。
  3. 是否Azure Policy阻止对存储帐户进行更新? 如果是这样,请按照 Microsoft Purview 异常标记指南 为 Microsoft Purview 帐户创建异常。
  4. 是否使用自承载集成运行时? 检查它是否是最新的软件,以及它是否已连接到你的网络。

后续步骤