数据质量故障排除

注意

Microsoft Purview 数据目录将其名称更改为 Microsoft Purview 统一目录。 所有功能将保持不变。 当新的 Microsoft Purview 数据治理体验在你的区域中正式发布时,你将看到名称更改。 检查你所在的区域的名称

以下可能的解决方案描述了所有问题、错误症状:

为什么我在扫描作业中看到无效的源错误。

  • 出现此错误的原因有两种:
    • 位置中不存在增量表
    • 文件中的数据不是有效的增量格式。

我正在为 Fabric 增量表设置数据质量扫描。 我在数据质量视图中看到所有数据资产,我选择了一个资产并应用了数据质量扫描规则,但扫描失败。

  • 数据质量扫描失败的原因可能有很多:

为什么我看到此错误消息:无法使用连接。 先尝试创建连接?

显示连接错误的“数据质量概述”页的屏幕截图。

  • 若要分析数据或运行数据质量扫描,首先需要配置数据源连接。 创建数据源连接后,此警报将消失。

为什么分析数据的总计数显示小于我的Azure Data Lake Storage Gen2增量表中的总计数?

  • Microsoft Purview 数据质量使用 100 万个样本大小进行分析。 此示例 是随机获取的。 如果增量表的记录数超过百万条,则总计数不匹配。

为什么我看到数据产品缺少有关数据质量分数的操作,当我浏览数据产品视图时,我在数据产品中看到分数。

  • 创建操作时,该数据产品没有任何数据质量分数。 数据质量扫描在创建操作并发布数据产品的分数后运行。 建议在修正完成后关闭操作,以避免混淆。

从“建议规则”创建数据质量规则时,尝试添加所有 30 条建议的规则时,会引发有关“日期”列的错误

  • 这是因为数据质量架构视图中的架构数据类型状态 不受支持 。 可以通过选择架构管理切换开关并将其保存,将数据类型更改为日期。 更改数据类型后,应能够添加规则。

尝试添加所有建议的规则时,会引发有关“ObserverId 已存在”的错误

  • 很可能,相同/相同的规则已添加到列中。 尝试将相同/相同的规则添加到列时,应用程序会引发此错误消息。

为什么我的计划作业会跳过而不是运行? 我看到 跳过 的数据质量扫描作业

  • 仅当自上次运行以来发生更改时,DQ 作业才具有检查和运行 DQ 的功能,这是为检查增量历史记录而执行的。 跳过仅表示自上次运行以来,数据中没有更改,并且不会执行 DQ 的 Spark 运行。 已跳过!= 失败

选择“配置文件数据”选项卡时,会看到预选的列数。 是否可以更改所选列?

  • Microsoft Purview 数据质量正在使用 AI 辅助分析解决方案。 使用 Microsoft Purview 数据事件探查 AI 选择预选列。 可以取消选择预选列并根据列的严重性重新选择,然后选择 “保存并运行 ”以运行分析。

为什么我无法从数据质量资产列表页中选择某些数据资产来分析和扫描?

  • 原因可能如下:
    • 这些数据资产从不受支持的数据源发布
    • 不支持这些数据资产的文件格式

为什么我的分析作业对支持的数据源失败?

  • 检查架构以确保没有包含空格的列名。 当前版本不支持包含空格的列名。 我们的工程师正在努力发布修补程序。

为什么我无法对 CSV、parquet 和文本文件运行数据质量扫描和数据分析?

  • Microsoft Purview 数据质量目前仅支持 parquet 的增量格式。 Purview 数据质量不支持 CSV、文本和 parquet (无增量) 。

为什么在规则列表中看不到数据质量新鲜度规则?

  • Azure SQL表不支持数据质量新鲜度。 如果数据资产是Azure SQL表,则不会列出新鲜度规则来选择并应用于数据资产。

我的 DQ 扫描作业失败。 我看到错误消息“发生内部服务错误,请重试,或联系Microsoft支持人员。 应执行哪些操作来排除故障?

  • 扫描失败的原因有很多,并出现以下错误消息:
    • 用户无权对用户尝试访问的数据质量扫描的工作区执行当前操作。
    • 错误代码 403,表示暂时禁止访问数据源。
    • 已授予对托管标识数据源的访问权限, (MSI) 已过期。
    • purview 托管标识 (MSI) 需要参与者访问 Microsoft Fabric 工作区。 如果尚未向 Microsoft Fabric 工作区提供 purview MSI Microsoft参与者访问权限,则数据质量扫描将失败。

为什么即使我使用的是增量格式,我也会收到增量格式错误?

  • 我们支持 Spark 3.4 Delta 2.4。 请确保使用 delta lake 版本 2.4。

为什么在选择引用数据资产来配置表查找规则时看到错误

  • 原因是你选择了一个数据资产,该资产未部分链接或引用到同一治理域下的数据产品。 选择正确的数据资产:
    • 单击“选择引用表” (查看以下屏幕截图)

      查找数据资产错误的屏幕截图。

    • 取消当前选择 (请参阅下面的屏幕截图)

      选择正确的数据资产的屏幕截图。

    • 取消当前选择后,选择其他资产。

如何为 Microsoft Purview MSI 配置对数据源的访问?

我们所有的数据源都位于 vNet) 中的专用终结点 (后面,Purview 是否可以访问 vNet 中的数据进行数据质量扫描?

在哪里可以找到有关用于创建自定义规则的表达式函数的良好文档?

为什么 Fabric Lakehouse 表的 DQ 扫描失败?

  • 对 fabric Lakehouse 的 Purview 数据映射支持以个人预览版提供。 我们需要允许将 purview 租户列出到 Purview 数据映射和 Fabric One Lake,以使用 Purview DQ 启用 Fabric Lakehouse 表 DQ 扫描。 请联系Microsoft帐户团队,将租户列入 Fabric Lakehouse 支持列表。