Microsoft synapse 无服务器和数据仓库的数据质量

注意

Microsoft Purview 数据目录将其名称更改为 Microsoft Purview 统一目录。 所有功能将保持不变。 当新的 Microsoft Purview 数据治理体验在你的区域中正式发布时,你将看到名称更改。 检查你所在的区域的名称

Azure Synapse Analytics 是一项企业分析服务,可缩短跨数据仓库和大数据系统的见解时间。 它汇集了企业数据仓库中使用的最佳 SQL 技术、适用于大数据的 Apache Spark 技术以及用于日志和时序分析的 Azure 数据资源管理器。

Azure Synapse是一种无限的分析服务,将企业数据仓库和大数据分析汇集在一起。 它使你能够自由地使用无服务器资源或专用资源(大规模)按条件查询数据,有关Azure Synapse查看 Fabric 文档的更多详细信息。

具有专用 Synapse Data Warehouse (DWH 实例的 synapse 工作区示例) Table EMPLOYEE 和包含 SynapseSalesDelta 表的无服务器数据库 (SQL_ON_DEMAND) 。

synapse Analytics 工作区的屏幕截图。

扫描后,资产将在 Microsoft Purview 上可用。 下面是 Synapse Analytics 专用实例上的 Employee Table 示例。

Azure Synapse分析专用 (Data Warehouse)

设置数据映射扫描

若要扫描 Azure Synapse Analytics 专用 (Data Warehouse) 请按照文档进行操作:若要授予专用 DWH 实例所需的 MI 权限,请按照文档操作

数据映射扫描配置的屏幕截图。

扫描后,资产可在 Microsoft Purview 目录中使用。 下面是 Synapse Analytics 专用实例上的 Employee Table 示例。

数据映射扫描结果的屏幕截图。

设置与 synapse 专用数据仓库的连接

此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域 Sele 中的数据产品。 在“数据质量”选项卡上,添加新Azure SQL数据库连接:获取手动输入的数据库名称。

  1. 选择“数据质量 > 治理域 > 管理”选项卡以创建连接。

    如何设置连接的屏幕截图。

  2. 在连接页中配置连接。

    • 添加连接名称和说明。
    • Azure Synapse Analytics 选择源类型。
    • 选择“ Azure 订阅”。
    • 选择 “工作区名称”。
    • 选择“ 专用 SQL 终结点”。
    • 选择 “无服务器 SQL 终结点”。
    • 选择 “终结点类型”。
    • 选择“ 数据库”。
    • 将 MSI 添加为凭据。

    如何设置数据源连接的屏幕截图。

  3. 测试连接。 配置数据源连接并成功对其进行测试后,可以继续配置和运行数据事件探查和数据质量扫描。

  4. 如果 Synapse 数据源位于专用终结点后面,则需要启用托管 vNet。 按照 如何配置托管 vNet 的文档进行操作

重要

数据质量专员需要对 synapse 专用数据仓库具有只读访问权限才能设置数据质量连接。 对于托管 vNet 设置,将无法测试连接。

Synapse 专用数据仓库中的数据分析和数据质量扫描

成功完成连接设置后,可以在 synapse 仓库中分析、创建和应用规则,并运行 DQ 扫描数据。 遵循以下文档中所述的分步指南:

重要

  • 查询的性能甚至成功运行取决于客户对其专用数据库实例的 DW 配置。
  • 相应的 DQ 评估作业或其他任何 DQ 作业都会在专用 DW 上引入连接,如果实例预配不足或并发限制失败,则客户需要了解 DW 配置。 对于任何实例,其并发性都存在非常硬的限制。
  • 并发限制可能会导致作业终止。 DW 限制 (此类 1000 DW) 提供在 PDW 上运行查询的能力,如果) 预配不足,将导致长时间执行的查询和响应 (。
  • vNet 支持以门控预览版提供。 请联系 Purview 销售团队,允许将租户列入门控预览版。

Azure Synapse Analytics 无服务器

设置数据映射扫描

若要扫描 Azure Synapse Analytics Serverless,请遵循文档:并授予对专用 DWH 实例的必要 MI 权限,请按照文档操作。 扫描后,无服务器资产可在 Microsoft Purview 目录中使用。

无服务器的数据映射扫描配置的屏幕截图。

设置与 synapse Serverless 的连接

此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域 Sele 中的数据产品。 在“数据质量”选项卡上,添加新Azure SQL数据库连接:手动输入的数据库名称。

  1. 选择“ 数据质量>治理域>管理 ”选项卡以创建连接。

    如何设置连接的屏幕截图。

  2. 在连接页中配置连接。

    • 添加连接名称和说明。
    • Azure Synapse Analytics 选择源类型。
    • 选择“ Azure 订阅”。
    • 选择 “工作区名称”。
    • 选择“ 专用 SQL 终结点”。
    • 选择 “无服务器 SQL 终结点”。
    • 选择 “终结点类型”。
    • 选择“ 数据库”。
    • 将 MSI 添加为凭据。

    如何为 synapse 无服务器设置数据源连接的屏幕截图。

  3. 测试连接。 配置数据源连接并成功对其进行测试后,可以继续配置和运行数据事件探查和数据质量扫描。

  4. 如果 Synapse 数据源位于专用终结点后面,则需要启用托管 vNet。 按照 如何配置托管 vNet 的文档进行操作

重要

  • 数据质量专员需要对 synapse 专用数据仓库具有只读访问权限才能设置数据质量连接。
  • 在 Synapse 无服务器设置中,外部表指向存储在 ADLS Gen2 中的 Delta 格式数据。
  • vNet 支持以门控预览版提供。 请联系 Purview 销售团队,允许将租户列入门控预览版。

分析和数据质量 (DQ) 扫描 synapse 无服务器中的数据

成功完成连接设置后,可以分析、创建和应用规则,并运行数据质量 (DQ) 扫描 synapse 仓库中的数据。 遵循以下文档中所述的分步指南:

重要

  • DQ 评估、分析在后台的 spark 上运行,客户将具有多个连接,其中每个 Spark 节点将具有一个连接 SPID,因此,如果使用/计划超过 DW 限制,则 DWH 可能会遇到当前查询限制,从而导致失败。 但对于Azure Synapse无服务器 SQL 表 - 没有此类并发限制适用;它完全取决于客户对其 ADLS Gen2 实例的无服务器 Delta parquet 优化。 可以将引擎视为密切共鸣 Databricks 无服务器 DW 在外部 Lakehouse 源(如 DELTA 格式表)上运行。

参考文档