Microsoft synapse 无服务器和数据仓库的数据质量
Azure Synapse Analytics 是一项企业分析服务,可缩短跨数据仓库和大数据系统的见解时间。 它汇集了企业数据仓库中使用的最佳 SQL 技术、适用于大数据的 Apache Spark 技术以及用于日志和时序分析的 Azure 数据资源管理器。
Azure Synapse是一种无限的分析服务,将企业数据仓库和大数据分析汇集在一起。 它使你能够自由地使用无服务器资源或专用资源(大规模)按条件查询数据,有关Azure Synapse查看 Fabric 文档的更多详细信息。
具有专用 Synapse Data Warehouse (DWH 实例的 synapse 工作区示例) Table EMPLOYEE 和包含 SynapseSalesDelta 表的无服务器数据库 (SQL_ON_DEMAND) 。
扫描后,Microsoft Purview 中提供资产。 下面是 Synapse Analytics 专用实例上的 Employee Table 示例。
Azure Synapse分析专用 (Data Warehouse)
设置数据映射扫描
若要扫描 Azure Synapse Analytics 专用 (Data Warehouse) 请按照文档进行操作:若要授予专用 DWH 实例所需的 MI 权限,请按照文档操作。
扫描后,资产可在 Microsoft Purview 目录中使用。 下面是 Synapse Analytics 专用实例上的 Employee Table 示例。
设置与 synapse 专用数据仓库的连接
此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域 Sele 中的数据产品。 在“数据质量”选项卡上,添加新Azure SQL数据库连接:获取手动输入的数据库名称。
选择“数据质量 > 治理域 > 管理”选项卡以创建连接。
在连接页中配置连接。
- 添加连接名称和说明。
- Azure Synapse Analytics 选择源类型。
- 选择“ Azure 订阅”。
- 选择 “工作区名称”。
- 选择“ 专用 SQL 终结点”。
- 选择 “无服务器 SQL 终结点”。
- 选择 “终结点类型”。
- 选择“ 数据库”。
- 将 MSI 添加为凭据。
测试连接。 配置数据源连接并成功对其进行测试后,可以继续配置和运行数据事件探查和数据质量扫描。
如果 Synapse 数据源位于专用终结点后面,则需要启用托管 vNet。 按照 如何配置托管 vNet 的文档进行操作。
重要
数据质量专员需要对 synapse 专用数据仓库具有只读访问权限才能设置数据质量连接。 对于托管 vNet 设置,将无法测试连接。
Synapse 专用数据仓库中的数据分析和数据质量扫描
成功完成连接设置后,可以在 synapse 仓库中分析、创建和应用规则,并运行 DQ 扫描数据。 遵循以下文档中所述的分步指南:
重要
- 查询的性能甚至成功运行取决于客户对其专用数据库实例的 DW 配置。
- 相应的 DQ 评估作业或其他任何 DQ 作业都会在专用 DW 上引入连接,如果实例预配不足或并发限制失败,则客户需要了解 DW 配置。 对于任何实例,其并发性都存在非常硬的限制。
- 并发限制可能会导致作业终止。 DW 限制 (这样的 1000 DW) 提供运行查询的能力。
- vNet 支持以预览版提供,提供 GA 等级支持。
Azure Synapse Analytics 无服务器
设置数据映射扫描
若要扫描 Azure Synapse Analytics Serverless,请遵循文档:并授予对专用 DWH 实例的必要 MI 权限,请按照文档操作。 扫描后,无服务器资产可在 Microsoft Purview 目录中使用。
设置与 synapse Serverless 的连接
此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域 Sele 中的数据产品。 在“数据质量”中,添加新Azure SQL数据库连接:获取手动输入的数据库名称。
选择“ 数据质量>治理域>管理 ”选项卡以创建连接。
在连接页中配置连接。
- 添加连接名称和说明。
- Azure Synapse Analytics 选择源类型。
- 选择“ Azure 订阅”。
- 选择 “工作区名称”。
- 选择“ 专用 SQL 终结点”。
- 选择 “无服务器 SQL 终结点”。
- 选择 “终结点类型”。
- 选择“ 数据库”。
- 将 MSI 添加为凭据。
测试连接。 配置数据源连接并成功对其进行测试后,可以继续配置和运行数据事件探查和数据质量扫描。
如果 Synapse 数据源位于专用终结点后面,则需要启用托管 vNet。 按照 如何配置托管 vNet 的文档进行操作。
重要
- 数据质量专员需要对 synapse 专用数据仓库具有只读访问权限才能设置数据质量连接。
- 在 Synapse 无服务器设置中,外部表指向存储在 ADLS Gen2 中的 Delta 格式数据。
- vNet 支持以门控预览版提供。 请联系 Purview 销售团队,允许将租户列入门控预览版。
- Synapse 连接器仅检测并支持 sql.azuresynapse.net。 如果数据 Mmap 扫描生成的完全限定名称 (FQN) 包含 database.windows.net,则用于 DQ 扫描的 Synapse 连接将失败。
分析和数据质量 (DQ) 扫描 synapse 无服务器中的数据
成功完成连接设置后,可以分析、创建和应用规则,并运行数据质量 (DQ) 扫描 synapse 仓库中的数据。 遵循以下文档中所述的分步指南:
重要
- DQ 评估、分析在后台的 spark 上运行,客户将具有多个连接,其中每个 Spark 节点将具有一个连接 SPID,因此,如果使用/计划超过 DW 限制,则 DWH 可能会遇到当前查询限制,从而导致失败。 但对于Azure Synapse无服务器 SQL 表 - 没有此类并发限制适用;它完全取决于客户对其 ADLS Gen2 实例的无服务器 Delta parquet 优化。 可以将引擎视为密切共鸣 Databricks 无服务器 DW 在外部 Lakehouse 源(如 DELTA 格式表)上运行。