设置数据源连接以连接数据源进行数据质量评估
数据源连接设置所需的身份验证,以分析数据的统计快照,或扫描数据以查找数据质量异常和评分。
设置数据源连接是数据资产的数据质量生命周期中的 第四 步。 前面的步骤包括:
- 在 统一目录 中分配用户 () 数据质量专员权限,以使用所有数据质量功能。
- 在Microsoft Purview 数据映射中注册和扫描数据源。
- 将数据资产添加到数据产品
先决条件
- 若要创建与数据资产的连接,用户必须具有 数据质量专员角色。
- 至少需要对要为其设置连接的数据源具有读取访问权限。
支持的多云数据源
- Azure Data Lake Storage Gen2
- 文件类型:Delta Parquet 和 Parquet
- Azure SQL 数据库
- OneLake 中的结构数据资产,包括快捷方式和镜像数据资产。 仅 Lakehouse 增量表和 parquet 文件支持数据质量扫描。
- 镜像数据资产:Cosmos DB、Snowflake Azure SQL
- 快捷方式数据资产:AWS S3、GCS、AdlsG2
- Azure Synapse无服务器和数据仓库
- Azure Databricks Unity 目录
- Snowflake
- Google Big Query (Private Preview)
目前,Microsoft Purview 只能使用 托管标识 作为身份验证选项运行数据质量扫描。 数据质量服务在 Apache Spark 3.4 和 Delta Lake 2.4 上运行。
重要
若要访问这些源,需要将 Azure 存储源设置为开放防火墙、允许受信任的 Azure 服务,或者按照数据质量托管虚拟网络配置指南中所述的准则使用专用终结点。
设置数据源连接
在“统一目录”中,依次选择“运行状况管理”、“数据质量”。
从列表中选择治理域。
从“管理”下拉列表中,选择“Connections”以打开“连接”页。
选择“ 新建 ”,为治理域的数据产品和数据资产创建新连接。
在右侧面板中,输入以下信息:
- 显示名称
- 说明
选择“ 源类型”,然后选择其中一个数据源。
根据数据源,输入访问详细信息。
如果测试连接成功,则 提交 连接配置以完成连接设置。
提示
还可以使用专用终结点和Microsoft Purview 数据质量托管虚拟网络创建与资源的连接。 有关详细信息,请参阅 托管虚拟网络一文。
连接设置步骤因本机连接器而异。 检查从本机连接器文档到为 Azure Databricsks、Snowflake、GoogBigQuery 和 synapse 连接器设置连接的连接设置步骤。
授予Microsoft对源的 Purview 权限
创建连接后,为了能够扫描数据源,Microsoft Purview 托管标识将需要对数据源具有权限:
若要扫描Azure Data Lake Storage Gen2,必须将存储 blob 数据读取者角色分配给 Microsoft Purview 托管标识。 可以按照源页上的步骤分配托管标识权限。
若要扫描Azure SQL数据库,请将db_datareader角色分配给 Microsoft Purview 托管标识。 可以按照源页上的步骤分配托管标识权限。
相关内容
- Fabric 数据资产的数据质量
- Fabric 镜像数据源的数据质量
- Fabric 快捷方式数据源的数据质量
- Azure Synapse无服务器和数据仓库的数据质量
- Azure Databricks Unity目录的数据质量
- Snowflake 数据源的数据质量
- Google Big Query 的数据质量
后续步骤
- 为数据源中的资产配置和运行数据分析。
- 根据分析结果设置数据质量规则,并将其应用于数据资产。
- 在数据产品上配置并运行数据质量扫描 ,以评估数据产品中所有受支持资产的质量。
- 查看扫描结果 以评估数据产品的当前数据质量。