Snowflake 数据的数据质量
注意
Microsoft Purview 数据目录将其名称更改为 Microsoft Purview 统一目录。 所有功能将保持不变。 当新的 Microsoft Purview 数据治理体验在你的区域中正式发布时,你将看到名称更改。 检查你所在的区域的名称。
扫描 Snowflake 数据源时,Microsoft Purview 支持:
提取技术元数据,包括:
- 服务器、数据库、架构和表,包括列、视图(包括列、外键和唯一约束)
- 存储过程,包括参数数据集和结果集
- 包含参数数据集的函数
- 管道、阶段和流,包括列
- 任务和序列
在 Microsoft Purview 中将数据映射扫描配置为编录 Snowflake 数据
注册 Snowflake 源
若要在数据目录中注册新的 Snowflake 源,请执行以下步骤:
- 在 Microsoft Purview 治理门户中导航到Microsoft Purview 帐户。
- 在左侧导航中选择“数据映射”。
- 选择“注册”
- 在“注册源”上,选择“Snowflake”。
设置数据映射扫描
- 选择已注册的 Snowflake 源。
- 选择“+ 新建扫描”。
- 提供以下详细信息:
- 名称:扫描的名称
- 通过集成运行时进行连接:根据方案选择 Azure 自动解析的集成运行时、托管 VNet IR 或 SHIR。
- 用于连接的主机:选择用于在扫描期间与 Snowflake 建立连接的终结点。 可以从服务器 URL 或数据源中配置的其他主机中进行选择。
- 凭据:选择要连接到数据源的凭据。 请确保:
- 创建凭据时选择“基本身份验证”。
- 在“用户名”输入字段中提供用于连接到 Snowflake 的用户名。
- 将用于连接到 Snowflake 的用户密码存储在密钥中。
- 仓库:指定用于在大写情况下支持扫描的仓库实例的名称。 分配给凭据中指定的用户的默认角色必须对此仓库具有 USAGE 权限。
- 数据库:指定要以大写形式导入的一个或多个数据库实例名称。 使用分号 (;) 分隔列表中的名称。 例如,DB1;DB2。 分配给凭据中指定的用户的默认角色必须对数据库对象具有足够的权限。
- 架构:列出要导入的架构子集,表示为分号分隔列表。
- 选择“测试连接”以验证使用 Azure Integration Runtime) 时可用的设置 (。
- 选择 继续。
- 选择用于分类的扫描规则集。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联创建新的规则集。
- 查看扫描并选择“ 保存并运行”。
扫描后,Snowflake 中的数据资产将在数据目录搜索中可用。 有关如何在 Microsoft Purview 中连接和管理 Snowflake 的更多详细信息, 请遵循此文档。
重要
从数据源中删除对象时,当前后续扫描不会自动删除 Microsoft Purview 中的相应资产。
为数据质量扫描设置与 Snowflake 数据源的连接
此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域 Sele 中的数据产品。 在“数据质量”选项卡上,添加新Azure SQL数据库连接:获取手动输入的数据库名称。
选择“数据质量 > 治理域 > 管理”选项卡以创建连接。
在连接页中配置连接。
- 添加连接名称和说明
- 选择源类型 Snowflake
- 添加服务器名称、仓库名称、数据库名称、架构名称和表名称
- 选择身份验证方法 - 基本身份验证
- 添加用户名
- 添加凭据
- 添加 Azure 订阅
- Key Vault 连接
- 机密名称
- 机密版本
测试连接以确保配置的连接已成功建立。
重要
数据质量专员需要对 Snowflake 具有 只读 访问权限才能设置数据质量连接。
Snowflake 中数据的分析和数据质量扫描
成功完成连接设置后,可以在 Snowflake 中分析、创建和应用规则,并运行数据的 DQ 扫描。 遵循以下文档中所述的分步指南: