Google BigQuery (Preview) 的数据质量
注意
Microsoft Purview 数据目录将其名称更改为 Microsoft Purview 统一目录。 所有功能将保持不变。 当新的 Microsoft Purview 数据治理体验在你的区域中正式发布时,你将看到名称更改。 检查你所在的区域的名称。
支持的功能
扫描 Google BigQuery 源时,Purview 支持Microsoft:
- 提取技术元数据,包括:
- 项目和数据集
- 包含列的表
- 包含列的视图
- 提取表和视图之间的资产关系的静态世系。
设置扫描时,可以选择扫描整个 Google BigQuery 项目。 还可以将扫描范围限定为与给定名称或名称模式匹配的数据集子集。
已知限制
- 目前,Microsoft Purview 仅支持扫描美国多区域位置的 Google BigQuery 数据集。 如果指定的数据集位于其他位置(例如 us-east1 或 EU),则会看到扫描完成,但 Microsoft Purview 中未显示任何资产。
- 从数据源中删除对象时,后续扫描当前不会自动删除 Microsoft Purview 中的相应资产。
配置数据映射扫描以编录 Microsoft Purview 中的 Google BigQuery 数据
注册 Google BigQuery 项目
- 打开Microsoft Purview,然后在左侧导航栏中选择“数据映射”。
- 选择“注册”。
- 在“注册源”上,选择“Google BigQuery”。 选择 继续。
- 输入数据源将在目录中列出的名称。
- 输入 ProjectID。 这应该是完全限定的项目 ID。 例如,mydomain.com:myProject
- 从列表中选择集合。
- 选择“注册”。
为 Google BigQuery 项目设置数据映射扫描
- 确保已设置自承载集成运行时。 如果未设置,请使用先决条件中提到的步骤
- 导航到“源”。
- 选择已注册的 BigQuery 项目。
- 选择“+ 新建扫描”。
- 提供以下详细信息:
- 名称:扫描的名称
- 通过集成运行时进行连接:选择配置的自承载集成运行时
- 凭据:配置 BigQuery 凭据时,请确保:
- 选择“基本身份验证”作为“身份验证”方法
- 在“用户名”字段中提供服务帐户的电子邮件 ID。 例如,xyz@developer.gserviceaccount.com
- 按照以下步骤生成私钥。 复制整个 JSON 密钥文件,并将其存储为密钥保管库机密的值。
- 若要从 Google 的云平台创建新的私钥,请执行以下操作:
- 在导航菜单中,选择“IAM (标识访问管理) ”,然后选择“管理员”->“服务帐户”->-“选择项目”-”>
- 选择要为其创建密钥的服务帐户的电子邮件地址。
- 选择“密钥”选项卡。
- 选择“添加密钥”下拉菜单,然后选择“创建新密钥”。
- 选择 JSON 格式。
- 指定 JDBC (Java 数据库连接的路径,) 运行自主机集成运行时的计算机中的驱动程序位置。 例如:D:\Drivers\GoogleBigQuery。
- 指定要导入的 BigQuery 数据集的列表。 例如,dataset1;dataset2。 当列表为空时,将导入所有可用的数据集。
- VM) (虚拟机上可用的最大内存 ((以 GB 为单位),) 扫描进程。 这取决于要扫描的 Google BigQuery 项目的大小。
- 选择“测试连接”。
- 选择 继续。
- 选择扫描触发器。 可以设置计划或运行扫描一次。
- 查看扫描并选择“ 保存并运行”。
扫描后,Google BigQuery 项目中的数据资产将在数据目录搜索中可用。 有关如何在 Microsoft Purview 中连接和管理 Google BigQuery 的更多详细信息, 请遵循此文档。
重要
删除扫描不会删除从以前的扫描创建的目录资产。
为数据质量扫描设置与 Google BigQuery 项目的连接
此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域中的数据产品,以设置数据质量扫描。
选择“数据质量 > 治理域 >管理 ”选项卡以创建连接。
配置连接
- 添加连接名称和说明
- 选择源类型 Google BigQuery
- 添加项目 ID、数据集名称和表名称
- 选择“服务帐户私钥”
- 添加 Azure 订阅
- Key Vault 连接
- 机密名称
- 机密版本
测试连接以成功配置数据源连接。
重要
数据质量专员需要对 Google BigQuery 具有 只读 访问权限才能设置数据质量连接。
Google BigQuery 中数据的分析和数据质量扫描
成功完成连接设置后,可以在 Google BigQuery 中分析、创建和应用规则,并运行数据质量扫描。 遵循以下文档中所述的分步指南: